python 动态迁移solr数据-低调大师

python 动态迁移solr数据

2019-09-03 650

上项目的时候，遇见一次需求，需要把在线的其中一个 collection 里面的数据迁移到另外一个collection下，于是就百度了看到好多文章，其中大部分都是使用导入的方法，没有找到在线数据的迁移方法。于是写了python脚本，分享出来。

思路： collection数据量比较大，所以一次性操作所有数据太大，于是分段执行操作。

先分段按1000条数据量进行查询，处理成json数据
把处理后的json数据发送到目的collection上即可

实现:
一、使用http的接口先进行查询

使用如下格式查询：
其中：collection_name 是你查询的collection的名称
rows 是需要查询多少行，这里设置为1000
start 从多少行开始进行查询，待会儿脚本里面就是控制这个参数进行循环查询
http://host:port/solr/collection_name/select?q=*:*&rows=1000&start=0

查询处理后会得到如下图片里面的数据格式，其中
在response里面，有两个键值数据是我们需要的，一个是numFound（总的数据条数），docs（所有json数据都在这里面）

在docs里面，每条数据都带有version 键值，这个需要给去掉

二、使用http的接口提交数据
wt：使用json格式提交
http://host:port/solr/collection_name/update?wt=json

header 需设置为 {"Content-Type": "application/json"}

提交参数：solr在做索引的时候，如果文档已经存在，就替换。（这里的参数也可以直接加到url里面）
{"overwrite":"true","commit":"true"}

data_dict 就是我们处理后的 docs数据
提交数据：data={"add":{ "doc":data_dict}}

三、实现的脚本如下：

#coding=utf-8
import requests as r
import json
import threading
import time

#发送数据到目的url des_url，data_dict 参数为去掉version键值后的一条字典数据
def send_data(des_url,data_dict):
    data={"add":{ "doc":data_dict}}
    headers = {"Content-Type": "application/json"}
    params = {"boost":1.0,"overwrite":"true","&commitWithin":1000,"commit":"true"}
    url = "%s/update?wt=json"%(des_url)
    re = r.post(url,json = data,params=params,headers=headers)
    if re.status_code != 200:
        print("导入出错",data)

#获取数据，调用send_data 发送数据到目的url
def get_data(des_url,src_url):
        #定义起始行
    start = 0
    #先获取到总的数据条数
    se_data=r.get("%s/select?q=*:*&rows=0&start=%s"%(src_url,start)).text
    se_dict = json.loads(se_data)
    numFound = int(se_dict["response"]["numFound"])
    #while循环，1000条数据为一个循环
    while start < numFound:
        #定义存放多线程的列表
        th_li = []
                #获取1000条数据
        se_data=r.get("%s/select?q=*:*&rows=1000&start=%s"%(src_url,start)).text
                #把获取的数据转换成字典
        se_dict = json.loads(se_data)
                #获取数据里的docs数据
        s_data = (se_dict["response"]["docs"])

        #循环得到的数据，删除 version键值，并使用多线程调用send_data 方法发送数据
        for i in s_data:
            del i["_version_"]
            th = threading.Thread(target=send_data,args=(des_url,i))
            th_li.append(th)

        for t in th_li:
            t.start()
            t.join()

        start += 1000
        print(start)

if __name__ == "__main__":
    #源数据，查询数据的collection地址
    src_url = "http://ip:port/solr/src_connection"
    #导入数据导目的collection 的地址
    des_url = "http://ip:port/solr/des_connection"
    start_time = time.time()
    get_data(des_url,src_url)
    end_time = time.time()
    print("耗时：",end_time-start_time,"秒")

备注：
一、如果你的collection 不在同一个网络，不能实现在线传输，可以先把for循环删除了version键值的数据，写入一个文件中，然后copy到目的网络的服务器上，循环读取文件进行上传,如下写入文件（这个就根据各位大佬的喜好来写了），但读取后，需要把每一条数据都转换成字典进行上传：
file = open("solr.json","a+")
for i in s_data:
del i["version"]
file.write(str(i)+"\n")
file.close()

二、清除数据可使用一下方法，自测比较方便的一种
在你要清除collection里面

选择 documents
document type 选择xml
将一下内容复制到如图位置，最后点击submit document 按钮即可
#控制web界面删除数据
<delete><query>:</query></delete>
<commit/>

微信关注我们

原文链接：https://blog.51cto.com/zdhyw/2435090

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

配置 firewall 防火墙的地址伪装和端口转发实例

网关服务器和网站服务器都采用centos 7操作系统；网关服务器安装3块千兆网卡，分别连接在Internet、企业内网、网站服务器。要求如下：网关服务器连接互联网卡ens33配置为公网IP地址，分配到firewall的external区域；连接内网网卡ens37地址为192.168.1.1，分配到firewall的trusted区域；连接服务器网卡ens38地址为192.168.2.1，分配到firewall的DMZ区域。网站服务器和网关服务器都通过SSH来远程管理，为了安全，将SSH默认端口改为12345。网站服务器开启https，过滤未加密的http流量。网站服务器拒绝ping，网关服务器拒绝来自互联网上的ping。内网用户需要通过网关服务器共享上网。互联网用户需要访问网站服务器。基本的环境配置：网关服务器配置网卡： [root@localhost network-scripts]# ip a = ip addr 2: ens33: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state U...

2019-09-01

595

作者：田逸（formyz）问题描述某项目由两套proxmox组成，一套运行所有的应用程序，一台运行mysql数据库。为了保险起见，proxmox外挂共享存储，夜间对所有的虚拟机进行自动备份。备份是用的一台4U服务器，考虑到容量与成本，用了一台旧的4U服务器，插了好多慢速的sata盘，有效容量达超过35TB。项目上线后，前半年运行都还很正常，随着业务的增加，数据量跟着增长，特别是数据库的数量及大小。随之而来的是监控系统报警频繁，用户体验变差。而且这个影响面还挺大的。通过排查，发现是数据库虚拟机备份所致。设定的备份是从凌晨0：30分开始的，基本不能在白天上班前完成，更糟糕的情况，会延迟到傍晚。数据库的性能IO，引起访问堵塞，造成一系列的连锁反应，运维工作的压力极大。临时措施为了保证业务的正常，同时也考虑数据安全，征用一台容量小一点的闲置服务器（本来是用于其它目的），其硬盘全部为600G的15000转的sas机械硬盘。将其配置成nfs服务以后，挂接到proxmox数据中心。设定好以后，夜里安排人轮流跟踪，有报警立即相互通知，还好，未出现堵塞现象。这说明确实是sata性能太差...

2019-09-04

812

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。