python 动态迁移solr数据
上项目的时候,遇见一次需求,需要把在线的 其中一个 collection 里面的数据迁移到另外一个collection下,于是就百度了看到好多文章,其中大部分都是使用导入的方法,没有找到在线数据的迁移方法。于是写了python脚本,分享出来。
思路: collection数据量比较大,所以一次性操作所有数据太大,于是分段执行操作。
- 先分段 按1000条数据量进行查询,处理成json数据
- 把处理后的json数据 发送到目的collection上即可
实现:
一、使用http的接口先进行查询
- 使用如下格式查询:
其中:collection_name 是你查询的collection的名称
rows 是需要查询多少行,这里设置为1000
start 从多少行开始进行查询,待会儿脚本里面就是控制这个参数进行循环查询
http://host:port/solr/collection_name/select?q=*:*&rows=1000&start=0
查询处理后会得到如下图片里面的数据格式,其中
在response里面,有两个键值数据是我们需要的,一个是numFound(总的数据条数),docs(所有json数据都在这里面)
- 在docs里面,每条数据都带有version 键值,这个需要给去掉
二、使用http的接口提交数据
wt:使用json格式提交
http://host:port/solr/collection_name/update?wt=json
header 需设置为 {"Content-Type": "application/json"}
提交参数:solr在做索引的时候,如果文档已经存在,就替换。(这里的参数也可以直接加到url里面)
{"overwrite":"true","commit":"true"}
data_dict 就是我们处理后的 docs数据
提交数据:data={"add":{ "doc":data_dict}}
三、实现的脚本如下:
#coding=utf-8
import requests as r
import json
import threading
import time
#发送数据到目的url des_url,data_dict 参数为去掉version键值后的一条字典数据
def send_data(des_url,data_dict):
data={"add":{ "doc":data_dict}}
headers = {"Content-Type": "application/json"}
params = {"boost":1.0,"overwrite":"true","&commitWithin":1000,"commit":"true"}
url = "%s/update?wt=json"%(des_url)
re = r.post(url,json = data,params=params,headers=headers)
if re.status_code != 200:
print("导入出错",data)
#获取数据,调用send_data 发送数据到目的url
def get_data(des_url,src_url):
#定义起始行
start = 0
#先获取到总的数据条数
se_data=r.get("%s/select?q=*:*&rows=0&start=%s"%(src_url,start)).text
se_dict = json.loads(se_data)
numFound = int(se_dict["response"]["numFound"])
#while循环,1000条数据为一个循环
while start < numFound:
#定义存放多线程的列表
th_li = []
#获取1000条数据
se_data=r.get("%s/select?q=*:*&rows=1000&start=%s"%(src_url,start)).text
#把获取的数据转换成字典
se_dict = json.loads(se_data)
#获取数据里的docs数据
s_data = (se_dict["response"]["docs"])
#循环得到的数据,删除 version键值,并使用多线程调用send_data 方法发送数据
for i in s_data:
del i["_version_"]
th = threading.Thread(target=send_data,args=(des_url,i))
th_li.append(th)
for t in th_li:
t.start()
t.join()
start += 1000
print(start)
if __name__ == "__main__":
#源数据,查询数据的collection地址
src_url = "http://ip:port/solr/src_connection"
#导入数据导目的collection 的地址
des_url = "http://ip:port/solr/des_connection"
start_time = time.time()
get_data(des_url,src_url)
end_time = time.time()
print("耗时:",end_time-start_time,"秒")
备注:
一、如果你的collection 不在同一个网络,不能实现在线传输,可以先把for循环 删除了version键值的数据,写入一个文件中,然后copy到目的网络的服务器上,循环读取文件进行上传,如下写入文件(这个就根据各位大佬的喜好来写了),但读取后,需要把每一条数据都转换成字典进行上传:
file = open("solr.json","a+")
for i in s_data:
del i["version"]
file.write(str(i)+"\n")
file.close()
二、清除数据可使用一下方法,自测比较方便的一种
在你要清除collection里面
- 选择 documents
- document type 选择xml
- 将一下内容复制到如图位置,最后点击submit document 按钮即可
#控制web界面删除数据
<delete><query>:</query></delete>
<commit/>

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
配置 firewall 防火墙的地址伪装和端口转发实例
网关服务器和网站服务器都采用centos 7操作系统;网关服务器安装3块千兆网卡,分别连接在Internet、企业内网、网站服务器。要求如下:网关服务器连接互联网卡ens33配置为公网IP地址,分配到firewall的external区域;连接内网网卡ens37地址为192.168.1.1,分配到firewall的trusted区域;连接服务器网卡ens38地址为192.168.2.1,分配到firewall的DMZ区域。网站服务器和网关服务器都通过SSH来远程管理,为了安全,将SSH默认端口改为12345。网站服务器开启https,过滤未加密的http流量。网站服务器拒绝ping,网关服务器拒绝来自互联网上的ping。内网用户需要通过网关服务器共享上网。互联网用户需要访问网站服务器。基本的环境配置:网关服务器配置 网卡 : [root@localhost network-scripts]# ip a = ip addr 2: ens33: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state U...
-
下一篇
Proxmox虚拟机自动备份填坑记
作者:田逸(formyz) 问题描述 某项目由两套proxmox组成,一套运行所有的应用程序,一台运行mysql数据库。为了保险起见,proxmox外挂共享存储,夜间对所有的虚拟机进行自动备份。 备份是用的一台4U服务器,考虑到容量与成本,用了一台旧的4U服务器,插了好多慢速的sata盘,有效容量达超过35TB。项目上线后,前半年运行都还很正常,随着业务的增加,数据量跟着增长,特别是数据库的数量及大小。随之而来的是监控系统报警频繁,用户体验变差。而且这个影响面还挺大的。通过排查,发现是数据库虚拟机备份所致。 设定的备份是从凌晨0:30分开始的,基本不能在白天上班前完成,更糟糕的情况,会延迟到傍晚。数据库的性能IO,引起访问堵塞,造成一系列的连锁反应,运维工作的压力极大。 临时措施 为了保证业务的正常,同时也考虑数据安全,征用一台容量小一点的闲置服务器(本来是用于其它目的),其硬盘全部为600G的15000转的sas机械硬盘。将其配置成nfs服务以后,挂接到proxmox数据中心。 设定好以后,夜里安排人轮流跟踪,有报警立即相互通知,还好,未出现堵塞现象。这说明确实是sata性能太差...
相关文章
文章评论
共有0条评论来说两句吧...