搜索[快速入门]结果-低调大师优秀个人博客

精选列表

搜索[快速入门]，共10000篇文章

22、Python快速开发分布式搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别

转自： http://www.bdyss.cn http://www.swpan.cn 第一步。首先下载，大神者也的倒立文字验证码识别程序下载地址：https://github.com/muchrooms/zheye 注意：此程序依赖以下模块包 Keras==2.0.1 Pillow==3.4.2 jupyter==1.0.0 matplotlib==1.5.3 numpy==1.12.1 scikit-learn==0.18.1 tensorflow==1.0.1 h5py==2.6.0 numpy-1.13.1+mkl 我们用豆瓣园来加速安以上依赖装如： pipinstall-ihttps://pypi.douban.com/simpleh5py==2.6.0 如果是win系统，可能存在安装失败的可能，如果那个包安装失败，就到 http://www.lfd.uci.edu/~gohlke/pythonlibs/ 找到win对应的版本下载到本地安装，如： pipinstallh5py-2.7.0-cp35-cp35m-win_amd64.whl 第二步，将者也的，验证码识别程序的zheye文件夹放到工程目录里第三步，爬虫实现 start_requests()方法，起始url函数，会替换start_urls Request()方法，get方式请求网页 url=字符串类型url headers=字典类型浏览器代理 meta=字典类型的数据，会传递给回调函数 callback=回调函数名称 scrapy.FormRequest()post方式提交数据 url=字符串类型url headers=字典类型浏览器代理 meta=字典类型的数据，会传递给回调函数 callback=回调函数名称 formdata=字典类型，要提交的数据字段 response.headers.getlist('Set-Cookie')获取响应Cookiesresponse.request.headers.getlist('Cookie')获取请求Cookies #-*-coding:utf-8-*- importscrapy fromscrapy.httpimportRequest,FormRequest importre classPachSpider(scrapy.Spider):#定义爬虫类，必须继承scrapy.Spider name='pach'#设置爬虫名称 allowed_domains=['zhihu.com']#爬取域名 #start_urls=['']#爬取网址,只适于不需要登录的请求，因为没法设置cookie等信息 header={'User-Agent':'Mozilla/5.0(WindowsNT10.0;WOW64;rv:54.0)Gecko/20100101Firefox/54.0'}#设置浏览器用户代理 defstart_requests(self):#起始url函数，会替换start_urls """第一次请求一下登录页面，设置开启cookie使其得到cookie，设置回调函数""" return[Request( url='https://www.zhihu.com/#signin', headers=self.header, meta={'cookiejar':1},#开启Cookies记录，将Cookies传给回调函数 callback=self.parse )] defparse(self,response): #响应Cookies Cookie1=response.headers.getlist('Set-Cookie')#查看一下响应Cookie，也就是第一次访问注册页面时后台写入浏览器的Cookie print('后台首次写入的响应Cookies：',Cookie1) #获取xsrf密串 xsrf=response.xpath('//input[@name="_xsrf"]/@value').extract()[0] print('获取xsrf密串：'+xsrf) #获取验证码 importtime t=str(int(time.time()*1000)) captcha_url='https://www.zhihu.com/captcha.gif?r={0}&type=login&lang=cn'.format(t)#构造验证码请求地址 yieldRequest(url=captcha_url,#请求验证码图片 headers=self.header, meta={'cookiejar':response.meta['cookiejar'],'xsrf':xsrf},#将Cookies和xsrf密串传给回调函数 callback=self.post_tj ) defpost_tj(self,response): withopen('yzhm.jpg','wb')asf:#打开图片句柄 f.write(response.body)#将验证码图片写入本地 f.close()#关闭句柄 #---------------------------者也验证码识别----------------------- fromzheyeimportzheye#导入者也倒立文字验证码识别模块对象 z=zheye()#实例化对象 positions=z.Recognize('yzhm.jpg')#将验证码本地路径传入Recognize方法识别，返回倒立图片的坐标 #print(positions)#默认倒立文字的y坐标在前，x坐标在后 #知乎网要求的倒立文字坐标是x轴在前，y轴在后，所以我们需要定义一个列表来改变默认的，倒立文字坐标位置 pos_arr=[] iflen(positions)==2: ifpositions[0][1]>positions[1][1]:#判断列表里第一个元祖里的第二个元素如果大于,第二个元祖里的第二个元素 pos_arr.append([positions[1][1],positions[1][0]]) pos_arr.append([positions[0][1],positions[0][0]]) else: pos_arr.append([positions[0][1],positions[0][0]]) pos_arr.append([positions[1][1],positions[1][0]]) else: pos_arr.append([positions[0][1],positions[0][0]]) print('处理后的验证码坐标',pos_arr) #-------------者也验证码识别结束-------- iflen(pos_arr)==2: data={#设置用户登录信息，对应抓包得到字段 '_xsrf':response.meta['xsrf'], 'password':'279819', 'captcha':'{"img_size":[200,44],"input_points":[[%.2f,%f],[%.2f,%f]]}'%( pos_arr[0][0]/2,pos_arr[0][1]/2,pos_arr[1][0]/2,pos_arr[1][1]/2),#因为验证码识别默认是400X88的尺寸所以要除以2 'captcha_type':'cn', 'phone_num':'15284816568' } else: data={#设置用户登录信息，对应抓包得到字段 '_xsrf':response.meta['xsrf'], 'password':'279819', 'captcha':'{"img_size":[200,44],"input_points":[[%.2f,%f]]}'%( pos_arr[0][0]/2,pos_arr[0][1]/2), 'captcha_type':'cn', 'phone_num':'15284816568' } print('登录提交数据',data) print('登录中....!') """第二次用表单post请求，携带Cookie、浏览器代理、用户登录信息，进行登录给Cookie授权""" return[scrapy.FormRequest( url='https://www.zhihu.com/login/phone_num',#真实post地址 meta={'cookiejar':response.meta['cookiejar']},#接收第传过来的Cookies headers=self.header, formdata=data, callback=self.next )] defnext(self,response): #请求Cookie Cookie2=response.request.headers.getlist('Cookie') print('登录时携带请求的Cookies：',Cookie2) jieg=response.body.decode("utf-8")#登录后可以查看一下登录响应信息 print('登录响应结果：',jieg) print('正在请需要登录才可以访问的页面....!') """登录后请求需要登录才能查看的页面，如个人中心，携带授权后的Cookie请求""" yieldRequest( url='https://www.zhihu.com/people/lin-gui-xiu-41/activities', headers=self.header, meta={'cookiejar':True}, callback=self.next2 ) defnext2(self,response): #请求Cookie Cookie3=response.request.headers.getlist('Cookie') print('查看需要登录才可以访问的页面携带Cookies：',Cookie3) leir=response.xpath('/html/head/title/text()').extract()#得到个人中心页面 print('最终内容',leir) #print(response.body.decode("utf-8")) 【转载自：http://www.lqkweb.com】

2019-07-11

速来围观老司机快速排错--解决论坛迁移到proxmox超融合私有云平台后后部分功能不能使用的问题

问题描述考虑到在山东移动机房租赁的物理服务器的存在单点，并时不时出现故障，导致业务停止，因此决定从物理服务器把某个老牌论坛迁移到可用性极高的proxmox超融合私有云平台。昨天夜里，兄弟们忙乎了一整夜，很是辛苦（我在11点对那些坏掉的文件系统进行修复，用screen仍在那里，自己睡觉去了）。上午睡了个懒觉，还没清醒过来，有电话、qq消息过来了，说论坛页面能打开，详情页也没问题，但不能签到、发帖、发附件等。催得厉害，赶紧进行处理。运行环境主要包括负载均衡及超融合私有云proxmox。负载均衡负责用户转发，使用的是公网ip；超融合私有云proxmox使用的是四个节点的物理服务器，运行30几个虚拟机。域名解析到负载均衡的vip，haproxy负责把请求转发到proxmox上的指定的虚拟机。由于论坛容量不是很大（400G左右），就直接把论坛程序、附件及数据库部署在同一个虚拟机上（其它的应用，程序与数据库是分离的）。基本思路超融合私有云平台proxmox上的其它虚拟机及应用都是正常状态，因此可以排除底层架构的问题。另外两个大的排查点就是负载均衡及论坛虚拟机本身。其他兄弟怀疑是负载均衡配置的问题，还发来了相关操作信息。我一直强调，一定要先从后端真实提供服务的系统进行排查，真实服务提供者有问题，排查负载均衡有什么用处呢？问题定位登录系统，查看论坛的配置，主要是nginx及php。论坛页面可以打开，可以初步断定php没什么问题。接下来，打开nginx配置看看，主配置文件有如下几行包含项： includevhosts/default.conf; includevhosts/bbs.formyz.net.conf; includevhosts/file.formyz.net.conf; includevhosts/net.formyz.net.conf; include vhosts/default.conf;include vhosts/bbs.formyz.net.conf;include vhosts/file.formyz.net.conf;include vhosts/net.formyz.net.conf; 对nginx进行语法检查，未发现异常。老办法，查nginx错误日志，很快有如下发现： FastCGIsentinstderr:"Primaryscriptunknown"whilereadingresponseheaderfromupstream FastCGI sentinstderr:"Primary script unknown"whilereading response header from upstream 心中有底了，一定是哪个包含文件配置上有问题。分别对这三个配置文件进行备份，然后挨个打开，发先有两个配置文件里，嵌套了包含项如下： root/data/html/bbs.formyz.net; fastcgi_pass127.0.0.1:9000; fastcgi_indexindex.php; includefastcgi.conf; root /data/html/bbs.formyz.net; fastcgi_pass 127.0.0.1:9000; fastcgi_index index.php; include fastcgi.conf; 而另外一个配置文件里，嵌套的项确是这样的： root/data/html/bbs.formyz.net; fastcgi_pass127.0.0.1:9000; fastcgi_indexindex.php; includefastcgi_params; root /data/html/bbs.formyz.net; fastcgi_pass 127.0.0.1:9000; fastcgi_index index.php; include fastcgi_params; 再比较文件fastcgi.conf与文件fastcgi_params，不同之处如下： Fastcgi.conf fastcgi_params fastcgi_param SCRIPT_FILENAME $document_root$fastcgi_script_name; fastcgi_param SCRIPT_NAME $fastcgi_script_name; 把不一致的嵌套包含，都改成include fastcgi.conf，重启nginx。绑定服务器的主机名及ip到本地的hosts文件，浏览器访问论坛，测试签到、发帖等，一切恢复正常！

2019-04-27

4月23日云栖精选夜读 | 阿里云首次在ASPLOS'19发布重磅论文：揭秘帮助ECS快速迭代的热升级技术

热点热议阿里云首次在ASPLOS'19发布重磅论文：揭秘帮助ECS快速迭代的热升级技术作者：宝惜因热爱而编码，创造至美生活，挑战高效工作阿里云智能开发者创新应用大赛全记录作者：阿里ACE 彭飞发表在

2019-04-22

《编写高质量代码：改善Objective-C程序的61个建议》——建议13：在访问集合时要优先考虑使用快速枚举

建议13：在访问集合时要优先考虑使用快速枚举在Objective-C语言中，集合是最常用的数据类型。而对于集合的访问，要优先考虑使用快速枚举。使用快速枚举，要尽可能使用枚举新的写法。

2017-05-01

Python爬虫入门教程 63-100 Python字体反爬之一，没办法，这个必须写，反爬第3篇

背景交代在反爬圈子的一个大类，涉及的网站其实蛮多的，目前比较常被爬虫coder欺负的网站，猫眼影视，汽车之家，大众点评，58同城，天眼查......还是蛮多的，技术高手千千万，总有五花八门的反爬技术出现，对于爬虫coder来说，干！就完了，反正也996了~ 作为一个系列的文章，那免不了，依旧拿猫眼影视“学习”吧，为什么？因为它比较典型~ 猫眼影视打开猫眼专业版，常规操作，谷歌浏览器，开发者工具，抓取DOM节点， https://piaofang.maoyan.com/?ver=normal 注意下图所有的数字位置，在DOM结构中，都是方块。字体反爬扫盲字体反爬，是一种常见的反爬技术，网站采用了自定义的字体文件，在浏览器上正常显示，但是爬虫抓取下来的数据要么就是乱码，要么就是变成其他字符。采用自定义字体文件是CSS3的新特性，熟悉前端的同学

2019-11-11

Python爬虫入门教程 59-100 python爬虫高级技术之验证码篇5-极验证识别技术之二

@[toc] 图片比对昨天的博客已经将图片存储到了本地，今天要做的第一件事情，就是需要在两张图片中进行比对，将图片缺口定位出来缺口图片完整图片计算缺口坐标对比两张图片的所有RBG像素点，得到不一样像素点的x值，即要移动的距离 def get_distance(self,cut_image,full_image): # print(cut_image.size) threshold = 50 for i in range(0,cut_image.size[0]): for j in range(0,cut_image.size[1]): pixel1 = cut_image.getpixel((i, j))

2019-06-23

Python爬虫入门教程 58-100 python爬虫高级技术之验证码篇4-极验证识别技术之一

验证码类型今天要搞定的验证码属于现在使用非常多的验证码的一种类型---极验证滑动验证码，关于这个验证码的详细说明查阅他的官网，https://www.geetest.com/ 把验证码做到这个地步，必须点赞了。官网最新效果官方DEMO最新的效果如下，按照验证码的更新频率，基本博客看完，验证码也更新了，不过套路依旧是相同的，反爬只能增加爬虫编写的成本，并不能完全杜绝爬虫。这类验证码，常规解决办法，模拟人为操作，图像比对，查找缺口，移动覆盖缺口。找个用极验证的网站今天看新闻，随意找了一下，虎嗅使用的是直接拖拽，没有用最新的点击+拖拽方式，可以直接看一下如何操作。这种验证码除了打码平台以外，直接selenium搞起拼接验证码图片当你在谷歌浏览器使用F12进行查找元素的时候，随意的去缺口图片上面点击一下，在控制台DOM结构中出现如下代码

2019-06-19

Python爬虫入门教程 57-100 python爬虫高级技术之验证码篇3-滑动验证码识别技术

滑动验证码介绍本篇博客涉及到的验证码为滑动验证码，不同于极验证，本验证码难度略低，需要的将滑块拖动到矩形区域右侧即可完成。这类验证码不常见了，官方介绍地址为：https://promotion.aliyun.com/ntms/act/captchaIntroAndDemo.html使用起来肯定是非常安全的了，不是很好通过机器检测如何判断验证码类型这个验证码的标识一般比较明显，在页面源码中一般存在一个 nc.js 基本可以判定是阿里云的验证码了 <script type="text/javascript" src="//g.alicdn.com/sd/ncpc/nc.js?t=1552906749855"></script> 识别套路截止到2019年3月18日，本验证码加入了大量的selenium关键字验证，

2019-06-18

python-模块入门二(模块循环导入,区分python文件的两种用途,模块搜索路径,软件开发的目录规范)

一、模块的循环导入问题 run.py # import m1 # 第一次导入 m1.py # 错误示范 ''' print('正在导入m1') from m2 import y #第一次导入m2 x='m1' ''' m2.py # 错误示范 ''' print('正在导入m2') from m1 import x y='m2' ''' 解决方案: 一:把循环导入的语句放到名字定义的后面 # m1.py# y='m2' # from m1 import x # m2.py # print('正在导入m2') # # y='m2' # from m1 import x 二:将循环导入的语句放到函数内 # m1.py print('正在导入m1') def f1(): from m2 import y,f2 #第一次导入m2 print('m1.f1---->y: ',y) f2() x='m1' # m2.pydef f2(): from m1 import x print('m2.f2--->x: ',x) y='m2' 二、区分python文件的两种用途当文件被执行时__name__=='__main__' 当文件被导入时__name__=='模块名' if __name__ == '__main__': f1() f2() 三、模块的搜索路径模块搜索路径的优先级:1.内存中已经加载过的,2.内置模块,3.sys.path第一个值是当前执行文件所在的文件夹环境变量是以当前执行文件为准的. 注: 所有被导入的模块参照环境变量sys.path都是以执行文件为准的.被导入的模块再去导入其它模块,也是参照sys.path 四、绝对导入与相对导入绝对导入:以执行文件的sys.path为起始位置开始导入,称之为绝对导入优点:执行文件与被导入的模块中都可以用缺点:所有导入都是以sys.path为起始点,导入麻烦相对导入: 符号:一个"."代表当前所在文件夹,".."代表上一级文件夹,"..."代表上一级的上一级文件夹优点:导入更加简单缺点:只能在导入包中的模块时才能使用,不能在执行文件中使用注意: 执行文件中只能用绝对导入五、软件开发的目录规范规范化的目录结构能更好的控制程序,让程序具有更高的可读性 1.可读性高 2.可维护性高通常一个项目都会有的目录如下: 项目名/ | -- bin/ #程序启动脚本/程序入口 | | -- start.py | | -- conf/ #配置文件 | | --settings.py | -- core/ #业务逻辑 | | --src.py | -- db/ | | --数据库文件 | -- lib/ #第三方库 | | --common.py | -- log/ #日志 | | --transaction.log README #说明文档目录后继会继续补充! 焚膏油以继晷，恒兀兀以穷年。

2018-08-07

Python入门(二)——IDE选择PyCharm，输入和输出，基础规范，数据类型和变量,常量，字符串和编码，格式化

Python入门(二)——IDE选择PyCharm，输入和输出，基础规范，数据类型和变量,常量，字符串和编码，格式化我们从今天就开始正式的学习PY交易了，PY交易还行，我们有基础之后学习起来倒不是说那么的被动

2018-04-01

《Android App开发入门：使用Android Studio 2.X开发环境》——2-7 使用 USB 线将程序部署到手机上执行

2-7 使用 USB 线将程序部署到手机上执行先前都是在仿真器上测试程序执行结果，若想将写好的程序直接放在 Android 手机上执行，则可用手机附带的 USB 线把手机与计算机相连，再从 ADT 中直接将程序上传到手机中执行。若要使用 USB 连接的方式，则必须打开手机的调试功能。进入手机的设置界面，按照下面的步骤设置，启用手机的调试功能（不同品牌 / 型号的手机，设置项的名称、位置可能略有不同）。通过 USB 将 Android App 传送到手机安装并执行要用手机连接 USB，还要安装手机的 USB 驱动程序，少数手机可使用 SDK 内附的Google USB Drive，多数手机则建议使用专用的驱动程序。若用户尚未安装手机的 USB 驱动程序，也不知如何下载，则可连接到 Android 网站（https://deve

2017-08-31

使用米芯智能模块C-8082US快速、低成本、标准化接入阿里云生活物联网(飞燕)开发生活类智能家电

使用米芯智能模块快速开发物联网智能电风扇。实现电风扇（

2020-03-31

24、Python快速开发分布式搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图

【百度云搜索:http://www.lqkweb.com】【搜网盘:http://www.swpan.cn】 1、基本概念 2、反爬虫的目的 3、爬虫和反爬的对抗过程以及策略 scrapy架构源码分析图

2019-07-29

数据让生意更简单，网聚宝创业团队利用数加快速打造核心业务竞争力，在激烈的市场竞争中弯道超车。

“可以毫不保留的来讲，我们现在内部团队具备的大数据处理的能力相当于阿里巴巴的处理能力，所以我们能够很快速、便捷的给我们的品牌提供多样化的丰富的完整闭环的大数据的营销和解决方案的能力”熊大如是说。

2017-01-15

【入门到精通，23天掌握Elasticsearch大数据实时搜索与分析能力】eBay技术大牛阮一鸣邀您免费听课

课程预约点击参与>>>>《Elasticsearch 入门公开课23讲》

2020-03-01

Android Things创客DIY第六课-Android Things入门配件包开发案例教程-4位数码管显示

4位数码管显示之前的《Android Things创客DIY第三课-Android Things入门配件包开发案例教程-数码管显示》中，介绍了如何使用Android Things控制1位数码管显示。

2018-03-03

《Android App开发入门：使用Android Studio 2.X开发环境》——1-2 在计算机的仿真器上执行 App

1-2 在计算机的仿真器上执行 App

2017-08-31

Spark入门到精通视频学习资料--第二章：Spark生态系统介绍，Spark整体概述与Spark编程模型（2讲）

概述什么是Spark ◆ Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。其架构如下图所示： Spark的适用场景 ◆ Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小 ◆ 由于RDD的特性，Spark不适用那种异步细粒度更新状态的应用，例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。 ◆ 总的来说Spark的适用面比较广泛且比较通用。详细内容请参考视频： Spark概述与编程模型（上） http://pan.baidu.com/s/1kT9okBl Spark概述与编程模型（下） http://pan.baidu.com/s/16OEjc 另外给个相关的PDF文件供参考： Spark概述与编程模型.pdf http://pan.baidu.com/s/1mg64rMw ========================================================== 申明：视频资料已过期，建议不要再下载了。 ==========================================================

2015-02-25

一分钟学会、三分钟上手、五分钟应用，快速上手责任链框架详解 | 京东云技术团队

pie 是一个可快速上手的责任链框架，开发者只需要专注业务，开发相应的业务Handler，即可完成业务的责任链落地。一分钟学会、三分钟上手、五分钟应用，欢迎 star。

2023-05-06

9月30日云栖精选夜读 | 对于初学C++的人来说，你觉得从入门到精通需要多长时间？应该怎么学？

热点热议对于初学C++的人来说，你觉得从入门到精通需要多长时间？应该怎么学？

2018-09-29

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。