您现在的位置是:首页 > 文章详情

Python机器学习方法智能识别亚马逊验证码

日期:2018-11-06点击:620

概述

亚马逊网站验证码全部由英文字母组成,每个字母的形式也是多样的,通过Tesseract-OCR技术识别效率还是比较低,非常不理想。这里采用向量空间技术进行训练识别,经测试,识别率可达到95%,这个识别率通过训练库的不断增加还可继续提高。下面废话不多说,直接上干货。

技术详解

亚马逊验证码如下图:

e95bb376810bc678dc1c7181c0f140aaf3a7e095

我这里收集了大量的亚马逊网站验证码,下面将随机抽一张验证码为mnyaph作详细讲解,如下图:

92ee6215643935e796345772ba59b8f6b6580b2e

总体思路

1.将原图片作二值化等特殊处理转换得到低像素图片

2.分割出每个字母的图片,并加入到训练库中

3.每个字母图片在训练库中训练

4.将每个字母图片训练后的结果依次组合起来,就是最终验证码

使用技术库

PIL :图片处理库

scipy : 科学计算库

 ●   原图片处理

这里将jpg格式转换为更小容量的gif格式,方便后面处理,并将原图片中的黑色像素(0)拷贝到新

原文链接:https://yq.aliyun.com/articles/665493
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章