Python机器学习方法智能识别亚马逊验证码
概述
亚马逊网站验证码全部由英文字母组成,每个字母的形式也是多样的,通过Tesseract-OCR技术识别效率还是比较低,非常不理想。这里采用向量空间技术进行训练识别,经测试,识别率可达到95%,这个识别率通过训练库的不断增加还可继续提高。下面废话不多说,直接上干货。
技术详解
亚马逊验证码如下图:
我这里收集了大量的亚马逊网站验证码,下面将随机抽一张验证码为mnyaph作详细讲解,如下图:
总体思路
1.将原图片作二值化等特殊处理转换得到低像素图片
2.分割出每个字母的图片,并加入到训练库中
3.每个字母图片在训练库中训练
4.将每个字母图片训练后的结果依次组合起来,就是最终验证码
使用技术库
PIL :图片处理库
scipy : 科学计算库
● 原图片处理这里将jpg格式转换为更小容量的gif格式,方便后面处理,并将原图片中的黑色像素(0)拷贝到新

