您的位置:首页 > 国内新闻

Python 爬虫新手教程:破解验证码技术,识别率高达百分之80!

时间:2019-08-27

爬虫新手教程:破解验证码技术,识别率高达百分之80!本文将详细介绍如何使用Tesseract软件在Python中识别验证码(数字和字母)。

当我们浏览网页或在线注册帐户时,我们经常会遇到CAPTCHA,如下所示:

每个人在学习python时都会遇到很多问题,以及对新技术的追求,这里是我们的Python学习演绎qun:这里是python学习者的聚集地!同时,我是一名高级Python开发工程师,从基本的python脚本到Web开发,爬行,django,数据挖掘等,从零基础到面向项目的数据。给每个python合作伙伴!分享一些每天需要关注的学习方法和小细节

本文将具体描述如何使用Python的图像处理模块和OCR模块pytesseract来识别上述验证码(数字加字母)。

用于识别上述验证码的算法过程如下:

原始图像被灰度化并转换为灰度图像;

获取图像中具有最大像素数的像素(这是图像的背景),将像素二值化为阈值,并将灰度图像转换为黑白图像(以提高识别的准确性) ;

去除黑白图像中的噪声,噪声定义为:以点为中心的九个方块中的黑点数小于或等于4;

pytesseract模块用于识别和删除识别结果中的特殊字符以获得识别结果。

我们的图片如下(共66张图片):

完整的Python代码如下:结果如下:

我们可以看到正确的图像识别率超过80%,数字图像的识别准确率为100%。

我们可以改进图像识别算法,提高图像识别的准确性。当然,上述算法不适用于所有验证码,不同的验证码需要不同的图像处理算法。

IT Dove

2019.08.03 14: 14

字数543

本文将详细介绍如何使用Tesseract软件在Python中识别验证码(数字和字母)。

当我们浏览网页或在线注册帐户时,我们经常会遇到CAPTCHA,如下所示:

每个人在学习python时都会遇到很多问题,以及对新技术的追求,这里是我们的Python学习演绎qun:这里是python学习者的聚集地!同时,我是一名高级Python开发工程师,从基本的python脚本到Web开发,爬行,django,数据挖掘等,从零基础到面向项目的数据。给每个python合作伙伴!分享一些每天需要关注的学习方法和小细节

本文将具体描述如何使用Python的图像处理模块和OCR模块pytesseract来识别上述验证码(数字加字母)。

用于识别上述验证码的算法过程如下:

原始图像被灰度化并转换为灰度图像;

获取图像中具有最大像素数的像素(这是图像的背景),将像素二值化为阈值,并将灰度图像转换为黑白图像(以提高识别的准确性) ;

去除黑白图像中的噪声,噪声定义为:以点为中心的九个方块中的黑点数小于或等于4;

pytesseract模块用于识别和删除识别结果中的特殊字符以获得识别结果。

我们的图片如下(共66张图片):

完整的Python代码如下:

结果如下:

我们可以看到正确的图像识别率超过80%,数字图像的识别准确率为100%。

我们可以改进图像识别算法,提高图像识别的准确性。当然,上述算法不适用于所有验证码,不同的验证码需要不同的图像处理算法。

本文将详细介绍如何使用Tesseract软件在Python中识别验证码(数字和字母)。

当我们浏览网页或在线注册帐户时,我们经常会遇到CAPTCHA,如下所示:

当你学习python时,你肯定会遇到很多困难,以及对新技术的追求。在这里,我们推荐我们的Python学习按钮qun:这是python学习者聚会的地方!同时,我是一名资深的Python开发工程师,从基本的Python脚本到web开发,爬虫,django,数据挖掘,从零到基础的实际项目数据都经过整理。对每个Python好友!每天分享一些学习方法和细节。本文将介绍如何使用Python的图像处理模块枕头和OCR模块pytesseract来识别上述验证码(数字加字母)。 识别上述验证码的算法过程如下:____________ 通过灰度处理将原始图像转换为灰度图像。获取图片中具有最大像素数的像素(这是图片背景),将像素二值化为阈值,并将灰度图像转换为黑白图像(以提高识别的准确性); 为消除黑白图像中的噪声,噪声定义为:以此点为中心的九个网格中的黑点数小于或等于4; pytesseract模块用于识别识别结果中的特殊字符,并获得识别结果。 我们的图片如下(共66张图片): 完整的Python代码如下:结果如下:我们可以看到正确的图像识别率超过80%,正确的数字图像识别率为100%。我们可以改进图像识别算法,提高图像识别的准确性。当然,上述算法不适用于所有验证码,不同的验证码需要不同的图像处理算法。

  • 友情链接:
  • 内蒙古新闻网 版权所有© www.65558868.com 技术支持:内蒙古新闻网| 网站地图