0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Python 只需20行代码即可实现验证码识别

马哥Linux运维 来源:未知 作者:李建兵 2018-03-16 15:23 次阅读

一、探讨

识别图形验证码可以说是做爬虫的必修课,涉及到计算机图形学,机器学习机器视觉人工智能等等高深领域……

简单地说,计算机图形学的主要研究内容就是研究如何在计算机中表示图形、以及利用计算机进行图形的计算、处理和显示的相关原理与算法。图形通常由点、线、面、体等几何元素和灰度、色彩、线型、线宽等非几何属性组成。计算机涉及到的几何图形处理一般有 2维到n维图形处理,边界区分,面积计算,体积计算,扭曲变形校正。对于颜色则有色彩空间的计算与转换,图形上色,阴影,色差处理等等。

在破解验证码中需要用到的知识一般是 像素,线,面等基本2维图形元素的处理和色差分析。常见工具为:

支持向量机(SVM)

OpenCV

图像处理软件(Photoshop,Gimp…)

Python Image Library

二、PIL安装

PIL: Python Imaging Library, 是Python平台的图像处理标准库,功能非常强大。

在Debian/Ubantu Linux下直接通过apt安装:

$sudo apt-get install python-imaging

Max和其他版本的Linux可以直接使用easy_install或pip安装,安装前需要把编译环境装好:

$ sudo easy_install PIL

Windos平台可以直接去PIL官网下载exe安装包。http://pythonware.com/products/pil/

注:官网提供的安装包是32位的,64位系统请前往这里http://www.lfd.uci.edu/~gohlke/pythonlibs/#pillow下载替代包pillow。

三、一般思路

验证码识别的一般思路为:

1、图片降噪

2、图片切割

3、图像文本输出

3.1 图片降噪

所谓降噪就是把不需要的信息通通去除,比如背景,干扰线,干扰像素等等,只剩下需要识别的文字,让图片变成2进制点阵最好。

对于彩色背景的验证码:每个像素都可以放在一个5维的空间里,这5个维度分别是,X,Y,R,G,B,也就是像素的坐标和颜色,在计算机图形学中,有很多种色彩空间,最常用的比如RGB,印刷用的CYMK,还有比较少见的HSL或者HSV,每种色彩空间的维度都不一样,但是可以通过公式互相转换。在RGB空间中不好区分颜色,可以把色彩空间转换为HSV或HSL。色彩空间参见http://baike.baidu.com/view/3427413.htm

验证码图片7039.jpg:

1、导入Image包,打开图片:

fromPIL importImage

im = Image.open('7039.jpg')

2、把彩色图像转化为灰度图像。RBG转化到HSI彩色空间,采用I分量:

imgry = im.convert('L')

imgry.show()

灰度看起来是这样的:

3、二值化处理

二值化是图像分割的一种常用方法。在二值化图象的时候把大于某个临界灰度值的像素灰度设为灰度极大值,把小于这个值的像素灰度设为灰度极小值,从而实现二值化(一般设置为0-1)。根据阈值选取的不同,二值化的算法分为固定阈值和自适应阈值,这里选用比较简单的固定阈值。

把像素点大于阈值的设置,1,小于阈值的设置为0。生成一张查找表,再调用point()进行映射。

threshold = 140

table = []

foriinrange(256):

ifi < threshold:

table.append(0)

else:

table.append(1)

out = imgry.point(table,'1')

out.show()

处理结果看起来是这样的:

3.2 图片切割

识别验证码的重点和难点就在于能否成功分割字符,对于颜色相同又完全粘连的字符,比如google的验证码,目前是没法做到5%以上的识别率的。不过google的验证码基本上人类也只有30%的识别率。本文使用的验证码例子比较容易识别。可以不用切割,有关图片切割的方法参见这篇博客:http://www.cnblogs.com/apexchu/p/4231041.html

四、利用pytesser模块实现识别

pytesser是谷歌OCR开源项目的一个模块,在python中导入这个模块即可将图片中的文字转换成文本。

链接:https://code.google.com/p/pytesser/

pytesser 调用了 tesseract。在python中调用pytesser模块,pytesser又用tesseract识别图片中的文字。

4.1 pytesser安装

如果没有安装PIL,请到这里下载安装:http://www.pythonware.com/products/pil/

安装pytesser,下载地址:http://code.google.com/p/pytesser/ ,下载后直接将其解压到项目代码下,或者解压到python安装目录的Libsite-packages下,并将其添加到path环境变量中,不然在导入模块时会出错。

下载Tesseract OCR engine:http://code.google.com/p/tesseract-ocr/ ,下载后解压,找到tessdata文件夹,用其替换掉pytesser解压后的tessdata文件夹即可。

另外如果现在都是从PIL库中运入Image,没有使用Image模块,所以需要把pytesser.py中的import Image改为from PIL import Image, 其次还需要在pytesser文件夹中新建一个__init__.py的空文件。

ps:如果觉得后面两步比较麻烦,可以直接到云盘中下载 http://yun.baidu.com/s/1jHJvNiI,操作如步骤2。

4.2 调用pytesser识别

pytesser提供了两种识别图片方法,通过image对象和图片地址,代码判断如下:

fromPIL importImage

frompytesser importpytesser

image = Image.open('7039.jpg')

printpytesser.image_file_to_string('7039.jpg')

printpytesser.image_to_string(image)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 代码
    +关注

    关注

    30

    文章

    4554

    浏览量

    66726
  • python
    +关注

    关注

    51

    文章

    4670

    浏览量

    83457

原文标题:20行 Python 代码实现验证码识别

文章出处:【微信号:magedu-Linux,微信公众号:马哥Linux运维】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    织梦dedecms登陆提示“验证码不正确”的完整解决方案

    时的验证码验证步骤,具体办法是:可以取消掉验证码,具体方法如下实现的方法一共分为两步来进行:打开 dede/login.php 找到:if($validate=='' || $vali
    发表于 03-10 23:53

    10种意想不到的验证码风格设计

    QapTchaQapTcha–拖曳式jQuery验证码系统。作为用户,我们只需移动滚动条。2. buttonCaptcha这个要复杂点,需要拖动目标字母。3. Fancy Draggable
    发表于 05-05 14:03

    什么时候才能发帖不需要验证码?

    每次发帖都要验证码,什么时候才能发帖不需要验证码?
    发表于 06-04 19:17

    12306图片验证码难倒了谁?

    验证码的清晰度也不高,识别起来比较困难。有些关键词还从一个变成了两个。0  记者登录12306时,就碰到了系统需要识别“排风机和挂钟”的图片,由于系统所给的8张图片有些模糊,记者分辨了半天才进行选择
    发表于 12-08 10:29

    论坛注册时不显示验证码

    论坛注册时不显示验证码啊,提交时提示验证码错误,希望早点解决,这是用别人的号发的!!!!!!!!!!!
    发表于 03-01 21:45

    无法验证邮箱,总是提示验证码错误,验证码明明是正确的。

    `无法验证邮箱,总是提示验证码错误,验证码明明是正确的。是不是系统的bug?`
    发表于 05-12 10:41

    为什么短信验证码在我们生活中频频出现

    随着时代的进步和科学技术的发展,越来越多的企业已经离不开短信验证码发送平台了,因为它可以帮助企业处理大量的用户信息,提高接收短信验证码的经验意识。大型网站提供了短信验证码功能,更准确、更安全地保证了
    发表于 04-16 23:12

    Python OCR 识别库-ddddocr

    对他们彻底说拜拜,它的名字是 ddddocr 带带弟弟 OCR 通用验证码识别 SDK 免费开源版。 安装将自动安装符合自己电脑环境的最新 ddddocr。Python 环境需要小于等于 3.9
    发表于 03-30 17:26

    一文解析验证码与打平台的攻防对抗

    灰产的攻击手段也不断提升。本文就从验证码与打平台的对抗讲起。  何为打平台?  打平台的基本原理是利用人工智能技术实现
    发表于 09-28 11:02

    平台是如何高效的破解市面上各家验证码平台的各种形式验证码的?

    验证码与打平台的对抗讲起。何为打平台?打平台的基本原理是利用人工智能技术实现验证码设计原
    发表于 11-01 15:21

    RT-Thread studio sdk manager下载镜像为何没有图形验证码

    rt-thread studio sdk manager下载镜像为何没有图形验证码?正常从gitee下载代码会进行图形验证但是为何在Rt-thread Studio中下载却没有提示验证
    发表于 02-15 10:23

    【国民技术N32项目移植】手机验证码项目移植4--手机验证码计算

    ,同时看到device_id的第4个数就是验证码中的第4个数。四 在windows平台计算验证码如下图,把同样的TOTP算法代码移植到到windows平台,编译后,同一时间计算的验证码
    发表于 02-24 14:45

    多样变换的手写验证码自动识别算法

    提出了一种多样变换的手写验证码自动识别算法,对彩色验证码进行识别主要包括彩色验证码的二值化、手写字符的区域分割、同一字符的区域连接、使用卷积
    发表于 12-20 14:14 0次下载

    以一个真实网站的验证码为例,实现了基于一下KNN的验证码识别

    很多网站登录都需要输入验证码,如果要实现自动登录就不可避免的要识别验证码。本文以一个真实网站的验证码为例,
    的头像 发表于 12-24 17:27 7431次阅读

    Java 中验证码的使用

    今天我们讲一下在 Java 中验证码的使用。 验证码生成 本效果是利用easy-captcha工具包实现,首先需要添加相关依赖到pom.xml中,代码如下: com .github.w
    的头像 发表于 09-25 11:11 455次阅读
    Java 中<b class='flag-5'>验证码</b>的使用