1. 研究目的与意义
近年来,网络信息安全伴随着互联网的迅速发展成为备受关注的问题。作为互联网十分重要的信息媒介,蓬勃发展的网络论坛、社区、博客、微博等已悄然融入社会生活的诸多方面,人们对相伴而生的验证码生成和识别技术的研究也随之日渐升温。图像识别是一个世界性的难题,验证码识别是图像识别里的一个分支。不少网站为了防止用户利用机器人自动注册、登录、灌水,都采用了验证码识别技术。然而由于验证码需要人工的识别输入,在一定程度上增加了用户的工作量。同时也必然的增加了操作的时间,影响了工作效率。通过验证码的作用,让用户来分担网站技术安全的问题,引起了用户的很大不满。特别是在研究效率和速度的网络营销行业中,突破这个瓶颈迫在眉睫。因此出于用户方便使用的角度,针对自动验证码识别的产品也逐渐发展起来并深受用户的好评。如今,有的网络营销软件就很好的嵌入了验证码自动识别技术。
验证码(Completely automated public turingtest to tellcomputers and humans apart,CAP-TCHA)是网络上普遍采用的一种用于真人交互证明的有效方法。目前验证码主要有Gimpy,Bongo,PIX三大类,网络上流行的以Gimpy及其变形为主,Gimpy是一种基于OCR的验证码,Google,QQ,csdn.net等网站采用的验证码均与此类似 ,即任何能通过验证码测试的程序都可以用来解决一个困难的未解决的人工智能问题因此一个问题如果不能用计算机程序解决,则可以用做验证码。反之,如果这个验证码被破解,则是人工智能领域的一大进步。
所谓的验证码就是将一串随机产生的数字或符号,生成一幅图像,图像里加上一些干扰像素,由用户肉眼识别其中的验证码信息,输入表单提交网站验证,验证成功后才能使用其某项功能。如何有效地实现对网站、论坛等验证码的识别是模式识别方法在复杂互联网应用中的重要课题。从目前国内外的研究情况看,验证码识别方法主要分为 3 类:基于模板匹配的方法、基于字符结构的方法和基于神经网络的方法。
2. 研究内容与预期目标
本论文探讨基于Matlab软件,利用数字图像处理技术对数字验证码进行自动识别。首先研究验证码图片预处理的常用算法,确定适合验证码的预处理方案。其次要研究字符分割的方法使得有较好的分割效果。然后研究特征的提取,提高最终的识别率。最后研究BP算法,希望人工神经网络模式识别是一种良好的选择。
3. 研究方法与步骤
1.对原始图像进行一系列图像预处理,包括对图像的灰度变化,对图像的去噪,图像的二值化。
2.对图像进行分割,分割成一个图像显示一个数字。
3.采用hog特征提取算法,将所有重叠的块进行hog特征的收集,并将他们结合成最终的特征向量
4. 参考文献
[1] 连晓岩, 邓方. 基于图像识别和神经网络的验证码识别[C]// 中国智能自动化会议. 2011.
[2] 张坤, 王达. 基于MATLAB和BP网络的数字识别技术[J]. 内江科技, 2007, 28(11):137-137.
[3] 杜娟, 韦关锋, 李夕海. 基于matlab和神经网络的数字识别[J]. 电脑编程技巧与维护, 2004(2):31-32.
5. 工作计划
2022-1-06~2022-3-05:收集资料,查阅相关资料,完成开题;
2022-3-06~2022-3-25:熟悉MATLAB软件,掌握语言的运用;
2022-3-26~2022-5-12:研究数字验证码图片的自动识别的方法;
