《数字验证码识别的设计与实现 计算机科学和技术专业.docx》由会员分享,可在线阅读,更多相关《数字验证码识别的设计与实现 计算机科学和技术专业.docx(26页珍藏版)》请在第一文库网上搜索。
1、数字验证码识别的设计与实现摘要数字验证码在安全方面起着十分大的用处,因此在很多网站都可以看到数字验证码的使用。如今互联网的发展相当快速,紧随着我们也就需要思考安全问题,隐私的泄露会或重或轻的影响用户,而数字验证码作为互联网安全的常用的屏障,可以让互联网生态环境更加健康便利且很好的保护用户隐私。目前,在网站上中相对常用的是由数字、字母组成的数字验证码。本文针对粘连且存在干扰噪声的数字验证码图像识别性能欠佳的情况,通过比较各种识别数字验证码的方法,最终选择使用KNN算法作为数字验证码字符识别方法,本课题对有粘连扭曲情况的数字验证码的识别进行设计和分析,过程主要是以下三步:预处理、匹配识别、分析识别
2、率。图片预处理过程采用了灰度化、二值化、降噪和分割,在分割图片阶段,可能出现检测出四、三、二和一个字符的情况,分别采用不同的方法进行处理,再采用Python工具进行单字符匹配,最后通过KNN算法来识别匹配数字验证码,得到了高达94.4%的识别率,这说明采用该算法能很好的识别粘连扭曲的数字验证码图片。关键词验证码识别;KNN算法;验证码匹配;PythonDesignandImp1ementationofDigita1AuthenticationCodeRecognitionAbstractDigita1AuthenticationCode(DAC)p1aysaveryimportantro1ei
3、nsecurity,soitcanbeusedinmanywebsites.Withtherapiddeve1opmentoftheInternet,wea1soneedtothinkaboutsecurityissues.The1eakofprivacywi11affectusersmoreor1ess.Digita1AuthenticationCode,asacommonbarriertoInternetsecurity,canmaketheInterneteco1ogica1environmenthea1thier,moreconvenientandbetterprotectuserpr
4、ivacy.Atpresent,there1ative1ycommondigita1verificationcodeonwebsitesiscomposedofnumbersand1etters.Inviewofthepoorperformanceofimagerecognitionofdigita1verificationcodeswithg1ueandinterferencenoise,thispaperchoosesKNNa1gorithmasthecharacterrecognitionmethodofdigita1verificationcodesbycomparingvarious
5、methodsofidentifyingdigita1verificationcodes.Thistopicdesignsandana1yzestherecognitionofdigita1verificationcodeswithg1uedistortion.Theprocessmain1yconsistsofthreestepsipreprocessing,Matchrecognition,ana1yzerecognitionrate.Picturepreprocessingprocessusesgraysca1e,binarization,noisereductionandsegment
6、ation.Inthephaseofimagesegmentation,four,three,twoandonecharactersmaybedetected.Differentmethodsareusedtoprocessthem,thensing1echaractermatchingisperformedwithPythontoo1s.Fina11y,matchingnumberverificationcodesarerecognizedbyKNNa1gorithm,andtherecognitionrateisupto94.4%.Thisdemonstratesthatthea1gori
7、thmcanrecognizethedistorteddigita1authenticationcodepictureverywe11.KeywordsVerificationcodeidentification;KNNrecognition;VerificationCodeMatching;Python第一章绪论1.1 研究目的及意义当前,随着互联网技术的不断创新研发,我国科技技术飞速发展,各类新兴产品应运而生,在不断丰富人们生活的同时,提高了人们生活质量与生活水平。当前,随着网络技术不断的应用与普及,各类识别技术运用其中,极大的提高了网络使用的安全性与便捷性,当前识别技术应用较为广泛,如语
8、音识别,图像识别,射频识别,数字验证码识别等,对我国军事,刑侦,医学等各领域产生了积极的贡献与作用。在本文中,主要对数字验证码识别技术进行研究,其作为识别技术中的一种,在当前电子设备广泛应用的背景下,能够有效完成多类复杂运算,具有较高的准确性与高效性。在当前互联网时代背景下,大数据发展日益加快,需求增多,因此,为有效提高数据的准确性与安全性,保障用户权益,识别数字验证码技术在其中扮演着重要角色。同时,与语言文字等相比,我们在现实生活中对数字的精准度有着更高要求,究其原因,主要在于一旦其中任意数字出现错误,便很可能造成重大失误,如金融,快递,财务等对数据的准确性有着较高要求。总而言之,为有效提高
9、数据的精准性与安全性,数字验证码识别技术研究意义重大。而随着互联网的不断发展,自动化程序日益增多,对互联网的安全性所造成威胁逐渐增加,一旦网站被自动化程序所破解,很容易造成网站用户信息泄露,资源非法使用等各类问题,严重时甚至造成系统崩溃,对网站的推广与应用带来一系列不利影响。为有效避免或减少该类问题的发生,通过数字验证码技术,实现对系统网站使用用户合法性的验证,进而提高系统网站的安全性。一般而言,数字验证码技术较多应用于系统网站的注册,登录,以及发帖页面,避免出现自动化程序非法注册,登录以及使用该系统资源,对网站进行攻击,有效提高了系统的安全性以及抗攻击力。验证码,即CAPTCHA,其相关概念
10、于2000年被首次公示,其本质上作为一种全自动图灵测试的程序,主要用于对人类使用系统以及计算机自动化程序使用系统的识别。验证码在系统使用中,主要由计算机程序自动产生,进而由人类用户对验证码进行手动输入或语音输入,根据验证码输入的准确性,进而对系统用户进行合法性判断,究其原因,主要在于验证码的输入大多数人类能够准确进行,而自动化程序大多数不具有输入验证码的功能,因此,能够有效实现对系统用户合法性的判定。同时,通过对验证码识别技术的运用,能够有效避免网站系统被暴力性攻击,提高系统安全性,避免系统用户相关信息泄漏,对用户的安全性造成一定威胁。另外,验证码识别技术还可以防止网站出现恶意刷票,论坛灌水等
11、问题,在现实生活中被广泛运用。1.2 研究历史及发展现状在国外,数字验证码的识别研究较早,是一个热门的研究领域。1990年Yann1ecun等人使用反向传播神经网络(BP_NN)设计了一种识别手写数字的方法,其误识率1%,拒识率为9%,识别率达90%。20世纪90年代末期,以MAHearst为代表的学者研究出支持向量机算法,这是种基于统计学的回归算法以及分类算法,该类识别技术在运用中具有较好的识别效果,为识别技术的推广与应用打下良好的基础。21世纪初期,以A.BeI1i1i为代表的学者研究出M1P-SVM算法,该类算法能够有效达到对数字的无约束识别效果,识别效果显著,可高达98%左右,应用较为
12、广泛。同一年,Cheng-1in1iU等人通过研究,实现了对图像数据的采集与识别,主要借助图像的特征以及特征分类等技术,分类器则采用了K最近邻算法(K-NearestNeighbor,KNN)以及支持向量机等算法,有效提高了图像数据识别的准确性有高效性。以CireSanDC为代表的学者提出借助反向传播,能够有效实现对普通多层感知器识别效果的提高,识别效果十分显著,可达到99%的识别效果,有效促进了识别技术的发展与推广。以MORI为代表的学者主要借助形状上下文的研究办法,实现了对两种验证码的研究,一种是G1MPY验证码,另外一种是EZ-GIMPY验证码。相比于国外对数字验证码识别技术的研究,我国
13、研究起步较晚,相关理论与技术不够成熟与完善,但随着我国科技技术的发展,以及对数字识别技术的逐渐重视,研究逐渐加快。以胡君萍为代表的学者研究出KNN数字识别器,借助主成分分析法实现了对数字维度的有效减少,进一步提高了数字识别的效率。张海生基于神经网络对数字验证码进行识别研究。借助深度置信网络,我国以宋晓茹为代表的学者,实现了对数字识别算法的研究。我国以闵锋为代表的学者,对数字验证码识别技术的研究,主要分为以下三步:第一,借助主成分分析法实现对数字维度的降低;第二,实施投影;第三借助svm算法实现对数据的分类,通过研究发现该类数字验证码识别技术有较好的识别效果以及识别效率,得到广泛的应用与推广。以
14、曾文献为代表的学者以MNIST数据为被识别对象,借助卷积神经网络以及自编码器实现对数据的识别,识别效果显著,高达99%,为我国数字验证码识别技术的发展与应用打下坚实基础。】徐文进等人基于KNN算法的改进K-means算法进行数字识别。明1.3 课题研究内容本课题分析比较了以上几种识别方法,最终选取KNN算法作为数字验证码识别研究的方法。KNN算法本质上作为一种人工智能算法,主要通过对数字特征的统计,并在此基础上,进行数字分类的一种算法,该算法操作简单,便捷,适用性强,应用较为广泛。在本文中借助KNN算法实现对数字验证码技术的研究,其中对于编程语言的选择主要是Python,对于PythOn而言,
15、其在运行过程中主要借助编译器实现,能够高速完成人工智能算法以及机器学习,满足本文中对自动化程序以及人工操作系统的识别。在本文中,对数字验证码图像的研究,主要用于解决图像中字符粘连扭曲以及噪声较多的问题,有效提高对图像数字验证码识别效果。通过PythOn进行图片预处理和分割粘连字符后,基于KNN算法识别验证码图像中包含有多个字母,字符以及数字之间相互粘连的验证码,并对其开展测试识别以及网络训练,进而分析出识别率并用Python界面展示出识别结果。本文的主要框架结果梳理如下:第一章作为本课题的前言介绍了数字验证码识别的研究目的和意义、数字验证码的研究历史及发展现状。第二章介绍了本课题涉及的相关图像
16、处理技术,分析比较了几种识别方法并进行方案选择,并阐明所采用的方案的特点。第三章介绍了数字验证码识别的设计实现过程,包括各功能模块的详细设计原理及相关程序的详细说明。第四章是对数字验证码识别的设计过程的结果分析。第五章是对数字验证码识别的研究工作进行归纳和总结。第二章数字验证码识别的相关技术对于数字验证码而言,其对图像的识别主要包括三大步骤:第一是对图像的预处理操作,实现对图像的灰度化、降噪、二值化等;第二是对数字验证码的分割,该环节在整个数字验证码识别过程中扮演着重要角色,决定着识别效果的高低,究其原因主要在于数字验证码的不同性特征,即不同的数字验证码,其粘连性,扭曲性程度有所不同,因此需对其进行不同分割,在一定程度上造成对数字验证码分割效果的不同;第三,是对数字验证码的识别。目前对验证码图像的识别方法主要有三种:模板匹配分类算法、形状上下文分类算法、人工智能领域的分类算法(KNN算法、神经网络算法)。2.1 图片预处理图片预处理作为数字验证码识别的首