广东省高校自然科学研究项目结题验收报告模板.docx

上传人:lao****ou 文档编号:888673 上传时间:2024-07-15 格式:DOCX 页数:19 大小:40.40KB
下载 相关 举报
广东省高校自然科学研究项目结题验收报告模板.docx_第1页
第1页 / 共19页
广东省高校自然科学研究项目结题验收报告模板.docx_第2页
第2页 / 共19页
广东省高校自然科学研究项目结题验收报告模板.docx_第3页
第3页 / 共19页
广东省高校自然科学研究项目结题验收报告模板.docx_第4页
第4页 / 共19页
广东省高校自然科学研究项目结题验收报告模板.docx_第5页
第5页 / 共19页
亲,该文档总共19页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《广东省高校自然科学研究项目结题验收报告模板.docx》由会员分享,可在线阅读,更多相关《广东省高校自然科学研究项目结题验收报告模板.docx(19页珍藏版)》请在第一文库网上搜索。

1、项目编号06Z012广东省高等学校自然科学研究重点项目结题(验收)报告项目名称:数据流异常挖掘及在欺诈检测中的应用研究项目负责人(签字):蒋盛益研究类别:应用基础研究研究工作起止时间:所在学校(盖章):广东外语外贸大学结题时间:2023.10广东省教育厅制填表说明一、本结题(验收)汇报填写内容必须实事求是,体现精确,字迹清晰。二、填入结题(验收)汇报中的各项内容或数据,必须是省高等学校自然科学研究重点项目资助期间所获得的成果。三、“项目名称”、“研究类别”、“项目编号”应与资助项目原申请(任务)书中所填相一致。四、本结题(验收)汇报应于项目完毕后三个月内送交省教育厅科研处。项目原定日勺研究工作

2、计划本项目的研究内容、工作方案。(包括采用的措施、技术路线、进度安排、拟到达的技术指标、提供成果方式等)1. 研究内容本项目以聚类分析为基础,研究基于聚类日勺高效数据流异常挖掘算法,并应用于欺诈检测中,详细包括5个方面日勺内容:(1)研究流数据中数据压缩表达模型和数据相似性的度量措施;(2)研究针对数据流的高效、自适应聚类算法,数据进化度量措施;(3)研究基于聚类模型日勺异常挖掘算法;(4)在聚类模型的基础上研究分类规则挖掘算法,进而研究基于规则的异常挖掘算法;(5)研究聚类、异常挖掘在欺诈检测等实际领域中的应用。2. 拟处理的关键问题(1)数据流中数据压缩表达模型和数据流中数据相似性的度量措

3、施;(2)数据进化和变化趋势的度量;(3)数据异常程度的度量;(4)基于聚类日勺分类规则挖掘措施的设计;(5)异常挖掘思想怎样与欺诈检测等应用领域有机结合。3. 研究措施采用理论与实践相结合的措施。以聚类分析为基本手段,研究面向数据流时聚类算法,以不一样步间粒度下聚类成果的差异性来研究数据进化,研究基于聚类日勺两阶段数据流异常挖掘算法;用已经有时机器学习数据集(信用评估数据集,入侵检测评估数据集)以及实际领域中采集的数据集对异常检测算法进行测试、评估和分析,根据成果确认理论成果或对理论成果进行修改、完善,以到达预期的研究目的。最终将提出的异常挖掘措施应用于欺诈检测领域。4. 技术路线针对5个方

4、面的研究内容,详细技术路线如下:在已经有静态数据相似性度量措施及数据表达模型基础上,增长表达时态性的要素,提出数据流的表达模型及数据相似性的度量措施。针对数据流的特点,考虑到数据模式变化日勺原因,提出可处理混合属性数据日勺高效率、高精度的据流聚类算法。运用倾斜时间窗口技术来跟踪时间有关的信息,通过多时间粒度下保留的聚类成果的差异性来挖掘数据进化特性和变化的趋势。将异常挖掘当作一类特殊的分类问题,研究基于聚类模型的异常挖掘算法。第一阶段建立聚类模型,研究度量一种类与整体偏离程度的措施,运用这种偏离程度将训练集日勺聚类成果进行标识,将偏离整体程度大的聚类作为异常类(其中的每个对象或事件均当作异常)

5、,其他类作为正常类,而得到描述正常数据和异常数据的聚类模型(带分类标识)。第二阶段检测异常,运用对象与分类模型偏离的程度来鉴定对象与否异常,从而得到基于聚类的动态(或在线)异常数据挖掘算法。在已建立的刻画异常事件聚类模型基础上,运用流数据表达模型,从聚类模型中提取描述行为的分类规则,进而得到基于规则的流数据异常挖掘算法研究。在公用测试数据集上测试算法日勺性能,分析试验成果,并根据实际的检测成果,改善和完善算法。将通过测试数据检查后得到改善的算法应用到欺诈检测等实际领域。5. 预期成果理论研究方面:在数据流的相似性度量、数据进化度量、趋势检测、数据流的聚类、高效分类规则的挖掘和数据流的异常挖掘等

6、研究方面,提出新的有效措施,切实处理异常挖掘中存在日勺可扩展性、时效性与精确性问题。就上述问题写出12篇以上高水平的学术论文在国内外权威学术期刊和会议上刊登。在实践方面:将所获得的理论研究成果应用于金融领域中的欺诈检测(信用卡的恶意透支检测、企业资金异常流动检测、反洗钱等),为有关应用领域的决策支持提供新日勺措施,提交算法实际应用的测试数据与成果。项目实际完毕状况请按下列提纲填写:(可根据需要加页)(一)完毕的研究内容,获得的重要研究成果,到达的目的及水平。1 .完毕的研究内容三年来,项目组组员注意加强对内、外日勺合作与交流,真诚协作,按照项目规划的研究内容,对数据挖掘日勺多种有关技术进行了系

7、统的研究,在项目组所有人员的共同努力下,已完毕研究计划,并在自然语言处理与信息检索方面进行了拓展研究。研究工作重要包括:数值属性离散化,特性选择,高效、自适应聚类算法,基于聚类的分类规则提取措施,稀有类的分类,基于聚类的异常挖掘算法等;提出的许多算法具有近似线性时间复杂度,可用于大规模数据集或数据流。重要研究工作进展及获得的成果如下:(1)聚类及其应用研究Chame1eOn等聚类算法能识别任意形状日勺数据,但时间复杂度为0(小(这里n,m分别是数据集日勺规模和数据包括附属性数目),难以用于大规模数据集,且不能处理含分类属性的数据;另首先,一趟聚类算法时间复杂度为近似线性时间复杂度5,且能处理含

8、分类属性的数据。为此,我们将能发现任意形状数据的聚类算法(Chame1eon、SNN等)与一趟聚类算法迅速高效的特点有机结合,研究两阶段混合聚类算法,设计了针对大规模、数据流日勺混合属性的高效聚类算法。其基本思想是:首先运用一趟聚类算法获得初始划分,将初始聚类成果的每个簇当作一种对象,再运用Charne1eOn等算法进行归并,得到最终聚类成果;理论分析表明,此类聚类算法具有近似线性时间复杂度,试验成果表明,提出的聚类算法可以识别任意形状数据。在这些算法的研究过程中,对于参数的选择提出了某些可行的方略,使得算法具有很好的自适应性。同步,我们研究了文本聚类算法,并应用于搜索引擎检索成果的聚类,提出

9、了WEB搜索成果多层聚类措施,以此为基础设计了一种元搜索引擎C1uSearch(:/iiip.gdufs.edu:8080/c1ustersearch/c1usearch.jsp),其性能较三个有影响的系统ViViSimo、iBoogieCarrot2有优势。有关成果刊登在“小型微型计算机系统”、“计算机应用”、“情报学报”、山东大学学报”等期刊。(2)分类算法研究从不一样日勺应用角度研究了分类算法。令不平衡类分类算法研究异常数据挖掘与稀有类分类之间存在一定的共性,许多异常数据包括在稀有类(相称于极端不平衡数据集)中。同步注意到,已经有分类措施对不平衡数据集的分类性能不理想。为此,我们将聚类与

10、分类的思想结合,研究稀有类的分类措施,首先运用聚类将原始训练数据分割为2个子集,使两个数据集上日勺数据分布相对均衡,然后在每个子集上使用经典分类措施建立分类模型(如C4.5,Ripper,Bayes),最终运用聚类模型和分类模型相结合对新对象分类;试验表明,这种方略可有效提高基分类器在不平衡数据集上的分类性能。令基于聚类的分类算法研究结合聚类、关联规则的思想,研究基于聚类的分类规则提取措施,在聚类成果基础上提取分类规则,以提高分类规则提取的效率。有关研究成果有待深入完善。有关成果刊登在CDC2023、ADMA2023等会议及“计算机研究与发展”、“暨南大学学报”等学术期刊上。(3)异常数据挖掘

11、算法研究及在欺诈检测、风险分析等实际领域中的应用研究在高效聚类算法的基础上,研究基于聚类的高效异常检测算法,提出了一组具有近似线性时间复杂度日勺异常检测算法。其基本思想是:异常数据会汇集在规模小且偏离大部分数据的地方。首先使用一趟聚类算法对数据进行聚类,然后对聚类成果的每个簇计算其异常程度,将异常程度高的簇识别为异常簇,从而识别异常数据。研究分类、聚类及异常检测措施在商业银行及上市企业风险分析中的应用,尤其是在异常交易的发现、客户流失时发现等方面进行了某些基础研究。有关成果刊登在“国际经贸探索”、“记录与决策”及FSKD2023、FSKD2023国际会议。(4)高效特性选择算法研究为提高聚类、

12、分类算法的性能,我们从特性有关性与特性重要性两个方面研究高效特性选择算法。研究基于特性有关性的特性选择算法据我们所知,我们初次研究了混合特性(一种持续特性与一种离散特性)有关度的度量问题,借助方差分析的思想探讨混合特性有关度的度量措施,将这种度量措施应用于特性选择,不必离散化持续特性,有效提高了特性选择的效率。通过运用与目的特性的有关性大小来度量特性的重要程度,进而到达特性选择的目日勺;在特性有关性基础上深入研究了特性聚类及特性簇中代表的选择方略(删除冗余特性的方略),从而实现无监督日勺特性选择。令研究基于特性重要性的特性选择算法以聚类分析为基本工具,运用各个特性在不一样簇上的差异作为特性重要

13、性的度量,我们研究了几种不一样的度量特性重要性的措施,然后按重要程度日勺大小对特性进行重要性排序,最终采用差分措施根据重要性日勺变化规律选用特性子集。基于特性聚类和特性重要性日勺特性选择措施分别从清除冗余特性和不重要特性的角度实现特性选择,将这两种方略结合可以更有效地实现特性选择。有关成果刊登在“电子学报”、“郑州大学学报”、“广西师范大学学报”、“小型微型计算机系统”、“计算机工程与应用”等期刊。有关研究论文都被同行引用。(5)数值属性离散化算法研究为研究基于聚类的分类规则提取措施奠定基础,研究了高效的无监督日勺离散化措施:近似等频离散化措施,提出日勺离散化措施具有近似线性时间复杂度,合用于

14、大规模数据集,性能优于已经有无监督离散化措施,而与经典有监督的离散化措施的性能相称,将之应用于特性选择获得了很好日勺效果。有关成果刊登在GCIS2023国际会议,使用Goog1e学术搜索发现该成果已经有5个引用。(6)自然语言处理与信息检索研究将数据挖掘应用于文本信息处理。我们进行了分词、文本聚类与文本分类、主题词提取等方面的基础研究,提出了一种多层文本聚类算法和主题词提取算法,并应用于搜索引擎成果的归类,实现了一种元搜索引擎系统C1USearch;对KNN算法进行了改善,使分类效率和精度有明显改善。有关成果刊登在“情报学报、uExpertSystemswithApp1ications,“计算

15、机工程与设计”等期刊上。在本项目的实行过程中,申请人蒋盛益负责全面工作并指导课题组组员的研究,项目组组员之间不仅常常讨论交流,还详细合作撰写论文,项目日勺完毕是集体智慧的结晶和共同努力日勺成果。重要组员包括:蒋盛益,姜敏捷,王金矿,王雪剑,李霞,庞观松,王连喜,余雯,郑琪,张振华等。2 .获得的成果项目实行获得的成果重要体目前学术成果日勺刊登和人才的培养方面。(1)论文刊登状况本项目获得了一系列创新性研究成果,资助刊登论文20篇,其中1篇论文将被SC1收录,5篇论文被E1收录。(2)人才培养状况在项目执行期间,培养硕士生3人(王连喜于2023年6月毕业、余雯于2023年6月毕业、庞观松在读)。

16、另资助一种以本科生为主体的“数据挖掘爱好小组”,既有组员50余人,指导他们从事数据挖掘及应用方面日勺学习和研究,该小组已成为学生课外拓展学习的场所,许多同学获得了很好日勺成绩:获2023年“安利杯”泛珠三角大学生计算机毕业设计作品大赛银奖、广东赛区一等奖,2023年、2023年“安利杯”泛珠三角大学生计算机毕业设计作品大赛广东赛区二等奖、一等奖,2023年、2023年挑战杯广东赛区二等奖、三等奖各一项;在关键期刊刊登、录取论文10余篇;科研训练项目立项20余项(其中广东省大学生创新试验项目省级3项、校级3项)。完毕元搜索引擎、跨语言学术搜索引擎、基于文本聚类日勺垃圾邮件识别系统、增量式爬虫等应用系统。有4位同学免试攻读本校玲/硕士硕士,有7位同学分

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 工作总结

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服