《东南大学成贤学院大学生实践创新训练计划项目申请表.docx》由会员分享,可在线阅读,更多相关《东南大学成贤学院大学生实践创新训练计划项目申请表.docx(9页珍藏版)》请在第一文库网上搜索。
1、东南大学成贤学院大学生实践创新训练计划项目申请表项目名称基于深度学习的聊天机器人自动化搭建平台项目所属一级专业门类工学项目所属二级专业类计算机类项目类型O个人项目(J)团队项目项目实施时间开始时间:2023年5月完成时间:20始年5月申请人或申请团队不超过5人姓名学号所在系专业联系电话E-mai1主持人肖俊辉软件工程成员陈镜宇计算机科学与技术张天乙计算机科学与技术冉用国计算机类指导教师第指导教姓名孙丽系(部)电子与计算机工程学院年龄行政职务/专业技术职务电话邮箱主要成果2019年全国高校区块链应用案例征集优秀案例“三等奖”1项。2023年第十六届国际计算机科学与教育会议(ICCSE2023)发
2、表E1会议论文1篇;软件著作权2项;2023年第十四届全国大学生信息安全竞赛作品赛网评专家,指导大学生创新20余项。第指导教姓名钱英杰系(部)江苏东大金智信息技术有限公司-研窕院年龄行政职务/专业技术职务项目/产品经理/高级工程师电话邮箱主要成果国内首家电气火灾超前预警技术的产品化工作、高空抛物在社区治理方面的应用、智慧城市和智慧园区的整体方案设计及其平台层建设的研究、公交/隧道桥梁/综合管廊等方向的大屏数据可视化设计工作。一、申请理由(包括自身具备的知识条件、自己的特长、兴趣、已有的实践创新成果等)知识条件精通基础算法,对于PythOn,C+,C#,JaVa等高级语言能够熟练使用,掌握HTM
3、1,JS,CSS等前端语言,会使用MySQ1数据库和tomcat服务器,有一定的深度学习知识基础,能够熟练使用PyTorCh框架。特长善于学习理解编程思想,形成知识框架,自我学习能力强,对于时代消息有敏感性,能够发现一些微小变化并从中不断放大出新的兴趣。兴趣对于深度学习,自然语言处理有一定的兴趣,希望能够将学到的知识在实际中进行运用。经验在GitHub上发布许多开源项目,其中Miraibot相关项目StarFork数众多,ReIeaSe下载数过千,社区项目浏览过万,且拥有团队开发经验、PaSCaI开发经验、ccpp开发经验。二、项目简介(字数控制在100字以内)在群聊中收集聊天模型,使用PyT
4、orch深度学习框架,搭建贴合实际生活的聊天机器人。目的在于改善当前聊天机器人无个人色彩、较为死板、无编程基础无法搭建的现状。本项目优势:聊天具有群特色、模型自动收集、过滤自动化。三、项目方案(具体内容包括:1、项目研究背景(国内外的研究现状及研究意义、项目已有的基础,与本项目有关的研究积累和已取得的成绩,已具备的条件,尚缺少的条件及方法等)2、项目研究目标及主要内容3、项目创新特色概述4、项目研究技术路线5、研究进度安排6、项目组成员分工)1、项目研究背景在图1聊天机器人行业相关领域发展历程中,我们看到,从1950年代开始,随着聊天机器人相关研究的不断发展,己有众多聊天机器人产品相继面世,这
5、是深度学习应用越来越广泛,技术越来越成熟的体现,核心是通过机器来模仿人类的对话内容和习惯,对聊天输入的内容做出决策和判断,给予相应的回应。国内外现已出现众多的聊天机器人产品,但在个性化和简便性方面有所不足,导致目前更多的还是投入到客服环境中使用,因此聊天机器人拥有巨大的市场潜力。本项目计划开发一个基于深度学习的聊天机器人自动化搭建平台的软件作品,试图做一些技术突破。国内已出现的产品可供聊天的机器人,在国内更多的是作为附属功能出现。例如科技公司华为,小米,OPPO,V1VO等,他们都有自家对应的语音助手,其中小米公司的“小爱同学”是目前普遍认为较聪明的语音助手,它有个特点,那就是可供用户自定义“
6、问-答”并上传至服务器,这样能很大程度上增添趣味性,但也有不足的点,那就是不一定每位用户都会通过这个功能来贡献自己的“词库”,同时也因为受众面广,而无法具有鲜明的特征,例如一些地域性的对话或者是亚文化圈的对话,它都不能胜任。国外已出现的产品由EugeniaKUyda创造的聊天机器人RePIika的意义更多的在于培养一个你的ReP1iCa(复制品),正如他的创造者所说:Itsaspacewhereyoucansafe1yshareyourthoughts,fee1ings,be1iefs,experiences,memoriesanddreams.它会模仿你的说话习惯而不是像其他bot聊天遇到不
7、懂的会上网查,意思就是你得教它东西。Botpenguin公司旗下的MitsukuChatbot算是国外网友公认的最聪明的聊天机器人,她可以分析你正在使用的语言并判断你的情绪,通过提问、玩游戏甚至给你讲笑话来作为朋友进行对话,相应地最人性化地回答你的问题。多模毒数字人:结合谐音技术,SGto篓幔恋的瓯多慢出敦宇人开始应用落地技术发展二一应用场聊天机器人行业相关领域发展历程示意图械学习WatSOn由IBM开发.“于DeePQA技术利用深度自然诰言处理技术产生候选答案用SJg交叉瓶陪估,天机曷人产品化发Ctt逸出微软小冰展:用于f.外呼、S55环节KJW5机品已可较为熟练便器人产品被推出.S用深度学
8、习技术内多家A1技术相关客服公司成立或实现较大规模产as地AIkeffi用的人工管能假记语言.允许用户可以定制化沃内容.机81人喻5腿预先设定好的剧本回答1礴1970s2000s201120142015-20162023-2023“微软小冰”,是微软公司独立于“微软小娜”语音助手的一个智能聊天机器人,她很“聪明”,几乎可以做到有问必答,但因为是国外的产品,本土化是“微软小冰”很大的缺陷,更像是一个懂得中文的外国人,回答一般也比较公式化,前后文不连贯,让人感觉没有“中国味”。EMa是人类建造的机人,于1966年在麻省理工学院被创19S0年由R方亲道,根据人工设计的脚本与人类交流,文北温C容没有误
9、义理解,而是通12模式匹配和器,器国吟语”合适曲1950s中国传呼叫中心兴衽于移动互联网.云IK身等技术发展,可支持电话.配,为企业主要服务tt.WB.微博.APP.全桀通平台图1聊天机器人发展示意图:统呼叫中心呼叫中心+在线软件金Q道,转达客根.君也企&信息服务场愦结合A1技术,财机题人”通过a代嘶6助人工的方式触达到客服,JS彻企业内部多方场银行业在7眸代初刑第设自己的呼叫中心;W代初厢开始3中心直正进入戏慢性发展,800号码被广泛认同和采用与存尸沟通以J,采用单一渠道接入泛一空公司在1956年a成并投入使用世界上第一个具有一定规模的,可提供7X24取名的呼囚制电互联网技术发JB与普及.在
10、呼叫中心IWi1tW伸了在5钦件形态,多用于客Ag在线回复唧天机图人的测试目前聊天机器人的市场情况聊天机器人市场前景良好,规模将进一步扩张。据有关数据统计(见图2),2014-2018年,全球服务机器人销量逐年增长,2018年为1657.1万台,同比增长61.29%,增长迅速。聊天机器人作为服务机器人的重要产品,能够应用各种领域。其市场规模也逐步扩大,截止至2023年,聊天机器人已为85%的客户服务交互提供助力,预计到2023年,聊天机器人每年将节约80多亿美元的人工成本。2010-2018年全球服务机器人销量(单位:万台)对聊天机器人未来发展的展望按照目前的行业发展,当前聊天机器人大部分用于
11、商业作为客服使用,不可否认其在该行业大放异彩,但是聊天机器人的潜力远远不止如此,仍需我们进行更深层次的挖掘,不仅仅停留在便利生活,他们的出现更可能改变我们的生活。更甚者可以被使用于心理医疗行业,实时陪伴在患者身边,替他们排忧解难,助于心理疾病的治疗等。他们可以存在于我们身边,陪伴于我们身边,甚至人均拥有一个可以聊天的机器人,一个能作为忠实听众的存在。目前聊天机器人的优势与劣势I、优势全天候可用:不论是白天还是晚上,类似于在服务业上的聊天机器人可以全天候24/7解决用户的问题并且是即时回复,使用人工客户服务要实现这一点要困难得多,管理起来也更复杂。使用便利:学习程序较为完备后,可移植性高,几乎可
12、以部署于任意连接互联网的设备或环境。收集用户偏好信息:每当有人与任何聊天机器人互动时,都会提供基本数据,例如用户偏好、习惯、情绪等,然后可以对其进行分析,使用这些信息,可以更轻松高效地有目的导向性地训练同类型相关机器人。n、劣势沟通机械化:聊天机器人不是人类,因此显然它们无法作为人类与人类互动。他们听起来太机械了,只能对他们编程的问题给出答案。大部分情况下他们只能用于解决基本查询。难以快速创建:聊天机器人是使用自然语言处理创建的,自然语言处理是机器学习的一部分,可用于以文本形式与用户交互并解决他们的查询。但是,这需要复杂的编程和时间的积累。项目已有基础国内大量的开源基础对话模型,开源的自动化框
13、架。缺少的条件以及拟应对方法I、如何自动化地确定聊天模型中的问和答我们设计了一种数据结构,叫做“词库链”(见图3)。第一个发言人的聊天内容为“问”,我们将其定义为“词库链的链头”,类似链表的头节点,下一个发言人的聊天内容既是上一个聊天内容的“答”,也是下一个聊天内容的“问”。在一定时间内无人发言后,再次发起的聊天内容将被定义为另一个“词库链”的链头。第一个发畲人的天内容问1第二个发言人的天内容第三个发人的聊天内S答2/问3答3/问4更多的发喜人图3“词库链”的设计n、如何自动化地过滤模型拟通过用户自行添加关键字、“词库链”中“问答”的出现频率、深度学习自动化分析,来自动地删除模型中一些无意义、
14、不需要的聊天数据。2、项目研究目标及主要内容研究目标:得到一个自动化聊天模型收集工具,包括自动过滤,自动分类,自动生成对应的数据模型,让毫无编程基础的人也能方便地使用。主要内容:通过Miraibot框架,搭建自动聊天模型收集的环境,根据设置对应群的“属性标签”制定敏感,无用词汇的过滤策略,将收集的数据集在目前开源的对话数据集上训练,生成encoder,decoder模型,拟得到一个与日常群聊较为拟合的数据模型。3、项目创新特色概述数据集的实时更新因为聊天模型是在群聊内自动收集的,所以模型数据往往具有时效性,确保不会让聊天机器人的知识储备“落伍”。无需任何编程基础任何复杂的操作都将被封装,用户只
15、需要准备一台独立显卡性能较好的计算机、一个号、一定的时间,即可通过本平台来搭建属于自己的聊天机器人。聊天机器人具有自己的特色聊天模型并非来源于广大开放的数据集,而是来自群聊的日常聊天,这样训练出来的聊天机器人,无论是说话方式和幽默程度,都将会与群聊极度拟合。就算是一些“亚文化圈”的对话词汇,通过大量的学习后也可以很好的胜任。4、研究技术路线研究方案I、数据集格式确定为了方便seq2seq2模型,同时便于过滤,采用“问-答”的DiCt数据类型,通过“词库链”建立。II、开发工具选择在开发工具上,我们选择了VSCOdC,这是一个可扩展,插件丰富的文本编辑器,具有轻量化的特性,在对Python语言的支持上也是异常强大。皿、总体结构设计总体结构设计见图4,用户IO图见图5o图4平台功能框架图5用户IO图系统中的各模块的功能及算法I、聊天