《企业智能专家考试与试题库管理平台建设技术方案.docx》由会员分享,可在线阅读,更多相关《企业智能专家考试与试题库管理平台建设技术方案.docx(55页珍藏版)》请在第一文库网上搜索。
1、企业智能专家考试与试题库管理平台建设技术方案目录第一章、项目解决方案41.1 项目概述41.1.1 项目背景41.1.2 项目目标41.1.3 服务原则41.2 项目需求分析51.2.1 项目服务内容51.2.2 系统建设需求61.2.2.1 试题自动获取功能61.2.2.2 试题解析功能71.2.2.3 智能试题归档及分类功能71.2.3 服务支撑要求71.2.4 服务响应要求81.2.5 其他要求813系统技术方案81.3.1 系统功能设计813.1.1 试题自动采集813.1.2 自动试题解析81.3.2.1爬虫技术111.3.2.2内容溺!|201.3.23语义201.3.2.4分词算
2、法2113.2.5相似度统计算法291.4信息安全方案361.4.1 保密承诺361.4.2 安全保障措施361.4.2.1 总体措施361.4.2.2 系统安全371.4.2.3 数据安全381.4.2.4 应用安全39第二章、项目实施方案412.1 项目实施期限412.1.1 项目实施计划41第三章、项目服务方案423.1 服务支撑能力423.1.1 服务技术支撑423.1.1.1 系统应用升级423.1.1.2 系统优化分析463.1.1.5 系统安装和升级473.1.1.6 现场咨询和支持473.1.1.7 其它服务483.1.2 服务;耀支撑483.1.3 服务组织支撑491.1.1
3、 .1项目领导小组491.1.2 领域专家组491.1.3 项目管理组493.13.4 对外协作组503.13.5 5质量保证组503.13.6 项目工作组503.13.7 7项目支持组523.1.4服务培训支撑523.1.4.1 培训仅嫁及目的523.1.4.2 培训形式523.1.4.3 培训内容533.1.4.4 培训计划533.2 服务响应时间承诺533.3 服务质量控制保障543.3.1 质量管理保障措施54第一章、项目解决方案11项目概述1.1.1 项目背景根据集团公司技术专家考试与试题库管理平台项目的建设需求,为提高运维专家平台的自动化、智能化的水平和能力,需建设运维专家试题库能
4、力,实现试题采集、试题答案解析、试题智能分类功能。1.1.2 项目目标项目拟针对运维专家平台试题库功能,切实提高系统自动化、智能化水平,具体包括:1、针对题库依赖人工整理收集和分类,流程繁琐且耗时耗力的现状,试题库系统的建设预期可以极大提升试题获取的效率,同时自动进行分类整理。2、针对试题答案匹配率低的问题,通过模型算法实现自动化答案匹配。3、试题库系统上线后,可以显著提升试题量并有助于题库分类标准化。4、可为其他类似功能的系统开发建设作技术支撑。11.3服务原则项目方案需符合科学性,研究方案合理有效,具备创新性。1.2项目需求分析1.2.1 项目服务内容本项目的建设目标是结合互联网采集,自动
5、答案匹配,智能文本识别能力,打造完整运维专家题库。具体,本次项目的服务内容与主要研究内容包括:1)通过开发自动化采集工具和人工结合的方式,批量获取多个网络平台海量试题数据。2)通过开发解析模块,将试题与答案进行一匹配,同步提供试题可靠性评估数据,为后续选题提供依据。3)通过开发智能试题分类算法,将从各来源获取的试题按照主机、数据库、存储、网络等运维专业进行分类存储。运维专家试题库需包括以下试题类别:专业大类专业小类基础设施类主机及操作系统管理网络接入及管理存储及备份机房动力及环境平台组件类虚拟化技术容器化技术数据库类中间件类分布式架构类业务服务类业务质量管理业务连续性管理私有云运营管理流程管理
6、类DeVOPS类监控技术类测试验收类发布变更类运维工具及研发类智能分析类数据处理类数据仓库类训练学习平台类A1算法类1.2.2 系统建设需求为了完成项目的建设目标,完成项目服务内容,在企业技术专家考试与试题库平台建设项目中需要建设如下内容:1.2.2.1 试题自动获取功能试题采集功能采用互联网自动采集方法,自动批量获取试题,并获取试题文件,内容包括:1 .针对试题列表页面,下载页面,答案页面,进行自动数据采集。2 .支持定期数据采集,例如每月、每季度数据采集更新。3 .部分高质量题目稀缺性高,质量高网站进行人工采集。1.2.2.2 试题解析功能针对采集的试题进行解析,将试题与答案进行一匹配,同
7、步提供试题可靠性评估数据,为后续选题提供依据,包括以下内容:1 .离线文档编码格式预处理,包括文字编码转化及文档格式转换,支持PDF、word、txt多种格式转换。2 .试题与答案匹配:支持多种文件排版的解析,并将试题与答案进行准确匹配。3 .试题与答案匹配率评估:针对试题答案匹配结果进行数据评估,找出无法匹配答案,或答案匹配错误的情况。1.2.2.3 智能试题归档及分类功能通过开发智能试题分类算法,将从各来源获取的试题按照主机、数据库、存储、网络等运维专业进行分类存储。1 .提取试题中的特征词,建立试题的知识点与分类字典,用于试题知识点归类及试题分类。2 .采用分词算法,对试题进行分词并构建
8、试题的词频矩阵3 .采用合适的算法,实现试题与分类字典相似度统计4 .确认试题分类。1.2.3 服务支撑要求服务供应商需配备专业的技术团队支撑服务,必要时能够提供现场服务支撑。1.2.4 服务响应要求需要为采购人提供7*24小时服务支撑。1.2.5 其他要求需要积极做好试题库的质量校验,保障试题可用性和质量要求。1.3系统技术方案在企业技术专家考试与试题库平台建设项目中,我们将结合互联网采集,自动答案匹配,智能文本识别等能力,打造完整运维专家题库。1.3.1 系统功能设计1.3.1.1 试题自动采集在本项目中,我们将开发自动化采集工具,支持采购人通过自动工具,批量获取多个网络平台海量试题数据,
9、大大提高试题获取的效率与数量。试题采集功能将采用互联网自动采集方法,自动批量获取试题,并获取试题文件。具体,试题自动采集将提供如下功能: 支持自动在互联网上自动检索与采集试题相关数据,包括:试题列表页面,下载页面,答案页面等; 支持定期的数据采集,例如每月、每季度数据采集更新; 提供人工试题采集、录入功能,针对部分高质量题目稀缺性高,质量高的网站支持人工进行采集。1.3.1.2 自动试题解析在本项目中,我们将开发试题解析功能模块,支持将试题与答案进行一一匹配,同步提供试题可靠性评估数据,为后续选题提供依据。提供试题解析功能,对所采集到的试题内容进行全面的解析,并将试题与答案进行匹配,以此提供试
10、题可靠性评估数据,为后续选题提供充分依据。具体,试题解析模块将提供如下功能: 支持对离线文档编码格式进行预处理,包括文字编码转化及文档格式转换,支持PDF、WorcktXt多种格式转换; 提供试题与答案匹配功能,支持多种文件AE版的解析,并将试题与答案进行准确匹配; 提供试题与答案匹配率评估功能,可针对试题答案匹配结果进行数据评估,找出无法匹配答案,或答案匹配错误的情况。1.3.1.3 试题智能分类在本次项目中,我们将通过开发智能试题分类算法,提供试题分类功能,将从各来源获取的试题按照主机、数据库、存储、网络等运维专业进行自动的分类并存储。具体,试题解析模块将提供如下功能: 支持根据提取试题中
11、的特征词,建立试题的知识点与分类字典,用于试题知识点归类及试题分类; 采用分词算法,对试题进行分词并构建试题的词屣阵; 采用合适的算法,实现试题与分类字典相似度统计; 确认试题分类并进行归档。1XIJJ试题分类类型在本次项目中,所建设的运维专家试题库将包括以下试题类别:专业大类专业小类基础设施类主机及操作系统管理网络接入及管理存储及备份机房动力及环境平台组件类虚拟化技术容器化技术数据库类中间件类分布式架构类业务服务类业务质量管理业务连续性管理私有云运营管理流程管理类DeVOPS类监控技术类测试验收类发布变更类运维工具及研发类智能分析类数据处理类数据仓库类训练学习平台类A1算法类1.3.2 系统
12、关键技术在本次企业技术专家考试与试题库平台建设项目中,为了实现项目建设内容,开发出符合需求的系统功能,我们将使用爬虫、内容识别与语义理解,以及分词等算法技术。1.3.2.1 爬虫技术网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。1.321.1爬虫技术分类网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(Genera1PurposeWebCraw1er聚焦网络爬虫(FOCUSedWebCraw1er增量式网络爬虫(Inc
13、rementa1WebCraw1er深层网络爬虫(DeePWebCraw1er实际的网络爬虫系统通常是几种爬虫技术相结合实现的。/通用网络爬虫通用网络爬虫又称全网爬虫(Sca1ab1eWebCraw1er),爬行对象从一些种子UR1扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据。由于商业原因,它们的技术细节很少公布出来。这类网络爬虫的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的I顺序要求相对较低,同时由于待刷新的页面太多,通常采用并行工作方式,但需要较长时间才能刷新一次页面。虽然存在一定缺陷,通用网络爬虫适用于为搜索引擎搜索广泛的主题,有较强的应用
14、价值。通用网络爬虫的结构大致可以分为页面爬行模块、页面分析模块、链接过滤模块、页面数据库、UR1队列、初始UR1集合几个部分。为提高工作效率,通用网络爬虫会采取一定的爬行策略。常用的爬行策略有:深度优先策略、广度优先策略。D深度优先策略:其基本方法是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接。当所有链接遍历完后,爬行任务结束。这种策略比较适合垂直搜索或站内搜索,但爬行页面内容层次较深的站点时会造成资源的巨大浪费。2)广度优先策略:此策略按照网页内容目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行。当同
15、一层次中的页面爬行完毕后,爬虫再深入下一层继续爬行。这种策略能够有效控制页面的爬行深度,避免遇到一个无穷深层分支时无法结束爬行的问题,实现方便,无需存储大量中间节点,不足之处在于需较长时间才能爬行到目录层次较深的页面。/聚焦网络爬虫聚焦网络爬虫(FocusedCraw1er),又称主题网络爬虫(ToPiCa1Craw1er),是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫8。和通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。聚焦网络爬虫和通用网络爬虫相比,增加了链接评价模块以及内容评价模块。聚焦爬虫爬