《XX大学一体化智能化公共数据平台功能要求.docx》由会员分享,可在线阅读,更多相关《XX大学一体化智能化公共数据平台功能要求.docx(9页珍藏版)》请在第一文库网上搜索。
1、XX大学一体化智能化公共数据平台功能要求分类功能要求及描述公共数据平台1 .平台管理升级。数据平台支持Rangr、1DAP等组件控制数据权限,支持库、表权限控制。项目空间支持一个项目自由切换多个产品(离线、实时、API)统一管理各类共性信息。2 .数据资产扩充。数据标准方面,基于一期的数据标准,二期对整体数据标准进行扩充。数据服务平台集成统一身份认证,实现单点登录。提供系统公告能力,对一些基础表结构变更、平台升级等事项提供更方便的通知方式。数据资产平台完整链路将通过一张图可以完整展示出来。增加数据元数据变更提醒提供短信等多种方式。对数栈CDM层扩充,增加微计算、微服务。3 .消息管理。数据服务
2、平台提供短信消息提醒功能。数据平台提供消息管理功能,支持TOPiC创建、删除、监控等功能。4 .数据纠错研判。提供数据纠错联动功能,发现的数据问题,直接通过消息提醒方式通知源头的数据管理员针对有问题的数据进行修复。基线告警,任务发生错误、延迟等情况时,自动预判,并提前发出告警,提醒用户即使处理异常,保障数据产出。告警列表,管理可以查阅所有已告警所有时间,并能查阅具体告警内容。5 .数据安全管理:数据AP1加入国密传输,同时整个平台及本期建设数据资产管理子系统的密码存储、加密均会采用统一的国密算法加密。对数据源授权进行细分控制,对数据源可以授权到具体某一个项目,将数据源指定到项目粒度。6 .网办
3、数据迁移。老网办数据迁移到新网办,约300种服务类型,全部通过api接口方式迁移,需敏捷提供每种服务类型返回的结果数据的完整key值。对于老网办的所有数据集统一开发一个数据输出接口,服务类型作为入参参数,新网办采用轮训方式对接口进行调用,将返回的数据结果进行转换及处理,并写入至新网办数据。7.数据标准扩充:对整体数据标准进行扩充。需要对学工、学科类等非教育统计报表数据标准进行修订,完善统计类数据标准。数据标准扩工作包括对指标进行梳理、确认、确权、发布操作。主题数据仓建设1 .调研并获取主题数据仓中所有指标统计口径和基础数据层对应数据表,根据最终确认统计口径和数据源,同步基础数据表至主题数据仓中
4、,并设计数据指标模型(维度、事实表、周期),进行转换指标开发,生成主题数据仓中所需要的原子指标及衍生指标,并完成数据服务平台任务发布。2 .党建引领主题数据仓。从一期基础数据中提取党建相关的所有明细数据,基于明细数据建立党建队伍、党建活动、党建研究、党建惩罚类主题数据模型,根据确认好的指标统计口径、开发维度表及相关事实表,完成主题数据仓的原子指标及衍生指标开发工作,并完成所有指标任务发布工作。3 .办学资源主题数据仓。从一期基础数据中提取办学资源相关所有明细数据,同步至主题数据仓中,并根据办学设施、办学平台、办学经费关主题数据模型,设计并开发维度表数据以及事实表数据,完成主题数据仓的原子指标及
5、衍生指标开发工作,并完成所有指标任务发布工作。4 .人才培养主题数据仓。从一期基础层数据中提取人才培养相关所有明细数据,同步至人才培养主题数据仓中,并根据招生信息、培养学生、思政教育、课程教学、学生竞赛数据、毕业就业数据类数据模型确认的指标统计口径,开发对应维度表及事实表,完成主题数据仓的原子指标及衍生指标开发工作,并完成所有指标任务发布工作。5 .师资队伍主题数据仓。从一期教师域、财务域中提取师资队主题数据仓相关的明细数据表,并根据教师队伍数据、师德师风数据、培训进修数据、国际水平数据类这类主题数据模型,设计和开发对应维度表和事实表,完成主题数据仓中原子指标、衍生指标的开发以及所有数据模型、
6、指标任务发布工作。6 .学科建设主题数据仓。从一期教务域、学生域中提取学科建设主题数据仓相关的明细数据,并同步至学科建设主题数据仓中,并根据授权学科数据、重点学科数据类、学科排名数据类、学科经费数据类、学科交流数据类主题数据模型,设计并开发维度表和事实表,完成主题数据仓的原子指标及衍生指标开发工作,并对所有模型和指标任务进行标准发布。7 .科学研究主题数据仓。从一期科研域、教务域中提取科学研究主题数据仓的明细数据表,根据科研队伍数据、科研平台数据、科研项目数据、科研经费数据、科研成果数据数据模型,设计并开发对应维度表及事实表,完成主题数据仓的原子指标及衍生指标开发工作,并对所有模型和指标任务进
7、行标准发布。8 .国际交流主题数据仓。从一期基础层中提取国际交流主题数据仓所有明细数据,根据交流人员数据、交流项目数据、交流机构数据、交流成果数据模型设计和开发对应维度表及事实表,完成主题数据仓的原子指标及衍生指标开发工作,并对所有模型和指标任务进行标准发布。9 .社会服务主题数据仓。提取一期基础数据层中关于社会服务主题数据仓所有明细数据,并根据产教融合数据、成果转化数据、服务社会数据模型确认的指标及统计口径,设计和开发对维度表及事实表,完成主题数据仓的原子指标及衍生指标开发工作,并对所有模型和指标任务进行标准发布。10 .声誉影响主题数据仓。提取一期关于声誉影响主题相关的明细数据,同步至主题
8、数据仓中,并根据数据学校声誉数据类、校友声誉数据数据模型,设计并开发对应维度表及事实表,根据确认的指标口径,从明细数据加工完成主题数据仓的原子指标及衍生指标,并完成指标任务发布。11 .主题库的建设必须符合温大主题库标准建设,必须包含对每个指标来源、计算逻辑、技术口径进行全面梳理并形成标准文档。1 .五育预警专题。从数据公共服务平台中提取学生成绩数据、学生基本数据、学生上课数据、学生出入校轨迹数据、学生图书借阅数据、学生参加活动数据、学生获奖数据等等,通过算法模型训练得出温大所有学生学.业五育方面所有预警数据,这些数据再回流至公共数据服务平台,形成五育预警专题数据库。2 .就业专题库。对毕业生
9、去向、公司、行业、岗位、专业进行分析,将分析结果数据存放至就业专题数据仓,该数据数据仓统一服务于就业岗位推荐算法,直接通过该主题数据仓获取数据进行分析,再讲分析后数据回流至就业专题数据仓中。专题库建设3 .科研项目及人才专题库。基于结构化数据分析并进行二次标注,形成特有温大人才专题数据库,包括教师科研方向、关键技术点、专业方向、论文数据、科技成果数量科技项目与人才匹配算法之后获取项目与人才匹配数据,将回流至科研项目及人才主题数据仓,包括人才与项目匹配项目,技术难点匹配点、专业方向匹配点、匹配论文及著作等等数据。4 .学生画像专题库。主要围绕学生唯一ID关联所有数据,设计不同维度及相关指标数据,
10、例如每日在校时长,缺课次数,晚归次数,借阅次数等统计指标,同时对学生参与社团,参加校内外比赛等其他数据进行分析和挖掘,将个人的行为指数、学习指数、餐饮指数、消费指数等标签数据回流至师生主题数据仓。5 .教师画像专题库。主要以老师为核心,设计不同维度及相关指标数据,例如教师基本信息,以及汇总类数据如科研项目数量,学期上课数量,教学成绩,获奖次数等教师相关数据,对于教师标签数据也统一纳入到主题数据仓中。6 .心理预警专题库。有关于XX大学学生心理相关所有数据以及通过预警模型发现心理预警学生数据,统一建立专题数据库。7 .技术知识专题库。论文、著作、学术、项目技术以及通过技术谱系模型生成技术图谱,统
11、一存储至技术知识专题库,未来用户可以通过专题库快速查询找相关技术对应项目、教师、论文等相关数据。算法建设一、在线可视化建模及调参数1.支持可视化编辑与拖拽,可视化工作流运行数据流实时显示,运行结果数据可视化显示,离线训练定时运行,模型在线部署以及系统私有化部署。2 .通过组件拖拉拽组成完整的可视化实验流程,完成可视化建模。3 .支持组件参数配置:配置各个组件的字段设置、参数设置,完成组件设置。4 .支持组件运行资源配置:配置各组件的运行内存、并发数。5 .支持自定义脚本,和自定义算法组件。二、NoteBook建模1.支持基于WEB的Python、PySPark、TeKSorFIow、Keras
12、、PytOrCh代码开发、运行。2 .支持本地的PythorisPySPark、TenSorFIow、Keras代码打包上传运行并进行模型训练,包含单个Py文件、ZiP包两种形式。3 .JUPyter1ab数据探索:集成开源JUPyter1ab,可进行PythOn、PysparkR的算法探索,并进行JUPyter1ab使用资源的监控。4 .支持不同代码间进行相互引用。5 .任务参数配置:支持在代码中写系统参数与自定义参数,任务运行时会自动替换为具体的日期或值。6 .环境参数配置:支持配置代码的任务的运行参数,如任务优先级、运行内存等。7 .代码import:支持代码间进行模块与类的相互引用,可
13、进行代码Importo8 .批量创建任务支持根据参数模板,一次性批量创建多个任务代码,不同任务采用不同参数的代码任务版本记录及回滚:支持记录任务提交版本,可查看版本提交记录,并支持版本对比,将任务回滚至某个老版本。9 .增加任务锁功能,防止多人修改一份代码,造成代码混乱。三、算法组件库1 .支持Hive、MySQ1/PostgreSQ1.Orac1e、CSV/JSON等数据源。2 .支持归一化,缺失值填充,二值化、主成分分析、奇异值分解、乔列斯基分解,异常检测1OF,特征尺度变换、特征异常平滑等通用数据预处理技术。3 .支持朴素贝叶斯、决策树、随机森林、梯度提升树、BOoSt分类、逻辑回归、支
14、持向量机、K邻近等通用分类算法。4 .支持线性回归、广义线性回归、梯度提升树等通用回归算法。5 .支持k一均值、二分k一均值、高斯混合等通用无监督聚类算法。6 .支持循环神经网络、卷积神经网络等通用深度学习网络构建与调试。7 .支持词频TF、逆文档频率IDF、词频向量、分词、WOrd2vcc、应用词向量等。8 .支持单变量数值特征统计、二变量数值特征统计、二变量类别特征统计、计算权重等统计相关算法。9 .支持FP-GroWth、PrefiXSPan等算法、应用关联规则。10 .支持分类性能、二分类性能、回归性能、聚类性能、X-验证、优化参数(网格搜索)验证与评估方法。11 .组件库包含成熟算法
15、组件,例如推荐引擎组件、岗位推荐模型组件、专业岗位词云组件。四、计算引擎12 支持按需支持HadoopMRSparkM1TenSorFIow、PyTorchBigD1等异构计算引擎。13 支持按需支持超高维特征规模训练;支持InteIMK1软硬件加速;支持GPU/FPGA加速。五、数据引擎1 .支持结构化数据如Hive、阿里云MaxComputesMySQ1/PostgreSQ1等;支持非结构化数据如OSS、S3、HDFS等。2 .部署管理。3 .支持一键式任务部署和管理。4 .支持模型在线部署,支持适配PMM1,TenSOrF1ow,ScikitTearn,IightGBM,XgboOs,P
16、yTOrCh的模型部署,苴持多模型串联部5 .支持Docker独立部署,支持部署管理、镜像管理、集群管理和组管理以及多层级监控服务。6 .支持算法模型定时跑批,支持天、周、月、小时、分钟级别的更新。7 .支持单个模型和PiP1ine部署,以及支持多版本部署。8 .支持模型监控,可查看模型调用次数、调用耗时信息。9 .支持模型ABteSt和灰度部署。场景建设1 .学生画像模型。基于聚类、主题模型等标签生成技术和分类模型等标签预测技术实现对学生的自然属性、社会属性、兴趣偏好、身心健康、动机等全面立体刻画。2 .学业群体特征模型。利用聚类模型、多维统计模型、决策树模型等分析学生学业群体特征,总结容易挂科的学生共性,不易挂科