《大数据专业技术技能认证标准.docx》由会员分享,可在线阅读,更多相关《大数据专业技术技能认证标准.docx(20页珍藏版)》请在第一文库网上搜索。
1、大数据专业技术技能(水平)认证标准1目的大数据专业技术技能(水平)认证考试(以下简称大数据水平考试)是工业和信息化部领导下的国家级水平考试,主要面向正在从事或欲从事大数据行业的专业人员开设,分为低、中、高三个级别,XX个科目。其目的是,科学、公正地对全国大数据专业技术人员进行职业资格和专业技术水平测试。通过考试获得证书的人员,表明其已具备从事相应专业技术职务(如数据科学家、数据挖掘工程师、数据分析师、数据工程师、数据可视化工程师等)。大数据水平考试实施全国统一考试后,不再进行大数据技术技能相应专业和级别的专业技术职务任职资格评审工作,因此,大数据水平考试即是职业资格考试,同时具备水平考试性质,
2、报考任何级别的考试没有学历或资格的要求,只要达到相应的技术水平就可以报考相应的级别。考试合格者将颁发由中华人民共和国信息产业部教育与考试中心用印的大数据专业技术技能(水平)证书。通过考试并获得相应级别大数据资格证书的人员,表明其已具备从事相应专业岗位工作的水平和能力,用人单位可根据持证人员所获取证书的专业类别和资格等级,择优聘任相应专业技术职务。取得初级资格可聘任数据分析师或数据助理工程师职务;取得中级资格可聘任工程师职务;取得高级资格,可聘任数据科学家、数据架构设计师或高级工程师职务。2考试级别该考试分为数据科学和数据开发2个专业类别,并针对这两个专业类别设置了初、中、高三个等级的专业资格(
3、水平)考试。工信部有权根据发展需要适时调整专业类别、资格名称和考试内容。专业类别、姿格名称和级别层次对应表数据科学数据开发高级资格数据科学家大数据架构设计师中级资格数据挖掘工程师大数据开发工程师、大数据可视化工程师、数据仓库工程师、爬虫开发工程师初级资格数据分析师大数据助理工程师2.1初级资格2.1.1故据分析师必备语言:Excel/VBA/Matlab/SAS/SPSS/R/Python等两种以上数据分析工具技术技能:数据分析概述及统计学基础数据分析概述1.领会:数据分析和数据挖掘的概念,KDD、CRISP-DM.SEMMA方法论。2.熟知:明确数据分析目标的意义,数据分析的过程,数据分析方
4、法与数据挖掘方法的区别和联系。描述性统计分析1 .领会:数据的计量尺度,数据的集中趋势、离中趋势和数据分布的概念,统计图的概念,各种统计图的含义和画法。2 .熟知:直方图的画法,衡量数据集中趋势、离中趋势和数据分布的常用指标及计算方法,统计图的绘制。3 .应用:根据不同数据类型选用不同的统计指标来进行数据的集中趋势、离中趋势和数据分布的衡量,不同统计图的使用场景。 抽样估计1 .领会:随机试验、随机事件、随机变量的概念,总体与样本的概念、抽样估计的理论基础、正态分布及三大分布的函数形式和图像形式、抽样的多种组织形式、确定必要样本容量的原因。2 .熟知:随机事件的概率、抽样平均误差的概念与数学性
5、质、点估计与区间估计方法的特点与优缺点、全及总体与样本总体、参数和统计量、重复抽样与不重复抽样、抽样误差的概念对总体平均数和总体成数的区间估计方法、必要样本容量的影响因素、中心极限定理的意义与应用。3 .应用:随机变量及其概率分布、全部可能的样本单位数目的概念及其在不同抽样方法下的确定、抽样平均误差在实际数据分析中的计算方法。 假设检验1 .领会:假设检验的基本概念、基本思想其在数据分析中的作用、假设检验的基本步骤、假设检验与区间估计的联系、假设检验中的两类错误2.熟知:P值的含义及计算、如何利用P进行检验、Z检验统计量、t检验统计量、检验统计量、2检验统计量的函数形式和检验步骤3 .应用:实
6、现单样本t检验、两独立样本t检验以及配对样本t检验的步骤和检验中使用的统计量与原假设。三种检验应用的数据分析场景。方差分析4 .领会:方差分析的相关概念、单因素方差分析的原理、统计量构造过程5 .熟知:单因素方差分析的基本步骤、总离差平方和(SST)的含义及计算、组间离差平方和(SSM)的含义及计算、组内离差平方和(SSE)的含义及计算、单因素方差分析的原假设6 .应用:实现单因素方差分析的步骤、SPSS中相关对话框实现的功能分析、对方差分析表的分析、方差齐次性检验结果表的分析以及多重比较表的分析回归分析7 .领会:相关图的绘制与作用、相关表的编制与作用、相关系数定义公式的字母含义、估计标准误
7、差与相关系数的关系。8 .熟知:相关关系的概念与特点、相关关系与函数关系的区别与联系、相关关系的种类、相关系数的意义以及利用相关系数的具体数值对现象相关等级的划分、回归分析的概念、回归分析的主要内容和特点、建立一元线性回归方程的条件、应用回归分析应注意的问题、估计标准误差的意义及计算。3.应用:运用简捷法公式计算相关系数、相关分析分析中应注意的问题、回归分析与相关分析的区别与联系。SQL数据库基础SQL基础概念1.领会:关系型数据库基本概念一元组,属性,主键,外键,E-R图。SQL特点,ANSI-SQL以及不同的数据库实现。数据类型,包括字符串数据类型,数值型,日期时间型2.熟知:逻辑运算符,
8、比较运算符,算术运算符,通配符3.应用:SQL函数,包括count,sum,avg,max,min等聚合函数,日期/时间函数,数学函数,字符串函数SQL查询语句1 .应用:select语句,包括查询单列,多列,去重,前N歹I,前N%;Into语句;from语句;where语句;groupby语句;having语句;orderBy语句。SQL连接语句1 .领会:表的连接类型,包括内连接(等值,自然,不等),外连接(左,右,全),交叉连接(笛卡尔连接),联合直询。应用:innerjoin的用法,left/right/fulljoin的用法,crossjoin的用法,union的用法。其它相关1.领
9、会:表的创建,视图及索引的概念及创建,数据插入、更新、删除数据采集及预处理采集方法1.领会:一手数据与二手数据来源渠道,优劣势分析,使用注意事项。2.熟知:一手数据采集中的概率抽样与非概率抽样的区别与优缺点。3.运用:概率抽样方法,包括简单随机抽样、分层抽样、系统抽样、分段抽样,明确每种抽样的优缺点,根据给定条件选择最可行的抽样方式;计算简单随机抽样所需的样本量。市场调研1.熟知:市场调研的基本步骤(提出问题,调查收集材料,分析预测问题)、单选题及多项选择题的设置、数据编码及录入。数据预处理方法1. 熟知:数据预处理的基本步骤,包括数据集成(不同数据源的整合),数据探索,数据变换(标准化),数
10、据规约(维度规约技术,数值规约技术),这部分内容不需要涉及计算,只需要根据需求明确可选的处理技术即可。2. 应用:数据清洗,包括填补遗漏的数据值(根据业务场景使用常数,或者中位数、众数等方法,不涉及多重查补的方法)、平滑噪声数据(移动平均)、识别或除去异常值(单变量根据中心标准化值,多变量使用快速聚类),以及解决不一致问题(熟知概念即可),查重(只考核SQL的语句,不涉及R、SAS等其他语言)。数据建模分析描述性数据分析/挖掘方法1 .主成分分析a)领会:主成分分析的计算步骤;主成分分析中对变量自身分布和多变量之间关系的假设以及模型设置。b)熟知:主成分分析适用于的变量度量类型。通过分析结果,
11、选取合适的保留主成分的个数,注意区分两种不同的分析目的(尽量压缩变量、避免共线性情况下保留更多信息)保留主成分个数的评判标准的差异。c)应用:在深入理解主成分的意义的基础上,在遇到业务问题时,有能力决定是否使用主成分分析法;有能力决定何时采用相关性系数计算方法和协方差矩阵计算方法;有能力解释主成分得分的结果;根据变量分布情况进行函数转换。2 .因子分析a)领会:了解因子分析模型设置,只需要关注主成分发的计算步骤。b)熟知:因子分析适用于的变量度量类型。通过分析结果,选取合适的因子个数;知道最常用的因子旋转的方法。c)应用:在遇到业务问题时,有能力决定是否使用因子分析,还是使用主成分分析方法就可
12、以了;有能力根据原始变量在各因子上的权重明确每个因子的意义;有能力对大量变量进行维度分析,分维度打分,并匕徽与专家打分(德尔菲法)的区别;在聚类前对数据进行描述,发现理想的聚类方式和数量。2.1.2大数据助理工程师技术技能:操作系统 Linux操作系统基础编程语言 Java语言基础 python语言基础 Scala语言基础 shell脚本语言分布式计算与数据存储 关系型数据库理论与MySQL数据库 海量数据的存储:Hadoop分布式文件系统-HDFS Hadoop集群规划与搭建 Hadoop集群数据查询与分析:Hive 掌握Flume的基本概念、架构设计及原理、单机与集群环境搭建 任务调度框架
13、Oozie原理及使用 sqoop的原理和使用 HBase体系结构和读写流程,基本知识 Storm基础知识、架构原理、集群环境搭建形式:笔试与上机操作考试相结合的形式。科目:基础知识和应用技术2个科目。时间:分2个半天进行,各科目考试时间均为2.5小时。合格标准:基本上稳定在各个科目都要求在60分以上(含60分)。获证条件:在一次考试中各科目全部合格,只有单科合格不予颁发证书。资格效力:取得初级资格可聘任数据分析师或大数据助理工程师职务。2 .2中级资格3 .2.1数据挖掘工程师必备语言:Excel/VBA/Matlab/SAS/SPSS/R/Python等两种以上数据分析工具,熟悉包括JAVA
14、、VB、SPARK、XML等一种以上开发语言。技术技能:基础理论数据挖掘简介1 .领会:数据挖掘在政府部门及各行业的应用2 .熟知:数据挖掘的起源、定义及目标,数据挖掘的发展历程。3 .应用:根据给定的数据建立一个数据挖掘的Project。数据挖掘方法论1 .熟知:数据库中的知识发掘步骤(字段选择、数据清洗、字段扩充、数码编码、数据挖掘、结果呈现),数据挖掘技术的产业标准(CRISP-DM(IBMSPSS)及SEMMA(SAS)2 .应用:运用数据挖掘软件进行不同文件格式汇入,并进行初步的数据探索。探索的内容包含数值型字段的叙述性统计分析,直方图(需与目标字段做链接),遗缺失分析及类别型字段的叙述性统计分析,分布图(需与目标字段做链接),遗缺值分析。笠探索的结果可进行初步的字段筛选。基础数据挖掘技术3 .领会:叙述性统计,可视化技术,KNN(KNearestNeighborhood)原理,KNN电影推荐案例。4 .熟知:案例为本的学习(Case-basedLearning),数据准备,距离的计算(ManhattanDistance/City-BlockDistance,EuclideanDistance)o5 .应用:运用数据挖掘软件中的KN