数据合规人要懂的50个产品技术名词.docx

上传人:lao****ou 文档编号:1137884 上传时间:2024-12-02 格式:DOCX 页数:22 大小:41.58KB
下载 相关 举报
数据合规人要懂的50个产品技术名词.docx_第1页
第1页 / 共22页
数据合规人要懂的50个产品技术名词.docx_第2页
第2页 / 共22页
数据合规人要懂的50个产品技术名词.docx_第3页
第3页 / 共22页
数据合规人要懂的50个产品技术名词.docx_第4页
第4页 / 共22页
数据合规人要懂的50个产品技术名词.docx_第5页
第5页 / 共22页
亲,该文档总共22页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《数据合规人要懂的50个产品技术名词.docx》由会员分享,可在线阅读,更多相关《数据合规人要懂的50个产品技术名词.docx(22页珍藏版)》请在第一文库网上搜索。

1、数据合规人要懂的50个产品技术名词1什么是数据发现?一旦数据收集完成,下一步就是数据发现。数据发现是识别可用于数据分析和/或数据整合的数据集的过程。这一阶段对于评估数据质量至关重要,因为数据发现工具可以浏览数据或应用高级分析来监测模式和异常值。帮助商务用户进行日常操作和业务决策这一目的,可以通过可视化分析来实现。数据准备这一关键阶段往往被忽视,然而在正确处理数据之前了解数据意味着数据在共享使用时会更加可靠。数据发现过程使用工具及专业知识,在数据专家的协助下、从收集到的数据中观测到模式或趋势。数据发现可以分为两大类:手工数据发现是传统的商业智能过程,由数据专家凭借他们渊博的应用案例知识、理解力和

2、丰富经验,手工绘制数据图。这种方法完全依赖个人理解力,由数据专家构思并勾勒出数据图表,用以关联和理解数据。智能数据发现是一种更现代的商业智能形式,使用机器学习的自动化过程来揭示数据价值、并提供高质量的商务见解。使用人工智能的优点是,耗时少,可以准备、构思、整合和共享相关联的数据。也可以编制数据可视化,呈现隐藏的模式和有价值的见解。2 .什么是分类分级?分类:更多是从业务角度出发,在企业理清数据家底后,明确知道哪些数据(其实应该是元数据,更贴切一些应该是字段)属于哪个业务范畴,也就是类别。这个业务范畴囊括的范围可大可小,完全依托于企业前期基于业务的梳理结果。举个例子:身份证号这一类数据,既可以属

3、于个人信息范畴,也可以属于个人基本信息范畴,前者的范围明显大于后者。也许有朋友会发出疑问,给业务划分类别当然是越细越好。这就是笔者要在此处强调的,做数据分类,并不是业务越细分越好,因为很有可能细分业务之后,最终却发现无数据可进行归类,这是典型分类失败的体现。当然反过来也成立,分类少了,数据归不进去,也是分类失败的体现。分级:不同于数据分类,对于大多数企业来说,更多是从满足监管要求的角度出发。数据分级属于数据安全领域,或许称呼它为敏感等级更为贴切。企业中的数据有的密级程度高、有的低、有的可公开、有的不可公开,敏感等级不同的数据对内使用时受到的保护策略不同,对外共享开放的程度也不同。如果企业对自己

4、内部的数据没有一个明确地认识,先不说是否可以满足监管要求,对于自身的运营来说都是严重的隐患,因为很可能一不小心就将内部的敏感信息泄露了出去。3 .什么是元数据?元数据(Metadata)中的元(Meta)J可以理解为事物或对象,数据(data)J当然就是指该对象的相关数据。你可能接触过照片的元数据,其中包括图像尺寸、拍摄时间或者是光圈和快口信息、GPS数据,对于视频文件也一样,比如画面的尺寸、视频和音频的编码、时长等等。实际上你可以理解成,关于该文件或对象的一切信息都是元数据,无论是技术相关的信息还是内容信息的一切。技术型元数据技术型元数据通常涵盖了从相机或摄像机获得的信息范围,这很自然,因为

5、这些数据主要就是由其拍摄和生成的。其中除了包括前面提到的图像大小、帧速率、编码以外,还可能(取决于相机和来源)包括镜头型号、焦距、白平衡、相机硬件序号、镜头硬件序号等等。取决于摄像机型号的不同,一些基本数据会跟随数字媒体文件的生成被嵌入到媒体文件内部,而另一些可能会被单独存储在一个称为FSidecarJ的文件中,这通常是一个XM1文件,而且带有硬件生产商的特定属性。内容型元数据这通常是更有用的元数据,因为它包括的范围更广。内容型元数据除了能用来描述媒体或片段的内容以外,还可以被用来对素材进行管理、分类、纳入上下游操作流程,甚至也能提供一些技术型元数据的功能。基本上,你可以把内容型元数据直接理解

6、成关键字,但它有除了可以是字符型内容以外,还可以是评分、勾选框等类型。内定型元数据可以非常简洁,也可以非常冗长,但相同点在于,它们目前来说都是由工作人员在制作流程中手动添加和修改的。也许是摄像师在拍摄中添加的场号、镜号,也许是D1T人员添加的卷号、样片号、机位编号、景别附注、外观附注,也许是剪辑助理或VFX艺术家添加的各种注释等等。4 .什么是数据映射(DataMapping)?给定两个数据模型,在模型之间建立起数据元素的对应关系,将这一过程称为数据映射。数据映射是很多数据集成任务的第一步,例如:数据迁移(datamigration)、数据清洗(datac1eaning)、数据集成、语义网构造

7、、p2p信息系统。5 .什么是数据迁移(DataMigration)?数据迁移是指将数据从一个位置转移到另一个位置,从一种格式转换为另一种格式,或从一个应用程序移动到另一个应用程序的过程。数据迁移通常是为数据引入新系统或位置的结果。业务驱动因素通常是应用程序迁移或整合,在这种迁移或整合中,原有系统会被共享同一数据集的新应用程序所取代或增强。如今,随着企业从内部基础架构和应用程序迁移到基于云的存储和应用程序以优化或转变公司,数据迁移即开始。6 .什么是数据清洗(DataC1eaning)?对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据清洗从名字上也看

8、的出就是把脏的洗掉,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。7 .什么是数据治理(DataGovernance)?数据治理是指为确保数据安全、私有、准确、可用和易用所执行的所有操作。它包括人们必须采取的行动、必须遵循的流程以及在整个数据生命周期中为其提供支持的技术。数据治理意味着设置适用于收集、存储、处理和处置数据的内部标准,即数据策略。它规定了谁可以访问哪些数据以及哪些数据应受治理。数据治理还涉及遵循行业协会、政府机构和其他利益相关者设定的外部标准。数据治理包含以下几方面内容口:a确保有效助力业务的决策机制和方向;b确保绩效和合规进行监督;

9、C确保信息利益相关者的需要评估,以达成一致的企业目标,这些企业目标需要通过对信息资源的获取和管理实现。8 .什么是机器学习?机器学习(M1)是人工智能(A1)的一个分支,旨在构建能够根据所使用的数据进行学习或改进性能的系统。人工智能是一个宽泛的术语,指的是模仿人类智能的系统或机器。机器学习和人工智能这两个术语经常被相提并论,有时甚至互换使用,但它们的含义并不相同。其中一个重大区别是,所有的机器学习都是AI,但不是所有的A1都是机器学习。如今,机器学习无处不在。当我们与银行交互、在线购物或使用社交媒体时,机器学习算法会发挥作用,让我们获得高效、顺畅和安全的体验。目前,机器学习及其相关技术正迅速发

10、展,对于它的强大功能,我们只是略知一二而已。9 .什么是人工智能?人工智能的范围可以说很大、很泛,从表面上可以理解为机器的智能化,让机器像人一样能解决思考解决问题。其实人工智能核心技术包括很多的方面:推理、知识、规划、学习、交流、感知、移动和操作物体的能力等。可以说机器学习和深度学习都是人工智能这个大主题下的一部分吧,深度学习又可以归为机器学习的一部分。简而言之,机器学习和深度学习是人工智能的两个关键的技能,看人工智能的发展历史,人工智能三大研究内容:计算机模仿人类的思考,对环境的感知和动作的实现是人工智能的三大研究内容。即:人工智能机器学习深度学习。10.什么是接口(API)?我们去餐厅看着

11、菜单点菜,点好菜后,服务员会根据你的菜单,给你上菜。其中点菜就是餐厅提供的一种服务,这个服务的输入是菜单名,输出就是做好的菜。小结:所以说API就是给客户提供服务的一种方式,它还需要人参和出参。再举几个我们工作中的常见例子口: 例子1:微信开放平台给其他开发者提供了微信扫码登录的API,开发者只要调用这个API就可以实现扫码登录。这个API的入参是登记在微信开放平台的一个appid和密钥,出参则是用户的OPenid等信息。 例子2:腾讯云给其他开发者提供了发短信的API,开发者只要调用这个AP1就可以发短信。这个AP1的入参是用户的手机号码和短信内容,出参则是发短信。 例子3:这是最常见的例子

12、。我们的后台会暴露很多API给到前端调用,也就是HTTP接口。比如说一个查询商品的接口,入参是商品名称,出参是商品详情。I1什么是SDK?SDK全称是软件开发包,常见的比如百度地图SDK、微信支付SDK等。SDK是软件开发商封装自己的一些基础服务后,对外提供的一种软件开发工具包。目的在于省去第三方应用开发者的开发成本,使用现成的软件能力来服务于自己的产品。例如:百度地图SDK,提供了完整的地图展示、导航、定位等功能。作为第三方开发者,只需要调用SDK里的接口来使用这些服务即可,不需要自己从头开始来开发这些功能,极大的降低了开发成本,而对于SDK厂商来说,扩展了自己的生态圈,也丰富了用户群。12

13、 .什么是cookie?有什么用?Internetcookie是文本数据的集合,用于在您浏览网络时保存有关您的某些信息。Web浏览器使用这些数据来创建更简单的用户体验并提供分析信息,网站所有者可以使用这些信息来创建更好的营销活动,以及其他用途。13 .什么是IP地址?IP地址(InternetProtoco1Address)是指互联网协议地址,又译为网际协议地址。IP地址是IP协议提供的一种统一的地址格式,它为互联网上的每一个网络和每一台主机分配一个逻辑地址,以此来屏蔽物理地址的差异。14 .什么是域名和DNS?在网络的远古时代,最开始的时候,我们是通过ip地址来访问服务器的。比如61.135

14、.169.125就是百度的官网地址之一,如果每个网址我们都用ip地址来记忆,那是相当麻烦了。域名比ip地址更好记忆,所以我们一般使用域名来记忆一个网址。当我们输入域名的时候,DNS会自动帮我们把域名转成ip地址,因为有了ip地址,才能找到服务器。举个例子:假设ip地址是电话号码,域名就是人名,那么DNS就是通讯录,当你想打电话给某个人时,输入人名,DNS就会从通讯录中找出电话号码来拨打。15 .什么是爬虫?简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。你可以简单地想象:每个爬虫都

15、是你的分身。就像孙悟空拔了一撮汗毛,吹出一堆猴子一样。你每天使用的百度,其实就是利用了这种爬虫技术:每天放出无数爬虫到各个网站,把他们的信息抓回来,然后化好淡妆排着小队等你来检索。抢票软件,就相当于撤出去无数个分身,每一个分身都帮助你不断刷新12306网站的火车余票。一旦发现有票,就马上拍下来,然后对你喊:土豪快来付款。16 .什么是程序、进程和线程?程序是指令和数据的有序集合,是一个静态概念。进程(ProCeSS)是计算机中的程序关于某数据集合上的一次运行活动,是系统进行资源分配和调度的基本单位,是操作系统结构的基础。线程(Thread)是程序执行流的最小单元。绩呈是进程中的一个实体,是被系

16、统独立调度和分派的基本单位。17 .什么是同步、异步和回调?同步调用,即当程序1调用程序2时,程序1停下不动,直到程序2完成回到程序1来,程序1才继续执行下去。异步调用,即当程序1调用程序2时,程序1径自继续自己的下一个动作,不受程序2的影响。回调(ca11back)和异步调用关系密切,通常使用回调来实现异步消息的注册。18 .什么是流(stream)?在C+、JaVa等编程语言中,流是指用来从另一个地方不间断地获取数据。19 .什么是缓存系统?一般分为两级,一级缓存也叫内存缓存,存取速度更快,程序退出数据就消失,不可一直保留,是一种以空间换时间的程序设计;二级缓存也叫硬盘缓存,容量大一点,速度慢一点,程

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 工作总结

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服