《详解华为12种数据采集技术及应用实践.docx》由会员分享,可在线阅读,更多相关《详解华为12种数据采集技术及应用实践.docx(15页珍藏版)》请在第一文库网上搜索。
1、详解华为12种数据采集技术及应用实践导读:数字化转型要从根本上加强数据的可获得性,围绕我们构建的数据主题和对象丰富数据感知渠道。要追求更加实时、全面、有效、安全的数据获取。随着企业业务数字化转型的推进,非数字原生企业对数据的感知和获取提出了新的要求和挑战,原有信息化平台的数据输出和人工录入能力已经远远满足不了企业内部组织在数字化下的运作需求。企业需要构建数据感知能力,采用现代化手段采集和获取数据,减少人工录入。数据感知能力架构如图1所示。数据存储ftt次接入实时接入按需接入收据感知数据接入图片结梅化数据文档点虫统境飕系条形码/二推码磁卡 RFID OCR/ICR音须帮器设像音频感业匿语视传工数
2、据流 CLIMessage ETLQueue DataStreamReplicationProcessing DataDiscovery非结构化数据推9存储介质 RDBMS:SQLServer,DB2,Oracle,MySQL DocumentDB:MongoDB,ArangoDB,Hbase.HDFS,OrientDB,Elastic,gunDB ObjectDB:Versant,db4o,Objectivity,JADE,NDatabase GraphDB:Neo4J,InfiniteGraph,Sparksee,AllegroGraph,WhiteDB图1数据感数据感知可分为硬感知和“软
3、感知,面向不同场景。硬感知主要利用设备或装置进行数据的收集,收集对象为物理世界中的物理实体,或者是以物理实体为载体的信息、事件、流程等。而软感知使用软件或者各种技术进行数据收集,收集的对象存在于数字世界,通常不依赖物理设备进行收集。如图2所示。使用软件或者各种程序进行数爵收集,收集的对象存在于数字世界,通常不;依短物理设备进行收集利用设箔或装蓄正行数据的收集,收集对象为物理世界中的物理实体,或者是以物理实体为载体的信息、事件、流程、状态等、一数展感知的过程发生八数宴世界通常iOb运行的程序或脚*:数抿的感知过程是数堀从物理世界向政学世界的埋点.SystemLog、网络爬虫K/aMwtaaw图2
4、感知分类一、基于物理世界的硬感知能力自动采集技术仍在发展中,不数据采集方式主要经历了人工采集和自动采集两个阶段。同的应用领域所使用的具体技术手段也不同。基于物理世界的硬感知依靠的就是数据采集,是将物理对象镜像到数字世界中的主要通道,是构建数据感知的关键,是实现人工智能的基础。基于当前的技术水平和应用场景,我们将硬感知分为9类,每一类感知方式都有自身的特点和应用场景,如图3所示。知知软感传感器数据采集图39类硬感知1 .条形码与二维码条形码或者条码是将宽度不等的多个黑条和空白,按一定的编码规则排列,用以表达一组信息的图形标识符,通常一维条形码所能表示的字符集不过10个数字、26个英文字母及一些特
5、殊字符,条码字符集所能表示的字符个数最多为128个ASCII字符,信息量非常有限。二维码是用某种特定的几何图形按一定规律在平面上分布的黑白相间的图形,用来记录数据符号信息。二维码拥有庞大的信息携带量,能够把使用一维条码时存储于后台数据库中的信息包含在条码中,可以直接阅读条码得到相应的信息,并且二维码还有错误修正及防伪功能,增加了数据的安全性。2 .磁卡磁卡是一种卡片状的磁性记录介质,利用磁性载体记录字符与数字信息,用来保存身份信息。视使用基材的不同,可分为PET卡、PVC卡和纸卡三种;视磁层构造的不同,又可分为磁条卡和全涂磁卡两种。磁卡的优点是成本低,这是它容易推广的原因,但缺点也比较明显,例
6、如卡的保密性和安全性较差,使用磁卡的应用系统需要有可靠的计算机系统和中央数据库的支持。3 .RFIDRFID(RadioFrequencyIdentification,无线射频识别)是一种非接触式的自动识别技术,通过无线射频方式进行非接触双向数据通信,利用无线射频方式对记录媒体(电子标签或射频卡)进行读写,从而达到识别目标和数据交换的目的。基于特别业务场景的需求,在RFID的基础上发展出了NFC(NearFieldCommunication,近场通信)。NFC本质上与RFID没有太大区别,在应用上的区别如下。NFC的距离小于10cm,所以具有很高的安全性,而RFID距离从几米到几十米都有。NF
7、C仅限于13.56MHz的频段,与现有非接触智能卡技术兼容,所以很多的厂商和相关团体都支持NFCO而RFID标准较多,难以统一,只能在特殊行业有特殊需求的情况下,采用相应的技术标准。RFID更多地被应用在生产、物流、跟踪、资产管理上,而NFC则在门禁、公交、手机支付等领域发挥着巨大的作用。4 .OCR和ICROCR(OpticalCharacterRecognition,光学字符识别)是指电子设备(例如扫描仪或者数码相机)检查纸上打印的字符,通过边检测暗、亮的模式确定其形状,将其形状翻译成计算机文字的过程。如何除错或利用辅助信息提高识别正确率,是OCR的重要课题。ICR(Intelligent
8、CharacterRecognition,智能字符识另U)是一种更先进的OCR。它植入了计算机深度学习的人工智能技术,采用语义推理和语义分析,根据字符上下文语句信息并结合语义知识库,对未识别部分的字符进行信息补全,解决了OCR的技术缺陷。一个OCR识别系统,从影像到结果输出,须经过影像输入、影像预处理、文字特征抽取、比对识别,最后经人工校正将认错的文字更正,将结果输出。目前OCR和ICR技术在业界有较为成熟的解决方案供应商,非数字原生企业不需要自行研发就可以完成相关技术的部署和数据的采集。5 .图像数据采集图像数据采集是指利用计算机对图像进行采集、处理、分析和理解,以识别不同模式的目标和对象的
9、技术,是深度学习算法的一种实践应用。图像数据采集的步骤如图4所示。通过取像设备读取相纹置像,然后用计算机识别软件分析指纹的全局特征和指纹的局部特征31识别技术是利用虹震终身不变住和差异性的特点来识别身份的虹81虹mi是一种在as睛中at孔内的枳物状的各色环状物,每个虹膜都包含一个独一无二的于水晶体、纯丝.迸点、凹点、装蚊和条枚等特征的结为515a期人体的血管纹路也是U有独特性的,人的视网事上面血管的8B楼可以利用R光学方法透过人事II体来测定面部识别技术通过对面部特征和它们之间的关系(噩瑞.鼻子和,的位面部以及它们之间的相对位)来迸行识别,用于捕捉面部as像的两项技术为标准视频和热成像技术,蝴
10、空绿头不同,热成像技术并不需饕较好的光源,即使在UEMI况下也可以使用摹蚊与指纹一样也JW律定性和睢一性,利用拿蚊的线特征、点特征、蚁拿纹理将征、几何特征等完全可以确定一个人的身份,因此事权识别是于生物特征身份认证技术的要内容人口一套完整的人耳自动识别系鸵一般包括以下几个过程:入耳图像采集、3E人县像的预处理.人耳8E像的边缘检测与分副.特征摄取、人耳图像的识别图4图像采集步骤6 .音频数据采集语音识别技术也被称为自动语音识别(AutomaticSpeechRecognition,ASR),可将人类的语音中的词汇内容转换为计算机可读的输入,例如二进制编码、字符序列或者文本文件。目前音频数据采集
11、技术在业界也有较为成熟的解决方案供应商,可以很便捷地通过解决方案供应商的技术,完成技术的部署和数据的采集。采集来的声音作为音频文件存储。音频文件是指通过声音录入设备录制的原始声音,直接记录了真实声音的二进制采样数据,是互联网多媒体中重要的一种文件。音频获取途径包括下载音频、麦克风录制、MP3录音.录制计算机的声音.从CD中获取音频等。7 .视频数据采集视频是动态的数据,内容随时间而变化,声音与运动图像同步。通常视频信息体积较大,集成了影像、声音、文本等多种信息。视频的获取方式包括网络下载、从VCD或DVD中捕获、从录像带中采集、利用摄像机拍摄等,以及购买视频素材、屏幕录制等。8 .传感器数据采
12、集传感器是一种检测装置,能感受到被检测的信息,并能将检测到的信息按一定规律变换成信号或其他所需形式的信息输出,以满足信息的采集、传输、处理、存储、显示、记录等要求。信号类型包括IEPE信号、电流信号、电压信号、脉冲信号、I/O信号、电阻变化信号等。传感器数据的主要特点是多源.实时时序化、海量、高噪声.异构、价值密度低等,数据通信和处理难度都较大。9 .工业设备数据采集工业设备数据是对工业机器设备产生数据的统称。在机器中有很多特定功能的元器件(阀门、开关、压力计、摄像头等),这些元器件接受工业设备和系统的命令开、关或上报数据。工业设备和系统能够采集、存储、加工、传输数据。工业设备目前应用在很多行
13、业,有联网设备,也有未联网设备。工业设备数据采集应用广泛,例如可编程逻辑控制器(PLC)现场监控、数控设备故障诊断与检测、专用设备等大型工控设备的远程监控等。二、硬感知能力在华为的实践硬感知在非数字原生企业有广阔的前景,因为在数字化时代,非数字原生企业大量存在的产线、流程工艺、实体货物、物流设备等,都需要通过硬感知来实现数据的感知和采集。华为作为典型的非数字原生企业,9类数据硬感知能力在各领域中都得到了一定的应用,并已发挥了实际的业务价值。1 .门店数字化如图5所示,采用7种数据采集方式,支撑持续提升运营效率与消费者体验。通过光线传感器和温度传感器,自动调节窗帘、灯光,温度随环境改变,并与店门
14、、窗帘、灯光、空调、屏幕、防盗系统联动,打造智能绿色门店环境。通过实物管理感知,样机自动申报位置与状态,异常告警,自动上报消费者在门店体验过程中的行为,结合消费者体验情况优化陈列、营销设计、产品设计。通过视频感知客流与热区,管理门店各片区人流密度与停留时间,优化陈列与营销,实时调整服务人力与资源配置。到店购买获取分享消费者门店体验旅程选购产品/配件官网、App或到访门店微信等社交媒体9班!)客户导购介的产品/服务信息购买&支付采编工K触点自助体啦产品/服务信息埋点(样机)埋点(自助设备)条形码/磁卡RFIDJ图像采集一糠H埋点采编的畋据环境数据:消将者行为:设备状态:消费者行为:体验顾问服务:库存:服务:湿度样机体验数据亮度产品体验偏好是否开机产品点击率JK物方式偏好是否在原位置产品停留时长产品偏好使用率与购买转化连带销售连带销售服务满意度座存数消耗速度实物散排队时长服务时长服务满意度图5门店数字化2 .站点数字化如图6所示,站点主要在高层或者在野外环境中,勘测和日常维护难度都比较大,通过360度全景拍照和OCR,构建站点物理对象完整的围栏尺寸、塔高、机房尺寸、设备尺寸、天线挂高、走线距离、天