《为什么传统的FPGA无法将智能传送到边缘.docx》由会员分享,可在线阅读,更多相关《为什么传统的FPGA无法将智能传送到边缘.docx(9页珍藏版)》请在第一文库网上搜索。
1、为什么传统的FPGA无法将智能传送到边缘无处不在的移动设备和遍在的连接已使世界“沉浸”在无线连接的汪洋大海,从不断增长的地面和非地面蜂窝基础设施,以及其所需的支持性光纤和无线回传网络,一直到通过量断开发的协议和SoC、将数十亿个传感器的数据发送到云端的大规模物联网生态系统。预计在2025年以前,全球数据量(datasphere)每年将达到175ZBo而到2030年以前,相关连接设备的数量预计将达到500亿部(台)。但是,传统的分布式感测加云端集中处理数据的方案在安全性、功耗管理和延迟(端到端)方面都存在严重制限。5G标准中的超可靠低延迟通信,要求端对端(E2E)延迟不得高于数十毫秒。这就导致了
2、将数据处理推到边缘端、避免将计算(和存储)资源进行汇聚,以减少在上下行链路的传输中产生的巨大开销。这么做,也同时提升了网络的敏捷性和可扩展性。机器学习(M1)和人工智能深度神经网络(DNN)的发展,为推动边缘端的这一洞察视角带来了希望。但这些方案具有巨大的计算负荷,是传统软件和酸入式处理器方法无法满足的。此外,随着工艺制程的推进,高昂的超专业化专用工(ASIC)的开发和生产成本,是边缘设备无法承受的。而且,ASIC不具可重构性(reconfigurabi1ity),因而严重限制了任何潜在的系统升级可能。对于新一代边缘应用所需要的逻辑容量来说,传统的FPGA方案通常都过于昂贵和耗电。边缘计算的细
3、分市场要求设备具有极低的功耗、紧凑的外形尺寸、面对数据变化的敏捷响应、以及借助远程升级能力紧随A1的演进一一所有这些都要以合理的价格实现。实际上,这是FPGA的天然优势,在灵活、硬件可定制的平台上加速计算密集型任务方面,FPGA是天生王者。但是,许多现成的FPGA都是面向数据中心应用的,而在数据中心整体功耗与成本核算里,是完全可以承受FPGA的那点“奢华”的。幸运的是,有一款解决方案:借助易灵思的钛金系列FPGA系列,其先进的QUantUm计算架构可直面近端数据(near-data)计算的需求,可灵活配置多达一百万个逻辑单元(1E),并且无论应用如何,都可轻松布线,实现超高的资源利用率。边缘数
4、据处理的刚需就连接性而言,过去十年或多或少地致力于以下三件事:将世界用无线连接起来;提高无线连接的强度和完整性;并确保一切可连(从人到物)的、都以某种方式连接起来。本质上讲,这是通过一一下一代5G部署(强化基础蜂窝基础架构并开发更新的技术以优化数据吞吐量、容量、覆盖范围和延迟要求)以及物联网革命(其中物理目标配备了感知功能和/或标签)一一实现的。这些技术发展已经产生了深远的社会影响,无线连接已成为日常生活中不可或缺的一部分。从家用电器到复杂的工业机械,使用传感器和执行器进行远程监视、跟踪甚至控制相关对象的能力几乎已成为了基本必须的能力。但是,设备密度的巨大提升也导致了某些非常明显的瓶颈。以云为
5、中心的物联网从公共/私有云的物联网节点中提取、累积和处理大量传感器数据,从而导致显著的延迟。回传访问的各种拓扑结构一一从边缘设备到网关,再通过光纤或无线连接回到云一一引入了三个主要瓶颈,它们是:延迟功耗预算成本效益传统物联网通常由严格控制功耗的终端设备定义,这些终端设备通过星型或网状拓扑以低到中等的吞吐量向互联网连接的网关发送少量有效载荷。这些多级架构无法满足从公共安全、医疗到3!3t化等许多时间敏感型的关键应用的低延迟要求。那些为低延迟、中等吞吐量、与时间同步的连接所定义的协议,例如Wire1eSSHART、ISA100.11a、IEEE80211空_和11E-M,其直接访问网关的往返延迟,
6、可严苛到只允许有10毫秒;但是,典型的延迟却要几百毫秒。1这只是在巫领域内一一如果我们将重点转移到移动蜂窝网络,基于5G的高压配电网络中允许的最小E2E延迟则为5毫秒;对于离散自动化应用,会长一些、为10毫秒。2但是,硕果累累的先进制造技术利用了基于以太网的硬连线(如,EtherNet/IP、Profinet10、EtherCat等)或基于现场总线(如,ProfibusFoundationFie1dbus,CAN等)的技术,这些时间敏感的组网技术必须要可靠地实现帚毫秒级的循环丽;亚微秒级的延迟以及极低的抖动(工厂运行要求)。3这些应用从感知到执行的闭环时间要求小于1微秒,最大传输误码率率(tr
7、ansactionerrorrate)小于10-9,这是传统无线网络难以匹敌的指标。无线连接需要异步或同步通信。为进行可靠的数据传输,传输必须有严格的时序安排。但这会消费不菲的功耗一一理想的休眠或低功耗模式可延长电池续航时间,但设备无法在这样的模式下运行。此外,以智能地部署传感器节点,再通过网关和/或多级传输将数据带到云端,不仅会降低安全性、而且会增加硬件成本。可靠的数据传输是5G后(6G及更高)的移动通信时代的主要目标,而数据服务提供商大量收集用户信息的行为经常导致数据泄漏事件。4通过以去中心化的方式执行计算密集型任务,就可以实现数据的完全匿名化和不可追溯性。边缘设备智能化的基本要求将计算基
8、础架构从数据中心扩展到边缘这一主张,得到了越来越广泛的共识。诸如联邦学习之类的概念,通过共享的预测模型进行协作学习这种方式,将标准集中式机器学习(M1)方法从数据中心转移到至极一一在将数据存储到云的需求中,消解了对可实现M1能力的要求。5而各种高级深度神经网络(DNN),每天都在发展、以更好地赋能基于边缘的处理功能。成功地将智能带到边缘设备也带来了与传统的A1不同的商机一一例如:个性化购物,基于A1的助手;或在制造设施中进行预测分析。边缘/雾计算的应用,比如:车辆的目动驾驶;需要复杂反馈机制的机器人技术的远程控制;甚至是使用M1、可更好地管理可再生能源的智能电网终端设备;以及在电网中对本地电能
9、使用进行预测分析。对于此类应用,成功实施A1的主要决定因素包括:成本效益低功耗可重构性/灵活性尺寸IoT/边缘节点上流行A1皿方案的比较AI芯片方案市场一直在持续增长,2023年的市场规模为76亿美元,到2026年有望增长至578亿美元。在各超专业方案之间,有着不同的6先进A1硬件,例如:高度定制的AS1C和SOC可编程FPGA方案通用GPU和CPU通用GPU和CPU通常遵循冯诺依曼(vonNeumann)架构,其中指令提取不能与数据操作同时发生,这样,指令只能被顺序执行。在矢量CPU和多核GPU等多处理器方案中,在某种程度上绕过了这种顺序性,但却需要更多的跨核数据共享而增加了延迟。这种由软件
10、管理的并行机制必须在各处理单元之间最佳地分配工作量,否则可能会导致计算负载和通信不平衡一一这种特性很难支撑自定义数据类型和特定的硬件优化。就延迟、功耗、并行处理和灵活/可重构性的效率而言,FPGA本质上优于GP1K首先,CPU和GPU必须以特定方式(如,SIMDS1MT执行模型)处理数据,但FPGA和ASIC本质上直接在硬件中实现软件算法,逻辑单元可以简单地完成软件指令。此外,就完成相同质量的工作而言,FPGA功耗更低、可重构性更好一一与硬件已固化的ASIC、SoCGPU和CPU相比,人们可以在硬件层级来更改数据流的性质。就流行的A1芯片方案而言,AS1C领先,FPGA随后。但是,就边缘智能计
11、算的主要关注点而言,AS1C相形见细。对于成本而言尤其如此:I。T的部署数量,可能在数十个到数十万个节点之间。众所周知,打造一款ASIC殊非易事,需要数年时间,而仅生产制造一项就需要数千万美元的巨额资本支出一一通常,只有数百万至数十亿片的批量,此符合开发AS1C的成本效益。此外,人工智能的发展日新月异。仅在几个月内,数百种现有拓扑及其各自的神经网络就会有显着的改良。随着时间的流逝,会出现具有不同功能和层级的新模型,任何公司都会希望拥抱这些变化。这就吁求一种可快速原型化和部署的低成本、灵活、可重构的平台。边缘设密智能化的局限可重为性/灵活性功耗尺寸速度(延时+并行处理)解鸵搏IV39馔定制方案(
12、例如ASIC,SoC)中到高低小高高CPU低低小低低GPU中小中到高中传统FPGA方案高高大高中为什么传统的FPGA无法将智能传送到边缘在传统以AS1C和GPU为主的A1芯片方案市场中,FPGA的竞争力与日俱增,这些平台主要用于AS1C的原型设计和开发,或用于公共和私有云中的网页搜索、图像分类和翻译等应用。要满足复杂A1运算的性能,通常需要价格昂贵、耗电且块头大的器件。FPGA的主要初衷是可编程性,其中硬件结构由可编程逻辑单元(1E)和配有交换开关模块的可编程路由电路组成。凭借这种结构,用户可通过可编程开关将任何1E连接到任一路由轨线上。如要扩大器件的容量,基本是通过增加1E的数量并确保路由交
13、换电路与算法有能力支撑这些增长。这一艰苦卓绝且昂贵的过程一边需要工程师团队来优化FPGA的路由,一边让IC设计师尽量减小尺寸、才得以逐步提升器件容量;于此同时,FPGA被定位为只适合边缘之外的昂贵、耗电的应用。约10年前易灵思的联合创始人张少逸先生和魏启杰先生就预测到这种情况,并以打造一种可以发挥FPGA的真正潜力来满足新兴边缘市场需求的FPGA技术一一这一愿景创建了易灵思。如今,易灵思钛金系列器件在市场上独树一帜,在满足边缘A1的计算需求的同时,提供超小的功耗与尺寸,使其自然适用于哪怕是最苛刻的边缘应用。这在很大程度上要归功于其创新的QUantUm计算架构,该架构由可重构的小块(ti1e)或
14、可交换的逻辑和路由(X1R)单元组成,它消解了传统的路由方法,并允许1E变得更小、使用更灵活。集成了存储模块和高速DSP模块(乘法器模块)的器件的逻辑容量范围为3.6万至1百万个1E。与传统FPGA相比,无论最终应用为何,QUantUin架构上的这种根本优势可以显著提高资源利用率。易灵思的FPGA技术迥异于传统的FPGA,它以小巧的器件封装实现了高密度、低功耗,同时又保持了FPGA随附的所有灵活性。总之,这些功能使该方案成为真正的颠覆者,在边缘/雾计算方面处于绝对领先地位。传统FPGA珞由交换开关Quantum内核架构与传统的FPGA架构图片取自白皮书仔细观察:钛金系列FPGA如何满足边缘计算
15、的基本要求成本效益、尺寸和功耗优势16nm工艺使这款纤巧器件具有小至0.5Inm间距、5.5X5.5mmBGA封装的器件尺寸可容易地集成进边缘节点。除尺寸方面的考虑外,与传统FPGA建构的分道扬镶,也降低了钛金系列FPGA的价格。反过来,与集中式基于云的处理相比,可享受边缘计算带来的额外成本降低的好处,且同时降低了使用FPGA做设计的门槛。物联网节点也将不可避免地需要低能耗,并经常利用能量收集技术来最大程度地减少节点维护。因要尽可能多地完成数据处理,所以通常不会在边缘计算中看到在低功耗无线调制方案中经常用到的理想的休眠模式。但是,设计者可通过使用并行处理来降低内部电针频率,以降低动态功耗,从而
16、实现更具能效的电源方案。这与仅使用空间并行性的顺序处理器所遇到的瓶颈不同,在顺序处理器中,投入更多处理器内核的典型解决方案只会耗能一一内存中数据的批处理无法为来自I/O通道的动态传入数据流提供一致的处理性能。FPGA同时提供空间和时间并行性,因此不仅采用数据并行,而且还实施任务和流水线并行。7这就使有效数据流有更多变化,从而减少了存储芯片对功耗的影响(例如,使用1E实现的空间和时间映射,通过重用FPGA内存的数据来减少片外存储芯片的访问)。架构优势:灵活和可重构性边缘应用的最终挑战是为特定应用找到合适的算法,并将其有效地映射到硬件。通常,网络(例如DNN、CNN等)很复杂,并且计算量、内存需求和耗