《一个全面的处理器性能评估方案.docx》由会员分享,可在线阅读,更多相关《一个全面的处理器性能评估方案.docx(22页珍藏版)》请在第一文库网上搜索。
1、一个全面的处理器性能评估方案处理器的评估其实是一个很复杂的事情。很多软件、机构都在做相关的工作,但是往往大家都会在表象层面进行讨论。其背后的问题其实并不复杂,但是由于手机、电脑厂家为了用一个量化的“数值”来标榜自己,所以会针对这个分值进行优化,特别是一些K1文化的厂家,手机跑分很牛,打游戏却很卡。其背后的原因,我们理解处理器的评估方法之后,就很清楚了。1、主频我们知道“身大力不亏”,如果跟一个大体重、大身高的对手打架,对方的基础数据是非常说明实力的。我们一般观测一个处理器水平如何,一般我们首先先看主频数值,和处理器的核数。主频也叫晅变频率,单位是Hz,用来表示西的运算速度。它决定计算机的运行速
2、度,随着计算机的发展,在同系列微处理器,主频越高就代表计算机的速度也越快,但对于不同类型的处理器,它就只能作为一个参数来作参考。另外CPU的运算速度还要看CPU的流水线的各方面的性能指标。由于主频并不直接代表运算速度,所以在一定情况下,很可能会出现主频较高的CPU实际运算速度较低的现象。因此主频仅仅是CPU性能表现的一个方面,而不代表CPU的整体性能。这也就是说一个人如果又高又壮,但是未必能打得过泰森。拳击比赛,身高体重一定有优势,但是不是胜负的评判标准。类比于人脑,就是说,反应快,但未必智商高。但是智商高的人,反应一般都快。但是,如果是相同的处理器架构,则主频高,一定会比相同处理器架构的要强
3、。也就是说,同比例放大泰森到身高两米,力量也同比例放大,再跟泰森本人Ph那么放大版泰森必胜。如下图中TPU的处理器内核是8核的Cortex-A53,但是处理器主频却高达2.3GHz,那么它一定比同为8核A53的其他处理器性能强。在其他条件相同的的情况下,处理器的主频彰显处理器实力。1PDDR41PDDR4xPCIeEP&RCEth100/1000x2NORF1aShEMMCUPtO32GBSDcard/Wifi&BTBMI6&TPUsubsystVideoSubsysVideoPostProcessorCo1orspaceconversionCroppingSca1ingVideSecurit
4、yEnE接口产品型号视频解码能力H.2648d8192*8192/8K视频/图片5gH.264&4K/10图用码能JPEG图用K码最大分辨率内存接口S1PDDR最大容量Am力2.处理器ARMA53W1个P(1个PCIEEPX810/1I2CU典型功耗工作温度-JSS学习TensorFIow/Pytorch/Pad对于我们买电脑的时候也一样,如果选择X86处理器的时候,我们选择迪的处理器,有时主频非常高,但未必有InteI处理器跑得流畅。如果我们同时选择Inte1的处理器,但是第几代酷睿,i3、i5、i7、i9确定的前提下,主频越高越好。但是主频高的9代i3未必有更低主频的11代酷睿i5好用。也
5、就是说姚明虽然又高又壮,但是应该是打不过泰森的。2、核数核数多,就是多人作战。多人,当然好,但是中国有句老话“一个和尚挑水喝、两个和尚抬水喝,三个和尚没水喝。”,虽然多核没有那么夸张。但是多核没有调度好,可能也是白搭。多核不一定会使你的手机或电脑速度更快,但它将提高你的PC或者硬件系统的整体性能,这是一个有所不同的细微的技术特色。多核处理器的性能提升并不是简单CPU核心的倍数,因为受到两(多)个核之间共享资源的拖累。比如双核性能只是单核的141.8倍,实际情况取决于具体的应用。首先跟实际应用有很大关系:性能指标评测通常分为单核分数和多核分数。单核分数与轻线程的游戏和应用程序更为相关,这意味着它
6、们依靠单个内核来处理许多(但不是全部)指令。多核分数与重线程的游戏和应用程序更相关,这意味着它们在多个内核之间分配指令。您如何判断游戏是轻线程还是重线程?打开任务管理器。运行游戏后,在WindoWS10中打开任务管理器(CTR1+SHIFT+ESC),然后单击“性能”选项卡。您会看到一个CPU使用率活动图。配置CPU图表。右键单击图形,然后单击“将图形更改为逻辑处理器”。您会看到每个CPU内核上的负载将分别显示出来。比较内核活动。如果游戏内容不多,那么大部分活动将被隔离到一个内核。从架构上区分同构多核架构:系统中的处理器在架构上是相同的异构多核架构:系统中的处理器在架构上是不同的同构多核架构在
7、硬件与软件设计上比较简单,通用性高。异构多核处理器有:I1的达芬奇平台DM6000系列(ARM9+DSP)、Xi1inx的Zynq7000系列(双核Cortex-A9+FPGA)、Ce11处理器(1个64位POwERPC+8个32位协处理器)等等。同构多核处理器有:Exynos4412,freesca1ei.mx6dua1和quad系列、TI的OMAP4460等,Inte1的COreDuoCore2DUO等。从运行模式上区分:AMPSMPBMP在软件上区分的话,多核处理器有三种运行模式:AMP(非对称多处理)SMP(对称多处理)BMP(受约束多处理)AMPAMP是指,多个核相对独立地运行不同的
8、任务,每个核之间相互隔离,可以运行不同的操作系统或裸机程序。AMP运行模式AMP的运行模式基本不会存在开销问题,尤其是在运行裸机程序时,甚至没有开销,这种模式比较适合实时性高的应用。但是两个核心之间的通信与资源共享需要有一套优秀的处理机制。虽然多个核心可以运行不同的系统,但是需要有一个主要的核心,需要使用该核心来控制整个系统以及其他的核心。例如:一个核心运行运行实时性较高的任务,另一个核心运行U1界面。AMP:任务任务裸机/操作系统裸机/操作系统CPUO共享内存CPU1SMP:SMP是指多个核心运行一个操作系统,该操作系统同等的管理多个内核,这种运行模式就是简单提高运行性能。目前支持该运行模式
9、的操作系统有:1inux,Windows,Vxworks0目前,我们的PC机使用的就是这种运行模式,一般适用于功能复杂,对实时性要求不高的系统。任务操作系统SMP运行模式BMPBMP运行模式与SMP类似,同样也是一个OS管理所有的核心,但开发者可以指定将某个任务仅在某个指定内核上执行。多核的出现还让系统设计变得更加复杂。如运行在不同内核上的应用为了互相访问、相互协作,需要进行一些独特的设计,如高效的IPC(进程间通信,interprocesscommunication)机制、共享内存的数据结构和同步原语(synchronizationprimitives)0程序代码迁移(Codemigrati
10、on)也是个问题。大多数系统厂商都在针对单核CPU架构的代码库上进行了大量投资。因而,这些公司需要有一个清晰的迁移策略,来使其代码可以最大化地利用多核硬件资源。非对称多处理(Asymmetricmu1tiprocessing,AMP)对称多处理(SymmetriCmu1tiprocessing,SMP)混合多处理(Boundmu1tiprocessing,BMP)针对多核设计的操作系统可能会大大减少解决上述挑战所需的工作量,也可能增加另一些问题的复杂性。这全都取决于操作系统是如何支持多核皿的多处理模式。多处理模式主要有以下三种:每个CPU内核运行一个独立的操作系统或同一操作系统的独立实例(in
11、stantiation)一个操作系统的实例可以同时管理所有CPU内核,且应用并不绑定某一个内核一个操作系统的实例可以同时管理所有CPU内核,但每个应用被锁定于某个指定的核心但是有个处理器,其实就是将两颗,或者多颗处理器集成在一起,可以看成是两个完成独立的处理器,都不像AMP那样共享内存,有自己独立的内存空间。可以看成是完全独立的处理器,只不过从芯片的角度是一颗芯片。这种情况在有些场景下是有用的,例如一些工控场景,我们需要一个处理器单独做一些事情,如果没有这个处理器,我们会用一个来单独做一些实时性的任务。3、流水线处理器内核中的流水线越多,当然性能响应的会越好。但是流水线太多,在异常出现的时候,
12、会导致计算回退,反而导致更低效率。流水线处理概述CPU主要工作方式:顺序重叠流水和铺地板的原理相似设指令工作方式分成取指令、分析、执行指令nJi1fj(sequence):T=Z(/HZ/+i+/h用阶段叼何为t,共。条指令.若各阶段执行时间相等,则共需3nt优点:控制简单;缺点:速度慢,机器各部件的利用率很低。重叠(Over1ap):在两条相近指令的解释过程中,某些不同解释阶段在时间上存在重叠部分。包括一次重叠、先行控制技术和多操作部件并行。将相邻两条指令的重叠时间再往前提前一个阶段;T=3Xt+(n-1)Xt=(n+2)Xt一次重叠:把取指令操作隐含在分析、执行指令过程中,则在任何时候只允
13、许上条指令“执行”与下条指令“分析”相重叠。T=(n1)Xt若各段时间不等时,有实际执行时间:先行控制:分析部件和执行部件能分别连续不断地分析和执行指令,预取和缓冲相结合的技术,通过对指令流和数据流的先行控制,使指令分析器和执行部件能尽量连续并行工作。执行时间:分析k执行k执行多操作部件并行:采用有多个功能部件的处理机,把A1U的多种功能分散到几个具有专门功能的部件中,这些功能部件可以并行工作,使指令流出速度大大提高。分析I执行ZnT=(他I+/分i+,执I)1=13wtr=+max/执1J+wi=2分析指令和执行指令时间不等时的一次重叠方式先行控制:现代计算机指令系统是复杂的,“分析”和“执
14、行”所需要的时间往往相差很大,从而造成功能部件的浪费,因此,需要采用先行控制技术。采用先行缓冲栈是指令执行过程的一种表示方法先行控制:一般采用先行缓冲栈的方式实现:一般设置四种缓冲栈:先行指令缓冲栈当主存比较忙时,指令分析器能够从先行指令缓冲栈中得到所需指令。先行操作栈对于条件转移等使用。先行读书栈主存储器和运算器之间的缓冲存储器,用来平缓运算器和主存储器之间的工作。后行写数栈当前没有完全写道主存的数据可以暂存到写数栈先行控制的处理机结构:一先行读数栈先行指令缓神栈指令分析器后行写书栈普卜一通用寄存器先行控制中的缓冲深度设计:通过一种极端情况计算举例:假设先行指令缓冲栈已经完全充满,缓冲深度是
15、D1。此时指令缓冲栈输出端,指令流出速度最快,而输入端,流入最慢假设指令序列的最大长度是11,平均分析一条指令的时间是t1而此时更坏的是取指令很慢,平均取一条指令的时间是t2假设先行控制栈充满到被取空的过程中指令分析条数是11则此时有:11t1=(11-D1)t2d=-mJ八1989年推出的i486处理器引入了五级流水线。这时,在CPU中不再仅运行一条指令,每一级流水线在同一时刻都运行着不同的指令。这个设计使得i486比同频率的386处理器性能提升了不止一倍。五级流水线中的取指阶段将指令从指令缓存中取出(i486中的指令缓存为8KB);第二级为译码阶段,将取出的指令翻译为具体的功能操作;第三级为转址阶段,用来将内存地址和偏移进行转换;第四级为执行阶段,指令在该阶段真正执行