我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:多盈娱乐注册 > 多处理机 >

ARM处理器NEON编程及优化技巧——处理剩余的元素

归档日期:05-02       文本归类:多处理机      文章编辑:爱尚语录

  ARM的NEON协处理器技术是一个64/128-bit的混合SIMD架构,用于加速包括视频编码解码、音频解码编码、3D图像、语音和图像等多媒体和信号处理应用。本文主要介绍如何使用NEON的汇编程序来写SIMD的代码,包括如何开始NEON的开发,如何高效的利用NEON。首先会关注内存操作,即如何变更指令来灵活有效的加载和存储数据。接下来是由于SIMD指令的应用而导致剩下的若干个单元的处理,然后是用一个矩阵乘法的例子来说明用NEON来进行SIMD优化,最后关注如何用NEON来优化各种各样的移位操作,左移或者右移以及双向移位等。本节主要介绍当输入的数据大小不是一个向量大小的整数倍时,怎么处理剩余的几个元素,如把元素补齐到向量大小的整数倍的修复处理、重叠处理方式和单个元素处理方式。

  通常NEON会向量处理从4个到16个元素长度的数据,如果你发现你的数组不是这个这个长度的整数倍,你就需要单独处理那些剩下来的几个元素。如你每次可以使用NEON来加载处理并存储8个元素的数据,但是你的数组有21个元素,你就需要先迭代两次,然后第三次,你只剩下5个元素,此时应该如何处理呢?

  有三种处理方式来处理剩下来的元素,这些方法的需求、性能和代码大小不同,下面顺序介绍,从速度最快的方法开始。

  如果改变你要处理的数组大小,比如增加数组大小到向量大小的整数倍,这样就能在最后一次数据处理时也按照向量大小处理而不会把临近的数据损坏。如上面的例子里,把数组大小增加到24个元素,这样就能用NEON用3次迭代完成所有的数据处理而不会损坏周边数据。

  分配更大的数组需要更多的存储空间,这会增加相当大的空间如果包含非常多的短数组;

  在数组后面填补的数据元素需要初始化为一个不会影响到结果的值,例如你要做加法,那这个新元素需要初始化为0以影响计算结果。

  一些情况下,可能没法初始化填充的数据,无论填充什么都会影响计算的结果;

  lsr r2, r2, #3 @ 把数组长度变成向量个数,即除以向量大小8

  vld1.8 {d0}, [r0]! @ 从数组加载8个元素,从地址r0到寄存器d0,然后更新地址寄存器r0到下一个向量地址;

  如果进行数据处理的操作合适的话,可以考虑把剩余部分的元素通过重叠计算的方式处理,这就会把某些重叠部分的元素计算两次。如下面的例子里,第一次迭代计算元素0到7,第一次计算5到12,第三次计算13到20。从而第一次计算和第二次计算重叠的元素5到7就被计算了两次。

  ands r3, r2, #7 @ 计算每次处理完整个向量后剩余元素个数,使用与操作

  beq loopsetup @ 如果剩余元素个数为0,则数组长度是整数个向量大小,不用重叠计算,单独处理第一个元素部分

  vld1.8 {d0}, [r0], r3 @ 加载数组第一个向量,然后更新数组大小为剩余元素个数r3内保持

  lsr r2, r2, #3 @ 把数组长度除以8,计算循环迭代次数,若干元素跟第一次迭代的重叠

  vld1.8 {d0}, [r0]! @ 从数组加载8个元素,从地址r0到寄存器d0,然后更新地址寄存器r0到下一个向量地址;

  NEON提供了能处理向量里的单一元素的加载和存储指令,用这些指令,你能加载包含一个元素的部分向量,处理它然后把结果保存到内存。如下面的例子,前两次的迭代处理跟前面类似,处理元素0到7以及8到15,剩下的5个元素可以在第三次迭代处理,加载处理并存储单一的元素。

  beq singlesetup @ 如果没有完整的一次迭代向量计算,则跳转到单一元素处理循环

  vld1.8 {d0}, [r0]! @ 从数组加载8个元素,从地址r0到寄存器d0,然后更新地址寄存器r0到下一个向量地址;

  vld1.8 {d0[0]}, [r0]! @从数组加载单一元素,从地址r0到寄存器d0,然后更新地址寄存器r0到下一个地址

  用重叠计算的方式以及用单一元素处理都能在数组开始处或者结束处处理,因而代码就要考虑两种实现方式哪种效率高些,哪个更适合你的系统应用。

  加载或者存储指令的地址应该对齐到cache line,这样内存的访问效率更高。这样就需要在Cortex-A8的处理器上至少16字对齐,如果你不能把输入和输出数组的起始地址对齐到16字,你就必须处理开始和结束数据处理的那若干个元素以使得后续的数据访问是对齐到cache行的。为了使用内存对齐的方式访问内存以提高速度,你在使用NEON指令时需要使用诸如64或者128或者256等地址限定符来制定加载和存储指令。你可以比较发出一个对齐的访问和非对齐访问的性能,以下是始终周期的页面Cortex-A8 TRM.

  在使用单个元素处理的情况下,你可以使用ARM指令来进行单个元素的操作,但是同时使用ARM和NEON来访问同一块区域的内存会降低系统性能,因为从ARM的流水线发出的写操作会在NEON的流水线完成之后才能进行。因而你要尽量的避免在ARM和NEON的代码里同时访问同一块内存区域(当然,这同一块内存区域也对应于同一个cache line)

本文链接:http://cakesbyrita.net/duochuliji/97.html