低功耗JPEG图像硬件解码器的设计

来源:网络

点击:1156

A+ A-

所属频道:新闻中心

关键词: 低功耗,JPEG,硬件解码,Huffman解码,图像传感器,解压缩算法

      随着多媒体技术的蓬勃发展,视频编解码技术得到了长足的进步,人们先后制定了多个数字图像视频编解码标准。其中JPEG仍然是目前最流行的静止图像压缩格式,在手持设备和网络中有广泛的应用。JPEG(Joint Picture Expert Group)是压缩静态图像的国际标准。它的主要应用是以压缩的形式存储和传输静态图像,因此它在数字图像、数码相机、网页嵌入式图像和许多其它的领域中有着广泛的应用。随着移动终端、多媒体、Internet网络、通信以及图像扫描技术的发展,人们对图像数据处理的实时性要求越来越高,用软件压缩数据的方法已经难以达到实时性的要求。所以用硬件实现图像处理算法已经成为必然的趋势,也成为目前研究的热点问题。

      为了实现数据的实时处理和低功耗应用,本文提出了一种带有时钟管理机制的并行、全流水结构的JPEG解码器实现方案。

     

      1 JPEG解码算法

     

      JPEG(Joint Photographic Experts Group)是一种适用范围很广的静态图像数据压缩标准。JPEG压缩是一种有损压缩,它利用了人的视觉系统特性,使用量化和无损压缩编码相结合的方式去掉视觉的冗余信息和数据本身的冗余信息。JPEG解码器包括:霍夫曼(Huffman)解码、反量化(IQ)和IDCT变换。在JPEG中,对于图像的解码是分块进行的。整个图像被划分为若干个8×8的数据块(MCU),每1个块对应于原图像的1个8×8的像素阵列。各行的编解码顺序从上到下,行内的编解码顺序从左到右[1]。

     

      2 并行Huffman解码器

     

      HUFFMAN编码又称哈夫曼编码,是一种可变长编码方式,是由美国数学家David Huffman创立的,是二叉树的一种特殊转化形式。编码的原理是:将使用次数多的代码转换成长度较短的代码,而使用次数少的可以使用较长的编码,并且保持编码的唯一可解性。Huffman算法的最根本的原则是:累计的(字符的统计数字*字符的编码长度)为最小,也就是权值(字符的统计数字*字符的编码长度)的和最小。

      Huffman编码后代码的长度不一致,如果解码器用串行技术实现,由于其代码长度不一致,解1个码字所需的周期数也不一样。对于实时系统,串行技术的效率比较低。另外,如果数据在传播过程中被噪声中断,整组数据就变得没有价值了。针对这两方面的问题,本文提出如下的解决方案。如图1所示为Huffman解码的主要元件和算法流程。

     

      

     

      算法流程:从输入端获取32位的压缩图像数据,分析输入的数据流,判断出码长,把输入的数据移位,同时从输入端补充新的数据。输入的数据通过Huffman表翻译成原始数据,提取出数据流中嵌入的符号位,经过一系列的除法、减法运算后得到编码前的频率数据,与之前得到的符号位合并后输送到输出缓存。

      本文采用的算法灵活地利用了Huffman表的特点,消除了算法中的乘法运算,完成码长的判断只需要1个周期。把码表的数据按照码长分类从小到大排列,再把码长相同的数据按照码字的大小从小到大排列。每张表按照排列后的顺序把码字对应的解码结果DR(Decoding Results)存入到ROM中。这样既有利于查表,需要的ROM也是最小的,符合低功耗要求。查表的地址发生器由“长度匹配”模块传递到的码长得到1个基地址,码长从输入数据中截取连续的几个与码长相同位数的bit作为偏移地址,2个地址相加就是DR保存的地址[2]。

      因关键bit出现的位置都是在码字的最后几位,因此根据码长将输入数据进行移位,使关键bit的最后1位出现在第n位,移位的结果只输出第n位以前的几个bit,这样的电路只需要1个只受码长控制的桶形移位寄存器。另外,再为每张表产生1个1串0加上1串1的地址修正串,有几个关键bit就有几个1,这部分电路逻辑简单且占用的电路不多。用这个地址修正串和桶形移位寄存器的输出做一个“与”逻辑运算,得到的就是正确的偏移地址。由于Huffman表需要的最长bit是9位,码长最大为19位,所以本文设计了1个19位输入、9位输出的桶形移位寄存器。改进后的电路面积缩小到改进前的50%左右。

     

      3 IDCT处理器

     

      逆向离散余弦变换IDCT(Inverse Discrete Cosine Transform)电路的总体实现框图和其中的2D IDCT框图如图2所示。DCT系数经过反量化和反扫描电路处理后输入到IDCT的缓存器,由全局控制电路控制输入到2D IDCT单元及将最终变换好的数据送到输出缓存器中,发送Ready信号到运动补偿单元,通知该单元可以读出IDCT数据。2D IDCT单元进行2次1D IDCT运算,首先进行基于行的1D IDCT,然后将第1次IDCT的中间结果经转置存储器进行转置处理和缓存,再进行基于列的1D IDCT变换,得到最终的IDCT变换结果[3]。

     

      

     

      IDCT设计中使用了零值判断逻辑电路、门控时钟、并行流水线等技术,使得整个电路在满足处理速度和精度要求的基础上大大降低了功耗。

      3.1 零值判断逻辑电路

      在整个图像解码过程中,每8×8个数据块中有约90%的数据的DCT系数为零,对这些零值进行IDCT变换并无意义。因此,本设计添加了零值判断逻辑来消除不必要的乘法运算。零值判断逻辑电路由8×8累加器阵列、零值判断逻辑模块和复选器MUX构成。通过零值逻辑模块判断,当操作数不全为零时,使能信号变成高电平,将操作数取到寄存器中,然后再进行乘法运算。如果操作数全为零,则封锁累加阵列,直接通过MUX输出0.零值判断逻辑能有效地降低功耗,且电路简单,面积与延迟时间几乎可以忽略不计。

      3.2 基于锁存器的门控时钟

      锁存器(Latch)是一种对脉冲电平敏感的存储单元电路,它们可以在特定输入脉冲电平作用下改变状态。锁存,就是把信号暂存以维持某种电平状态。锁存器的最主要作用是缓存,其次完成高速的控制其与慢速的外设的不同步问题,再其次是解决驱动的问题,最后是解决一个 I/O 口既能输出也能输入的问题。

      通过控制电路的输入时钟可以使得一部分电路降低工作频率或者停止工作,从而降低整个电路的功耗。2D DCT/IDCT的电路主要由3部分组成:1D DCT/IDCT单元、转置存储器、输入输出处理单元。

      转置存储器部分只有在每次1D DCT/IDCT处理的最后才进行更新,而输入输出处理单元只有在数据输入输出的时候才工作。因此,控制这几部分电路的输入时钟,使其在大多数时间停止工作即可以有效地降低功耗。设计结果表明,在面积仅增加2%的情况下系统功耗可降低13%.

      基于锁存器的门控时钟可以实现上述功能,它具有不需要数据选择器、面积较小、可以减小时钟网络上电容、减少门控寄存器的内部功耗等优点。锁存器门控时钟电路及时序如图3所示。

     

      

     

      3.3 并行流水线

      本设计使用加法和移位运算代替IDCT快速算法中的浮点乘法运算单元,用高度并行流水线VLSI结构加快数据处理速度,其处理数据的时间不到串行结构的1/5.因此,时钟频率可以相应地降低到串行结构的1/5左右,从而降低系统的功耗。例如,使用2个16×8的乘法器同时并行计算高位部分和低位部分,分别得到高位部分积和低位部分积,然后进行移位相加。实现电路运算时实现时间重叠、资源重复使用和资源共享,提高了系统的并行性,以此提高了乘法电路的运行速度和效率。

     

      4 仿真和综合结果

     

      本文选用1幅1 920×1 080大小的JPEG图像,Modelsim进行RTL级仿真后的波形如图4所示。图中JPEG_DATA是码流数据,OutR、OutG、OutB是解码仿真结果[4]。在100 MHz的频率下对解码核心模块进行综合[5],结果如表1所示。

     

      

      

     

      本文有别于以往用软件实现JPEG解码,而是在用硬件实现JPEG解码的同时,改进硬件结构,通过多种易于操作的方法来降低硬件解码能耗。通过EDA工具验证,完全可以满足JPEG图像硬件解码的要求。

    (审核编辑: 智汇小新)

    声明:除特别说明之外,新闻内容及图片均来自网络及各大主流媒体。版权归原作者所有。如认为内容侵权,请联系我们删除。