Issuu on Google+

信息工程期刊

第1卷 第1期 Vol.1 No.1

Scientific Journal of Information Engineering(SJIE)

2011 年 12 月 Dec. 2011

基于压缩感知的低速率语音编码研究 张忠,赵耿 西安电子科技大学,北京电子科技学院 北京 100070

要:本文以混合激励预测模型为基础提出了用压缩感知理论对参数进行量化的方法。为了降低语音压缩的编码速率,

编码端对 LSP 参数采用了超帧的结构。为了对超帧进行的矢量进行量化,这里采用了压缩感知理论对超帧的 LSP 多维矢 量进行降维。把多维的 LSP 参数映射到低维的空间,得到一个低维的量化空间,进一步进行分裂矢量量化。在解码端利用 正交匹配算法可以重构出原始的高维 LSP 矢量,从而合成原始的语音信号。实验表明该算法有效的提高了合成语音的可懂 度和自然度,减少了编码所需的比特数和码本的存储复杂度。对低速率语音编码的研究具有重要的意义。

关键字:混合激励预测模型;压缩感知;分裂矢量量化;正交匹配算法

Based on Perception of Low Speed Speech Compression Coding Zhong Zhang, Geng Zhao Xi'dian university, Beijing electronic science and technology institutions, Beijing 100070

Abstract: In this paper, we proposed method of Compression perception theory for Parameters quantify base on MELP model. In order to reduce the speed of speech compression encoding, The super frame used in LSP parameters for the coding part. In order to vector quantization for the super frame, compressed perception theory is used of the super frame to the theory of multidimensional vector for dimension reduction LSP. If the multidimensional LSP parameter are mapped to low dimensional space, we will get a low dimensional quantitative space. The further more, We can give a division of vector quantization .In the decoding part, We can reconstruct the original high dimensional LSP of vector through using the orthogonal matching algorithm. Thus, We can synthesis the speech signal to the original .The experiment shows that the algorithm improves the synthesized speech intelligibility and naturalness, reduce the coding required number of bits and yards of the storage complexity. Low rate of speech coding research has the vital significance. Key words: Mixed incentive forecast model; Compression perception; Split vector quantization; Orthogonal matching algorithm

1. 前言 在低速语音编码编码中,混合激励模型能达到很低的压缩速率和很好的自然度。但是在保密通信中要求更低 的编码速率用来满足加解密的需要。特别是随着在单芯片技术的发展,基于单芯片语音密码机中迫切需要一种更 低的压缩速率来满足终端系统的微型化、便携化和智能化的需要。在传统的信号采样是以奈奎斯特采样定理为准。 在获取了信号后,为了保证信号的信息完整,采用的频率必须大于原始信号带宽的两倍才能准确的恢复原始的信 号。直到 2004 年 Donoho 和 Candes 等人提出了压缩感知理论,该理论是充分利用了信号的稀疏性或者可压缩性 的信号采集理论。该理论表明,当信号具有稀疏性是通过采集信号中的少量信息就可以实现信号的准确的重构。 压缩感知理论的应用对于语音压缩编码来说又带来了一个全新的变化。

2. 压缩感知理论 如果一个实值有限长度的一维离散信号 x,可以把它看成实空间 RN 的 N×1 列矢量, 矢量元素 x[n],n=1,2,…,N。 根据调和分析理论可知,RN 中的任意信号都可以表示成为 { i }i 1 表示,假设矢量基是标准的正交基。如果用列 N

www.sjie.org PP.8-12 © 2011 American V-King Scientific Publishing, LTD -8-


基于压缩感知的低速率语音编码研究

矢量 { i } 构成的 N×N 的基矩阵,那么信号 x 可表示为 (1)

N

x   S i i 或x  s i 1

这里   [ 1  2

 N ] ,s 是加权系数 si  x,  i  Ti x 的 N  1 的矢量。显然,x 和 s 是信号的等价表

示。如果 x 仅仅是 K 个基矢量的线性组合,则称信号 x 是 K 稀疏的。当 K  N 时,公式(1)仅有少数的大系数 和大量的小系数,此时信号 x 称为可压缩的。可压缩信号能够用 K 稀疏很好地近似表示是变换编码的基础。K 个较大的系数值及其位置被编码,其余 N-K 个小系数被丢弃。遗憾的是,这种先取样后压缩的框架有三个固有 的缺陷:即使希望的 K 很小,初始样本数 N 也很大;即使只用其中的 K 个系数,所以 N 个变换系数{si}都要计 算:{si}的大系数位置编码信息是额外开销的。 压缩感知理论认为只要信号是可压缩的或是具有某个可压缩的稀疏性域,那么就可以用一个稀疏域的基不相 关的且维数比信号低很多的测量矩阵近似无损地重构原信号。首先考虑一般的信号重构问题,即已知信号

X  R N 1 在某一测量矩阵   R M N (M  N) 的作用下产生一组线性测量值 Y  [y(1), y(2),

y( M )]T ,

Y=  X

(2)

式(1)可看作室原信号 X 在  下的线性投影。然而常见的信号在时域并不稀疏,需要变换到其他域。假设 信号 X 存在某个正交变换矩阵   [1 , 2 ,

N ] ( i 是 N×1 维列向量且彼此正交),使得 X 可以由 N 个基向量 i

线性组合表示: N

X      i  i

(3)

i 1

 N ]T ,是原信号在变换域 的系数向量。显然 X 和  是同一信号在不同域的等价表示。如

式中   [1 , 2 ,

果  在非零元素的个数为 K,则信号 X 被称为 K-稀疏的若 K<<N,则表明信号 X 依然是可压缩的。此时通过线性 测量过程  ,产生测量量化 Y。通常情况下测量值个数 M=cK(c 取 3-4) ,得到的测量值 Y 表示为:

Y    ACS 式中 A

CS

(4)

称为传感矩阵。对于给定的 Y,要从式(3)中重构出 X 是一个线性规划的问题,但由于 M<N,(3)

式是一个欠定方程,一般来说无确定解。然而在信号 X 是稀疏的前提下,Candes 和 Tao 给出并证明了 A

CS

满足

约束等距特性,方程存在确定解。Baraniuk 给出 RIP 性质的等价条件,即 Ψ 与 Φ 不相关,求解欠定方程问题转 化为最优 l0 范数问题:

ˆ  arg min T X

0

s.t. ACS  Y

(5)

K

上式的求解需要列出 X 中所有非零项位置的 C N 种肯线性组合,才能得到最优解,求解过程不稳定而且 NP

难问题。签于此,研究人员提出了一系列次优解算法,如基追踪算法,匹配追踪系列算法等。如果得到了 ˆ ,可

ˆ 进一步由 Ψ 通过下式精确重构原始信号 X: Xˆ  ˆ

(6)

由上面的分析可知,要应用压缩感知理论于 LSP 参数,需要知道三大要素,即 LSP 参数的稀疏表示域,测 量矩阵以及重构算法。

3. LSP 参数的压缩感知研究

www.sjie.org PP.8-12 © 2011 American V-King Scientific Publishing, LTD -9-


基于压缩感知的低速率语音编码研究

我们把 L 帧应用组成一超帧,以 20ms 为单位进行线性预测分析,帧移 10ms。每帧提取 p(p=10)阶 LSP 参数

并对  做归一化处理,则提取的 LSP 参数矩阵可表示为:

式中: xi  xi , xi , 1

2

, xiP  , i  1, 2,

 x1   x11 x   1 x X   2   2      1  x L   x L

x12  x1P   x22  x 2P      x L2  x LP  LP

, L ,表示第 i 帧语音提取的 P 维 LSP 参数组成的行向量。令 N=L×p,依次取

出 X 中所有行元素,将 X 重新排成一维列向量: 把压缩感知理论应用到 LSP 参数上时,首先需要找到 LSP 参数的稀疏变换域,这是压缩感知理论应用的基 础和前提。只有选择合适的基来表示 LSP,才能保证 LSP 的稀疏性,进而保证 LSP 的恢复精度。下图给出了 10 帧语音信号的 LSP 轨迹图及 LSF 图,图中从上往下的曲线分别为 cosω i 、cosθ i 、 i =1,2,…,p/2,两者交错出现。 图(1)中的曲线较好的反应了 LSP 参数的顺序特征,表明了每 10 帧 LSP 参数满足降序排列的特征,帧间的同 一个 LSP 参数则比较接近。

图(1)

图(2)为连续的 10 帧语音信号的 LSF 图,可以看出,所以 LSF 曲线都是上升排列的,且各帧的同一个 LSF 参 数都比较接近。

图(2)

4. LSP 参数的压缩感知算法 首先对采样后的语音信号进行分帧,帧长为 25ms,取 8 帧来进行分析,每帧 160 和样点。我们把这 8 帧语 音组成一个超帧,对每帧我们提取 16 阶 LSP 参数并进行了归一化处理。这样对每个超帧提出的 LSP 参数矩阵就 可以是一个 8×16=128 为的线谱对参数矩阵。利用压缩感知理论对该超帧形成的高维线谱对进行降维处理就可以 得到低维的测量值 Y 了。这样就可以对这些测量值进行量化。而解码时可以把这些量化的测量值作为已知条件,

www.sjie.org PP.8-12 © 2011 American V-King Scientific Publishing, LTD - 10 -


基于压缩感知的低速率语音编码研究

利用正交匹配追踪算法(OMP 算法)重新恢重构出 LSP 这个高维线谱对矩阵。如图(3)所示就是原始的 LSP 参数和用测量值恢复的 LSP 参数的轨迹图。

图(3)

这种先降维再进行量化的方法可以减少编码的比特数,在一定程度上降低了语音编码的速率。

5. 实验与分析 为了测试线谱对参数用感知压缩算法降维后的损失度,我们采用测试语音信号与分裂矢量量化进行比较。我 们从标准语音库中选出 10 个男声和 10 个女声的语音数据作为训练集。在用录音软件录 5 个男声和 5 个女声作为 测试集。首先把语音信号低通滤波预加重,然后把语音信号分帧,每帧长为 25ms。每帧 160 个采样点,帧移位 80 个点。 为了与分裂矢量量化做出比较,实验中采用了每 8 帧组成一个超帧,每帧采用提取 16 阶 LSP 参数。共组成 8×16=128 维的 LSP 参数矩阵。测量矩阵采用高斯随机矩阵。应用压缩感知后找到 LSP 的系数变换域实验表明在 DFT 域上具有明显的稀疏性。重构时采用了基于贪婪迭代的的正交追踪算法。衡量线谱对参数的精度的参数是 谱绝对畸变 S 式和帧平均信噪比来衡量 SNR,其定义如下: 2  xk 2 1 L  SNR  10 log 10  x  xˆ L k 1 k  k

S

1 n  L n 1

2 2

   

1 [10 log S n ( w)  10 log Sˆ n ( w) ]2 n

(7)

(8)

式中 L 是计算谱失真总数, Sn ( w) 和 Sˆn ( w) 分别是第 n 帧的原始功率谱和量化功率谱, xˆk 代表重构的每帧语音 信号,显然帧平均信噪比越高代表重构的效果越好。

图(4)

上图(4)为每帧语音信号压缩比和信噪比之间的关系,从图上可以看出压缩比和信噪比基本成线性关系。

www.sjie.org PP.8-12 © 2011 American V-King Scientific Publishing, LTD - 11 -


基于压缩感知的低速率语音编码研究

主观评价采用 ITU 组织发布的语音传输质量测量标准,即语音质量的感性评价(PESQ)方法,该方法可以根据 一些感知标准来客观地平均语音信号的质量,从而提供可以完全量化的语音质量衡量方法。PESQ 测试出的 MOS 得分在 0.1~0.5 之间,分值越高代表语音质量越好。压缩比 r 定义为 r=M/N,即观测数码与原始数目之比。不同压 缩比情况下的 PESQ-MOS 值如下表(1)所示: 表(1)

6. 结束语 本文应用了近年来兴起的一种信号压缩感知技术,该技术应用到低速率语音编码中进一步推动了低速率语音 编码的研究。文中介绍了压缩感知的相关理论知识,然后对语音的线谱对参数应用压缩感知理论进行了降维压缩。 最后应用了正交匹配追踪算法进行重构,并对重构语音进行了主客观的评价。实验结果表明,语音信号在残差域 中具有明显的稀疏性,随机的少数信号可以恢复原始信号,具有很好的波形匹配性能。为了改善算法性能可以继 续研究精度更高的重构算法。 参考文献 [1] 叶志申, 张绍钧, 黄仁泰. 压缩感知理论及其重构算法.东莞理工学院学报, 2010, 6. [2] 马庆利, 季新生, 张连海, 等. 一种基于 MELP 的 600b/s 极低速率语音编码.通信技术, 2009, 7. [3] 丛键, 张知易. 一种 600bps 极低速率语音编码算法.电子与信息学报, 2007, 2. [4] 梁瑞宇, 邹采荣, 赵力, 等. 语音压缩感知及其重构算法.东南大学学报, 2011, 1. [5] 沈丹丹. 基于小波变换的语音压缩感知处理.电子技术, 2011, 7. [6] 孙林慧, 杨震, 叶蕾. 基于自适应多尺度压缩感知的语音压缩与重构.南京邮电大学通信与信息工程学院, 2011, 1. [7] 余丰, 吴尘. 基于压缩感知的稀疏线性预测语音编码.信息化研究, 2011, 37(2). [8] 肖强, 陈亮, 朱涛, 等. 基于压缩感知的线谱对参数降维量化算法.信号处理, 2011. [9] 陈亮, 张雄伟. 一种基于子帧联合编码的 600b/s 低速语音编码算法.电子与信息学报, 2003, 25(3).

【作者简介】 张忠(1983-),男,内蒙古巴盟人,西安电子科技大学硕士研究生。主要研究方向低速率语音编码。E-mail: chinazhangzhong123@163.com。 赵耿(1956-),男,四川成都人,博士,北京科技大学博士,硕士生导师。主要研究方向为基于语音密码机的 低速率语音编码研究、基于混沌密码研究、语音识别技术等。

www.sjie.org PP.8-12 © 2011 American V-King Scientific Publishing, LTD - 12 -


Based on Perception of Low Speed Speech Compression Coding