您好,欢迎来到帮我找美食网。
搜索
您的当前位置:首页说话人语音特征子空间分离及识别应用

说话人语音特征子空间分离及识别应用

来源:帮我找美食网
维普资讯 http://www.cqvip.com 第13卷第1期 文章编号:1007 0249(2008)01—0007—05 电路与系统学报 J0URNAL OF CIRCUITS AND SYSTEMS VO1.13 No.1 February, 2008 说话人语音特征子空间分离及识别应用 俞一彪, 芮贤义, 许允喜 (苏』、1"1人学电子信息学院,江苏苏州215021) 摘要。本文依据主元分析原理从语音特征观察空间分离说话人语音特征子空间,对输入语音特征矢量与子空间的 距离测度进行了定义,并对基 特征子窄间的说话人识别性能进行了分析。说话人语音训练样本提取特征后在语音特 征观察空间形成具有・定散度的分布,根据丰元分析原理和分布散度提取丰要散度本征向量作为基底构成说话人语音 特征子空间,并通过测试语音特征欠量与子 间的距离测度进行模式匹配。实验结果表明,特征子窄间方法对说话人 识别是有效的,特别是在小于3秒的短时测试语音下能够得到较高的识别率。 关键词:说话人识别;子 间;jt元分析;文本无关 中图分类号:TP391.4:TN912.3 文献标识码:A 1 引言 随着电话银行等网络电子消费的普及,说话人识别作为… 种有效的身份认证手段,其技术特点和 优越性越来越明显,在国防安全、司法和金融等各应用领域的价值越来越显得重要。目前说话人识别 的主要方法…。般通过在语音特征观察空间建立说话人模型进行 J,如基于VQ的码本模型识别方法L2J、 基于GMM模型的识别方法[3]以及其他一些方法  ̄6】,这些方法大都利用了说话人语音特征的统计特 性。但是,说话人识别应用中存在的两个主要问题是:(1)由于语音特征的时变性,模型训练时期和 实际识别时期语音特征发生变化而导致识别性能的下降,而目前这些方法只能在一定程度上处理这种 变化;(2)实际应用中往往需要能通过较短的语音及时识别说话人身份,但目前这些方法一般需要输 入3秒以上的语音才能得到较高的识别率。 语音信号中包含语义和说话人个性这两大特征,如果能够较好地将这两类特征进行分离,并依据 个性特征建立说话人模型,则说话人识别性能将会得到提高并大大增强识别系统的鲁棒性,但两类特 征的完全分离非常困难 】。统计方法建立的模型不可避免地需要较大的数据量进行训练和识别,在短 时测试语音下识别性能下降是必然的。如果能够建立一种非纯粹统计模型或在统计模型的基础上结合 结构性模型则可能会提高短时测试语音条件下的识别性能。 本文依据主元分析(PCA:Principal ComponentAnalysis)原理和说话人语音特征在观察空问的分 布散度提取主要散度向量构造说话人语音特征子空间,将说话人语音特征子空间从观察空间分离出来。 实验分析了基于特征子空间的说话人识别性能,结果证明了这种方法的有效性,特别是在小于3秒的 短时测试语音情况下识别性能明显优于vO和GMM等方法。 2 特征子空间分离 基于语音特征子空间分离的说话人识别系统中,说话人模型由特征子空间表示,模式匹配部分则 通过计算输入测试语音特征矢量与子空间的距离进行。特征子空间根据说话人训练语音提取的特征矢 量在观察空间的统计分布特性,依据PCA原理选取具有较大权值的散度向量构成。 设一个说话人i)iI练语音集合为 ,S:,...,S },每一个训练语音样本经过特征提取后形成特征矢量序 列,即S, , ., }。如果特征矢量具有P个参数,则特征矢量V 表示P维观察空间的一个点, 所有的特征矢量 ,Vi,J在观察空间形成具有一定统计分布特性的点集 , ., },其中M是说话 收稿日期t 2005—11—21 修订日期:2006—03.23 基金项目t江苏省高校自然科学基金资助重点项日(04KJA510133) 维普资讯 http://www.cqvip.com 8 电路与系统学报 第l3卷 人所有训练语音特征矢量的总数。描述说话人语音特征矢量在观察空间分布的一个主要统计指标是分 布散度,它可以由平均特征矢量和自协方差矩阵表示,如下: =吉∑ l,‘/-一 ‘ =1 (1) R= ∑(l,‘-一、J 一  ),(、J 一 , ) IV1 i=I (2)一  公式(1)中平均特征矢量 反映说话人所有特征矢量在观察空间的中心点。公式(2)中自协方 差矩阵 是一个P×P正定对称矩阵,它反映了说话人特征矢量各参数的平均偏离值,因此可以衡量特 征矢量在观察空间的分布散度。 求自协方差矩阵 的本征值 , ,..., }和相应的本征向量 。, ,..., },则它们之间的关系如下式 (3)~(5)所示。其中 是由本征向量作为每一列构成的P×P矩阵,A是由本征值构成的对角矩阵。 :A (3) 的子空间 = 。 … ) (4) A= (5) 图1 说话人语音特征子空间分离 因为本征向量 ,i=1~P是从描述说话人语音特征矢量分布散度的自协方差矩阵计算得到,所 以,从空间的角度看,说话人的语音特征分布完全可以由以平均特征矢量 为中心,本征向量 ,i=1~P为正交归一化基底的子空间描述,如图1所示。这样,就从语音特征观察空间将说话人语 音特征子空间分离了出来,不同的说话人具有不同的特征子空间。 虽然计算得到的本征向量个数与观察空间维数相同,但有些本征向量对应的本征值较小,在表示 语音特征分布散度时影响较小。因此,实际应用中可以选择具有较大散度权值(本征值)的向量构成 子空间的基向量。图1显示了一个三维观察空间中分离出的两个二维说话人特征子空间例子,这些子 空间的基底对应前两个较大的散度权值。第4小节分析了选取不同散度权值本征向量构成子空间情况 下的识别性能,结果表明子空间维数并非越多越好。 说话人语音特征子空间本质上是根据训练语音特征矢量在观察空间的统计分布特性分析得到的一 种结构性说话人模型,各子空间的基底描述了说话人语音特征分布的框架结构。因此,可以认为子空 间融合了说话人语音特征的统计特性和结构特性,可由下式(6)表示: SF={ , f, ; 1~P) (6) 3 子空间距离测度与模式匹配 系统模式匹配对输入测试语音与各说话人子空间的相关度进行分析,提供说话人身份的判别依据。 设输入测试语音 相应的特征矢量序列为 , ,…, },则通过计算该特征矢量序列与说话人特征子 空间的距离来分析测试语音与子空间的相关度,距离越小,相关度越大。最终的说话人识别判决可以 依据最小距离准则进行,即测试语音说话人所对应的子空间应该与测试语音之间的距离最小,即相关 度最大。 输入语音特征矢量 与子空间的距离测度采用子空间投影距离计算,如下式(7)所示。其中Q 是子空间的维数,Q P。 ( ,SF)=l ~ -Z(k=l v 一 , ) (7) 上式第一项是观察空间特征矢量 与说话人语音特征子空间中心矢量 之差向量 一 的平方 模;第二项是这个差向量 一 在子空间各维投影的平方和,代表了这个差向量在子空间上的投影长 度的平方。两项相减就是输入测试语音特征矢量 与子空间的距离。 以上距离测度中采用了训练语音的平均特征矢量 ,使观察空间特征矢量转换为适合子空间处理 维普资讯 http://www.cqvip.com 第1期 俞一彪等:说话人语音特征子空间分离及识别应用 9 的差向量形式。实际应用中,说话人语音特征是时变的,并引起特征矢量统计分布特性的变化,其表 现之一是平均特征矢量随时间的漂移。从子空间角度看,这个平均特征矢量的变化代表了说话人语音 特征子空间的一种整体时变漂移,在计算子空间距离时如果不能及时反映这种变化,将可能引起一定 程度的失真,为此,定义第二种距离测度如下: d2(Vt,SF)= 一 差( f_ + 一 (8) 前面两项的含义与第一种测度dl( ,SF)是一致的,但差向量不是根据训练语音的平均特征矢量 形成,而是由输入测试语音的平均特征矢量 形成。这样,不仅使观察空间特征矢量转换为适合子空 间处理的差向量形式,并且使形成差向量的两个特征矢量在时间上一致起来。但是,子空间是根据训 练语音构造的,其中心特征矢量是训练语音的平均特征矢量,距离测度中必须反映这一差异。所以, 在第二种距离测度中增加第三项描述训练语音和测试语音特征矢量的平均差异,两者通过加权系数C 结合,其中Ⅳ是测试语音短时帧个数。因此,这一距离测度不仅描述了特征矢量与说话人特征子空间 的距离,而且描述了测试语音特征与子空间所表示的说话人语音特征的平均距离,同时考虑了语音特 征的结构性和统计特性差异。加权系数C的选择使两类距离对整个测度的影响保持平衡,可以通过各 自的统计方差之比计算。 模式匹配通过计算整个输入测试语音特征矢量序列与子空间的距离进行。利用以上距离测度,输 入测试语音 ,与说话人语音特征子空间的总距离如下: SFD :∑N ( ,,1 SF): {I r一 II 一兰( ,一 , ) } 1 k=l J (9) 或 SFD =鬈 ( ,SF)=喜{ 2 D姜( t D nt, ) }+c 一 II ~ k =argmin SFD (10) (1 1) 设系统需要识别的 个说话人对应的子空间分别为 与各子空间的距离SFD ~SFD吖,则识别判决准则如下: ,经过模式匹配得到输入测试语音 4 实验分析 需要通过实验分析的问题包括:(1)基于特征子空间识别方法的有效性?(2)子空间维数与识别 性能的关系?并确定一个最佳子空间维数。(3)不同子空间距离测度下识别性能的比较分析(4)不同 特征参数,例如LPCC、MFCC情况下识别性能分析?(5)不同长度测试语音输入时,说话人识别性 能的变化趋势?(6)在相同训练语音数据、实验环境和条件下,子空间方法和VQ、GMM等其他方 法的识别性能比较分析。 4.1 实验数据与条件 语音数据选择SD2002一D2数据库,该数据库中包含了在普通实验室环境下通过计算机声音系统采 集得到的40个说话人的280条语音片段,其中,男声26人,女声l4人,每人分别有7段语音,每段 语音包括停顿间隙长度为12秒。语音采样率为11025Hz,16位量化,单声道输入。实验中,每说话 人的前4段语音用于模型训练,后3段用于测试。 在模型训练和识别测试中,预处理部分首先消除输入语音信号的背景噪声,保留纯语音数据,并 进行权重系数为0.97的高频提升。短时分析采用27ms哈明窗,帧移步长18ms。特征参数LPCC和 MFCC为16阶,其中,LPCC由16阶LPC线性预测系数推导得到,MFCC是基于Mel频率尺度的倒 谱系数,通过计算Mel频率域均匀分布的19个三角滤波器组的DFT输出,并经DCT变换得到,实验 中选取第1~16个系数作为特征参数。实验中,特征子空间采用说话人的前4段语音信号进行训练, 其纯语音成分的长度平均为32秒。测试实验采用每说话人的后3段语音。 维普资讯 http://www.cqvip.com 10 电路与系统学报 1・ 第l3卷 4.2不同距离测度和特征参数下子空间维数与识别性能关系分析 根据PCA原理,特征子空间可以选择较大散度本征值对应的本征向 量为基底,这样可以提高子空间之间的非相关性。但是,选择的基向量 不能过少,否则可能引起子空间不能充分表示语音特征的分布结构。因 此,需要在实验分析子空间维数与识别性能关系的基础上确定一个最佳 子空间维数。 羹 o 子空间维数 图2不同距离测度下识别性 能随子空间维数的变化 一将散度本征值按大小顺序排列,并选取前面几个较大本征值所对应 的本征向量作为子空间的基向量进行分析。图2显示了采用LPCC特征 参数以及两种不同子空间距离测度情况下系统误识率随子空间维数变化 4 3 的情况,其中测试语音长度为3秒。可以看到,第二种子空间距离测度 总体上比第一种距离测度更优越,但两种测度下都显示当子空间维数为 种特征参数LPCC和MFCC所对应的识别性能随维数变化的情况,其测 图3同样可以看到当子空间维数为6时系统具有最佳识别性能。 1 0 子空间维数 6时系统的误识率最低。图3显示了采用第二种子空间距离测度时,两 图3 不同特征参数下识别性 能随子空间维数的变化 试语音长度也是3秒。可以看到,MFCC参数相对而言比LPCC要优越些,但差距并不大。另外,从 , 根据以上实验结果可以得出这样得结论:基于子空间分离的说话 { 人识别方法是有效的,但其识别性能随子空间维数是变化的,当维数 鉴1.5 为6时识别性能达到最佳,误识率仅为0.189%。因此,在以下的实验 0; 分析中子空间维数均采用6。 4_3 不同特征参数下识别性能与测试语音长度关系分析 实际应用中,测试语音的长度不是固定的。因此,衡量一个说话 人识别系统的识别性能必须针对不同的测试语音长度进行分析。 测试语音长度(s) 图4不同测试语音长 度下的识别性能 3童 图4显示了当采用两种特征参数LPCC和MFCC时,不同测试语 鲁 音长度下系统的识别性能情况。其中,子空间距离的计算采用第二种 测度,即 ( ,SF)。 从图4可以看到,所有测试语音长度下系统都能够得到较好的识 别性能,误识率均在3%以下,当测试长度达到5秒时,MFCC对应 的误识率趋于零,但LPCC对应的误识率下降趋势慢一些。另外可以 。i 。 图 5子空间法与VQ 码本方法的比较 看到,采用MFCC作为特征参数时的识别性能比LPCC时优越,但差 距并不大。 4.4子空间方法与其他方法的比较分析 说话人识别的根本性问题是模型和特征参数,即用怎样的方法去描 述说话人的语音特征以及采用什么样的参数表示说话人语音特征的问 题。但到目前为止,还没有提出专门用于说话人识别的语音特征参数和 模型,常用的文本无关说话人模型有GMM和VQ。 图5和图6分别显示了子空间方法与VQ和GMM方法的比较。其中,VQ码本的码字数为128, GMM的混合分量数为16。可以看到,子空间方法在测试语音长度小于3秒时其识别性能优于其他方 方法的比较 法,而在大于等于3秒时则相反。这个结果说明,GMM和VQ等完全基于统计聚类的方法由于运用 了说话人语音的统计特性,所以对于较长的测试语音有较可靠的识别性能,但当测试语音较短时,由 于无法提供可靠的统计特性进行匹配,误识率就很快下降。而子空间方法是根据说话人语音特征的分 布散度得到的一种空间结构性模型,由于不是完全依靠语音特征的统计特性,所以在较短的测试语音 时也能够得到较好的识别性能。 维普资讯 http://www.cqvip.com 第1期 俞一彪等:说话人语音特征子空间分离及识别应用 5 结论 依据PCA原理,从说话人语音特征观察空间根据其分布散度特性分离出特征子空间作为说话人的 一种结构性语音模型是有效的。当采用MFCC参数,测试语音长度为5秒时系统误识率趋于零。特别 是在小于3秒的短时测试语音情况下,其识别性能优于其他方法。另外,子空间方法在识别时的计算 量明显小于其他方法。 说话人识别和语音识别中存在同样的核心问题,即没有解决说话人个性特征和语义特征的提取和 描述,这个问题极难。目前主要采用的特征参数LPCC、MFCC等反映了语音信号的频谱特征 J,既 包含语义特征信息,又包含个性特征信息,在具体应用中只是根据不同的识别任务进行语义特征或个 性特征的归一化处理,主要的归一化处理通过语音模型训练进行。显然,这样的传统方法为了使语音 模型很好地表示说话人的语音特征必须通过大量的语音样本进行训练,测试时需要的语音数据也比较 多。但是,实际应用中系统往往没有足够的数据用于这类统计模型的训练和识别,因此,在考虑如何 提高说话人识别系统鲁棒性的同时,需要研究少量语音数据前提下的训练和识别问题。 基于子空间分离的说话人识别方法在短测试语音长度下有一定优势,但在较长测试语音情况下识 别性能提高不快。因此,今后将考虑通过子空问映射,在子空问建立说话人统计模型的方法来提高总 体识别性能,特别是较长测试语音长度下的识别性能。 参考文献: [1] Campbell J P Speaker Recognition:A tutorial[JJ_IEEE Proe.,I997,85(9):1436—1462. [2] Chen C T,Chen C.Eficientf Genetic algorithm of Codebook Design for Text—Independent Speaker Recognition[JJ.IEICE,2002,E85一A(1 1): 2529—253 1. [3] Reynolds D A,Rose R C.Robust text—independent speaker identification using Gaussian Mixture Speaker Models[J Jl IEEE Speech and Audio,I995,3(1):72—83. [4] 侯风雷, 炳锡.基于支持向量机的说话人辨认研究[J]l通信学报,2002,23(6):61—67. [5】 岳喜才,伍晓宇,等.用神经阵列网络进行文本无关的说话人识别[JJ.声学学报,2000,25(3):230—234. [6] 俞一彪,王朔中.文本无关说话人识别的全特征矢量集模型与互信息评估方法[JJ.声学学报,2005,30(6):536—541. [7] Ariki Y,Tagashira S,Nishijima M Speaker recognition and speaker normalization by projection to speaker subspace[A].Proe.ICASSP[c]. 1996,1:319—322. [8] Nishida M,Ariki Speaker recognition by projecting to speaker space with less phonetic information[J].IEICE,2002,J85一DII(4):554—562. [9] Shaughnessy D O.Speech Communications—Human and Machine[MI.IEEE Press,NJ.,2000 378—383. 作者简介:俞一彪。工学博士,苏州大学电子信息学院教授,主要研究领域为语音信号处理,信息隐藏技术与多媒 体通信。 Separation of speech feature subspace and its application to speaker identi|『icati0n YU Yi—biao, RUI Xian—yi,XU Yun—xi (School of Electronic Information Engineering,Soochow University,Suzhou 2 1 502 1,China) Abstract:A new method for separation of speech feature subspace from observation space is proposed based on principal component analysis,and the performance of its application to speaker identiicatifon is evaluatedFor every speaker,speech .features extracted from training samples become a distribution with specific statistical properties such as mean and variance in observation space.Instead of statistical descriptiona feature subspace with the base of some signiicantf eigen vector ,extracted from covariance matrix iS constructed to describe speech feature distribution of speakerDistance metrics for .measuring distance between input feature vector and subspace are also proposed for pattern matchingExperiments on .speaker identiication performance analfysis demonstrate effectiveness of subspace method,especially for short time test speech with length less than or equal to 3 seconds. Key words:speaker recognition;subspace;PCA;text independent 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- banwoyixia.com 版权所有 湘ICP备2023022004号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务