正文 聲紋識別技術在調度錄音分析的應用研究(2 / 2)

在語音檢索應用中,通過使用“拉開”、“閉合”、“下令”、“複誦”等關鍵字進行檢索,可快速定位與關鍵字相關的錄音信息,從而進一步進行人工篩選。

2.3 調度錄音模型選取

在語音分析應用中,語音識別效果取決於聲學模型和語言模型。聲學模型方麵,需要考慮人以及用戶使用環境對語音的影響,建立了不同口音的聲學模型和噪音處理的聲學模型;語言模型方麵,結合電力實際業務需要,通過對調度過程的分析,建立有針對性的業務語言模型。

中文為帶調的語言,聲學特征除傳統的MFCC譜特征外,也使用代表調型的Pitch特征。一般調型的特征反映在韻母上,即一個韻母因為調型不同有4個單元。考慮到對於同一個韻母的4個單元,其MFCC特征是沒有差異的;而對於不同韻母的同一個調,其Pitch特征也是很接近的。

雙流模型:

采用雙流聲學模型建模技術,將MFCC和Pitch特征分成兩個流:在Tri-phone決策樹聚類階段,對於聲母部分,每個音素建一棵決策樹;對於韻母部分,在MFCC流同一個音素不同調建一棵決策樹,在Pitch流同一個調不同音素建一棵決策樹。這種建模方式,大大降低了帶調韻母需要的模型複雜度,也改善聲學模型的精度。

區分性訓練:

在最大似然(Maximum Likelihood,ML)模型訓練準則基礎上,將最小音素錯誤(Minimum Phone Error,MPE)模型訓練準則應用於中英文混合雙流聲學模型的訓練,關鍵在於中英文混合模型MPE訓練生成競爭空間時語言模型的選擇。

訓練數據,分成純中文、純英文、中英文混合3個部分:純中文數據,采用中文Uni-gram語言模型、純英文數據采用英文Uni-gram語言模型;中英文混合數據,采用中文Uni-gram與英文Uni-gram進行插值後的語言模型,采用3部分數據進行MPE訓練後,聲學模型的識別率得到顯著提高。

2.4 調度錄音聲紋識別模式匹配

聲紋識別技術的關鍵在於對各種聲學特征參數進行處理,並確定模式匹配方法[3],主要模式匹配的方法有:概率統計法、動態時間規整法(DTW)、矢量量化法(VQ)、隱馬爾可夫模型法(HMM)、人工神經網絡法(ANN)、支持向量機法(SVM)、融合方法等。

本文旨在高效準確的匹配出目標調度錄音,並對調度錄音進行進一步人工分析判斷,因此隻要選取合適的模型對原始調度錄音進行模式匹配,再依靠關鍵詞檢索成功即可。識別率及關鍵詞檢索正確率是進行語音分析的根本和核心的前置條件,經測試,關鍵詞檢索正確率約為83%,實際應用環境中智能語音分析應用係統具有彈性的置信度策略,可根據不同的業務場景和應用需求綜合調試設置信度閥值,從而達到最好的應用效果。

3.結語

調度錄音聲紋識別技術的應用,使得調度錄音在先期處理過程中更加全麵、高效、智能、準確,大幅度提高調度錄音質檢效率和覆蓋麵。通過對調度下令不規範、用語不真切的不良習慣不斷進行整改,提升電網調度下令水平,從而提高電網運行穩定性。

參考文獻

[1]楊陽,陳永明.聲紋識別技術及應用[J].電聲技術,2007, 31(2):45-47.

[2]趙力.語音信號處理[M].機械工業出版社,2003.

[3]王濤,徐乃平.說話人識別及其應用的研究[J].微處理機,1997(4):50-53.