發布日期:2022-04-20 點擊率:76
語音合成的理論基礎是語音生成的數學模型。該模型語音生成過程是在激勵信號的激勵下,聲波經諧振腔(聲道),由嘴或鼻輻射聲波。因此,聲道參數、聲道諧振特性一直是研究的重點。習慣上,把聲道傳輸頻率響應上的極點稱之為共振峰,而語音的共振峰頻率(極點頻率)的分布特性決定著該語音的音色。音色各異的語音具有不同的共振峰模式,因此,以每個共振峰頻率及其帶寬作為參數,可以構成共振峰濾波器。再用若干個這種濾波器的組合來模擬聲道的傳輸特性(頻率響應),對激勵源發出的信號進行調制,再經過輻射模型就可以得到合成語音。這就是共振峰合成技術的基本原理。基于共振峰的理論有以下三種實用模型。級聯模型在該模型中,聲道被認為是一組串聯的二階諧振器。該模型主要用于絕大部分元音的合成。
并聯模型許多研究者認為,對于鼻化元音等非一般元音以及大部分輔音,上述級聯型模型不能很好地加以描述和模擬,因此,構筑和產生了并聯型共振峰模型。
混合模型在級聯型共振峰合成模型中,共振峰濾波器首尾相接;而在并聯型模型中,輸入信號先分別通過幅度調節再加到每一個共振峰濾波器上,然后將各路的輸出疊加起來。將兩者比較,對于合成聲源位于聲道末端的語音(大多數的元音),級聯型合乎語音產生的聲學理論,并且無需為每一個濾波器分設幅度調節;而對于合成聲源位于聲道中間的語音(大多數清擦音和塞音),并聯型則比較合適,但是其幅度調節很復雜。基于此種考慮,人們將兩者結合在一起,提出了混和型共振峰模型。共振峰模型是基于對聲道的一種比較準確的模擬,因而可以合成出自然度比較高的語音,另外由于共振峰參數有著明確的物理意義,直接對應于聲道參數,因此,可以容易利用共振峰描述自然語流中的各種現象,并且總結聲學規則,最終用于共振峰合成系統。但是,人們同時也發現該技術有明顯的弱點。首先由于它是建立在對聲道的模擬上,因此,對于聲道模型的不精確勢必會影響其合成質量。另外,實際工作表明,共振峰模型雖然描述了語音中最基本最主要的部分,但并不能表征影響語音自然度的其他許多細微的語音成分,從而影響了合成語音的自然度。另外,共振峰合成器控制十分復雜,對于一個好的合成器來說,其控制參數往往達到幾十個,實現起來十分困難。基于這些原因,研究者繼續尋求和發現其他新的合成技術。人們從波形的直接錄制和播放得到啟發,提出了基于波形拼接的合成技術,LPC合成技術和PSOLA合成技術是其中的代表。與共振峰合成技術不同,波形拼接合成是基于對錄制的合成基元的波形進行拼接,而不是基于對發聲過程的模擬。
作為一種有調語言,漢語韻律特征非常復雜。古漢語的平仄以及現代漢語拼音,對于同樣一個音節,出現在不同的環境下,其韻律參數都是各不相同的。用有限的存儲單元存儲基本漢語基本語音單元,進而從有限的存儲單元中合成出無限詞匯,組成連續漢語語句。必須在一定的韻律規則下對音庫單元的韻律參數進行調整,以得到符合當前語言環境的語音庫單元。語音合成器用來完成這種功能。中文語音合成系統在DSP下實現時,除清晰度,能懂度和自然度外,還要求合成算法具有較低的運算復雜度,盡量小的語音庫以減少對有限存儲空間的占用程度。
下一篇: PLC、DCS、FCS三大控
上一篇: 語音分析技術