| 創(chuàng)澤機(jī)器人 |
| CHUANGZE ROBOT |
機(jī)器人的語音輸入輸出內(nèi)容如圖3-9所示。語音輸入過程是一種模式識(shí) 別過程,先對(duì)空氣振動(dòng)引起的語音聲波進(jìn)行分析,然后抽取聲波里的音響特征,模式識(shí)別以及限定語音之間的連接關(guān)系。正確無誤地對(duì)連續(xù)的發(fā)音進(jìn)行 一個(gè)一個(gè)語音識(shí)別是一件非常困難的事情,所以只能從不是那么準(zhǔn)確的語音 序列或單詞的識(shí)別去理解人的說話內(nèi)容。因此,在機(jī)器人系統(tǒng)中所使用的語 音識(shí)別方法、韻律規(guī)則和語法規(guī)則等語言學(xué)方面的規(guī)則都是綜合了各種知識(shí) 形成的,只有這樣才能理解人說話表達(dá)的意思?梢园堰@種系統(tǒng)稱為語音理 解系統(tǒng)。但是人的說話有時(shí)不那么明確,或者表達(dá)不那么清楚,這時(shí)機(jī)器人就 要通過語音合成裝置在人說話內(nèi)容不明確或不清楚的地方提出疑問并請(qǐng)求解 答,或?qū)θ说恼f話內(nèi)容多次加以確認(rèn),采用這種方式構(gòu)成的系統(tǒng)稱為語音對(duì)話 系統(tǒng)。在語音對(duì)話系統(tǒng)中,雖然對(duì)人所發(fā)出的語音或單詞的識(shí)別并不十分準(zhǔn) 確,但通過對(duì)話和理解過程就能把人說話的內(nèi)容傳達(dá)給機(jī)器人。
一般來說,語音的生成過程分為三個(gè)階段:聲道內(nèi)音源的發(fā)音;到聲道出 口為止的聲波的傳遞;從聲道出口到語音接受點(diǎn)的聲波輻射。發(fā)音的音源也 有三種:通過聲帶的振動(dòng)引起聲道內(nèi)呼出的氣流所產(chǎn)生具有近似周期性的斷 續(xù)氣流量的變化;當(dāng)呼出的氣流通過聲道時(shí),由于聲道變窄而產(chǎn)生的聲壓變 化;把閉鎖的聲道突然開放而產(chǎn)生的階躍型的音壓變化。對(duì)元音而言,聲道由 咽喉、口咽和口腔組成,并具有全極點(diǎn)的傳遞函數(shù)特性,每個(gè)極點(diǎn)的頻率稱為 共振峰頻率,把這些共振峰頻率依次編號(hào)為D一共振峰頻率、第二共振峰頻 率、第三共振峰頻率等。
語音的特征有分節(jié)特征和韻律特征兩種。在語音分節(jié)特征中,可以把元 音或輔音等每個(gè)單音作為語音的一個(gè)特征單位,因此可以根據(jù)聲道的傳遞函 數(shù)和音源的種類對(duì)這些特征單位進(jìn)行描述。在語音的韻律特征中可以把語音 的抑揚(yáng)、強(qiáng)度、節(jié)奏和速度作為語音的一種特征單位。語音的抑揚(yáng)可以用振動(dòng)的基頻來描述,語音的強(qiáng)度可以用音源的強(qiáng)弱來描述,而語音的節(jié)奏和速度則 可以用單音或停頓的持續(xù)時(shí)間來描述。
通過傅里葉變換對(duì)頻率函數(shù)進(jìn)行分析是一種基本的語音分析方法。這種 方法得出的結(jié)果是一種頻譜特性,包括振幅頻譜和相位頻譜,但相位特性對(duì)語 音影響不大,所以一般僅用振幅頻譜(簡(jiǎn)稱頻譜)來表示。因?yàn)檎Z音特征是隨 時(shí)間變化的,所以使用傅里葉變換對(duì)語音分析時(shí),應(yīng)截取有限長(zhǎng)度的語音信號(hào) 進(jìn)行分析。
孤立單呼語音識(shí)別系統(tǒng)的基本構(gòu)成。該圖所示系統(tǒng)只能 識(shí)別預(yù)先指定的有限個(gè)孤立單詞,這種系統(tǒng)不是進(jìn)行組成單詞的音素的識(shí) 別,而是把單詞整體作為一個(gè)單位來進(jìn)行識(shí)別。輸入系統(tǒng)的孤立單詞語音用 隨時(shí)間變化的函數(shù)來描述,通過某些數(shù)學(xué)運(yùn)算把單詞語音信號(hào)變換為語音特 征更為明確的參數(shù)序列,進(jìn)行音響分析。經(jīng)過變換后的單詞語音通常用十幾 維的向量序列來描述,即使同一說話者對(duì)同一單詞進(jìn)行發(fā)音,每次發(fā)音時(shí)的 向量序列長(zhǎng)度也有可能不同。對(duì)單詞整體而言,向量序列長(zhǎng)度的伸縮不是線 性變化的,元音的穩(wěn)定發(fā)音部分的長(zhǎng)度容易引起伸縮,輔音部分和各個(gè)過渡 部分則保持相對(duì)的固有長(zhǎng)度,因而描述單詞的整個(gè)向量序列長(zhǎng)度的伸縮呈非 線性的。
在單呼語音識(shí)別系統(tǒng)中,被識(shí)別對(duì)象的單詞,都預(yù)先準(zhǔn)備好其標(biāo)準(zhǔn)的特征 向量序列。這些特征向量序列叫做標(biāo)準(zhǔn)模式。所謂單呼語音識(shí)別,是把經(jīng)過 變換后的輸入單詞的特征向量序列與各單詞的標(biāo)準(zhǔn)模式之間的相似性(或距 離)逐一進(jìn)行比較,Z后把相似性Z高的單詞作為識(shí)別結(jié)果進(jìn)行輸出。把被識(shí) 別單詞的特征向量序列與標(biāo)準(zhǔn)單詞模式進(jìn)行比較,計(jì)算兩者的相似性的操作 過程稱為“對(duì)照”或“匹配”。輸入的單詞和標(biāo)準(zhǔn)單詞的模式的向量序列長(zhǎng)度一 般有差異,兩者進(jìn)行匹配時(shí)不能單純的線性伸縮把兩者湊齊,需要根據(jù)在時(shí)間 軸上的非線性特點(diǎn)采用時(shí)間規(guī)整技術(shù)進(jìn)行復(fù)雜的數(shù)學(xué)計(jì)算。
單呼語音識(shí)別系統(tǒng)有兩種類型:以特定人為前提并隨時(shí)進(jìn)行語音調(diào)整的 系統(tǒng)和以非特定人為前提且不對(duì)語音進(jìn)行特別調(diào)整的系統(tǒng)。前者叫做特定人 的單呼語音識(shí)別系統(tǒng),后者叫做非特定人的單呼語音識(shí)別系統(tǒng)。在特定人的 單呼語音識(shí)別系統(tǒng)中,大多數(shù)情況下是把特定人所說的單詞語音進(jìn)行音響分 析再變換為特征向量序列,然后原封不動(dòng)地將這個(gè)特征向量序列句作為標(biāo)準(zhǔn) 模式來使用。在特定人的單呼語音識(shí)別系統(tǒng)中,選擇幾個(gè)典型的單詞特征向 量序列作為標(biāo)準(zhǔn)單詞模式,或從多個(gè)標(biāo)準(zhǔn)單詞模式中求出概率分布,Z后進(jìn)行 統(tǒng)計(jì)判別。
![]() |
| 機(jī)器人底盤 Disinfection Robot 消毒機(jī)器人 講解機(jī)器人 迎賓機(jī)器人 移動(dòng)機(jī)器人底盤 商用機(jī)器人 智能垃圾站 智能服務(wù)機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 展廳機(jī)器人 服務(wù)機(jī)器人底盤 具身智能教育機(jī)器人 智能配送機(jī)器人 導(dǎo)覽機(jī)器人 |