嫒美直播免费版app下载-嫒美直播永久免费版下载-嫒美直播最新下载安装

當(dāng)前位置:首頁 > 教育綜合 > 正文

完整的語音交互過程包括哪幾個(gè)關(guān)鍵環(huán)節(jié),分別對(duì)應(yīng)實(shí)現(xiàn)了什么過程

語音識(shí)別的過程是什么?語音識(shí)別的方法有哪幾種?

語音識(shí)別的過程和方法具體如下:

語音識(shí)別過程

1、語音信號(hào)采集

語音信號(hào)采集是語音信號(hào)處理的前提。語音通常通過話筒輸入計(jì)算機(jī)。話筒將聲波轉(zhuǎn)換為電壓信號(hào),然后通過A/D裝置(如聲卡)進(jìn)行采樣,從而將連續(xù)的電壓信號(hào)轉(zhuǎn)換為計(jì)算機(jī)能夠處理的數(shù)字信號(hào)。

目前多媒體計(jì)算機(jī)已經(jīng)非常普及,聲卡、音箱、話筒等已是個(gè)人計(jì)算機(jī)的基本設(shè)備。其中聲卡是計(jì)算機(jī)對(duì)語音信進(jìn)行加工的重要部件,它具有對(duì)信號(hào)濾波、放大、A/D和D/A轉(zhuǎn)換等功能。而且,現(xiàn)代操作系統(tǒng)都附帶錄音軟件,通過它可以驅(qū)動(dòng)聲卡采集語音信號(hào)并保存為語音文件。

對(duì)于現(xiàn)場(chǎng)環(huán)境不好,或者空間受到限制,特別是對(duì)于許多專用設(shè)備,目前廣泛采用基于單片機(jī)、DSP芯片的語音信號(hào)采集與處理系統(tǒng)。

2、語音信號(hào)預(yù)處理

語音信號(hào)號(hào)在采集后首先要進(jìn)行濾波、A/D變換,預(yù)加重(Preemphasis)和端點(diǎn)檢測(cè)等預(yù)處理,然后才能進(jìn)入識(shí)別、合成、增強(qiáng)等實(shí)際應(yīng)用。

濾波的目的有兩個(gè):一是抑制輸入信號(hào)中頻率超出//2的所有分量(/:為采樣頻率),以防止混疊干擾;二是抑制50Hz的電源工頻干擾。因此,濾波器應(yīng)該是一個(gè)帶通濾波器。

A/D變換是將語音模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)。A/D變換中要對(duì)信號(hào)進(jìn)行量化,量化后的信號(hào)值與原信號(hào)值之間的差值為量化誤差,又稱為量化噪聲。

預(yù)加重處理的目的是提升高頻部分,使信號(hào)的頻譜變得平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜,便于頻譜分析。

端點(diǎn)檢測(cè)是從包含語音的一段信號(hào)中確定出語音的起點(diǎn)和終點(diǎn)。有效的端點(diǎn)檢測(cè)不僅能減少處理時(shí)間,而且能排除無聲段的噪聲干擾。目前主要有兩類方法:時(shí)域特征方法和頻域特征方法。

時(shí)域特征方法是利用語音音量和過零率進(jìn)行端點(diǎn)檢測(cè),計(jì)算量小,但對(duì)氣音會(huì)造成誤判,不同的音量計(jì)算也會(huì)造成檢測(cè)結(jié)果不同。頻域特征方法是用聲音的頻譜的變異和熵的檢測(cè)進(jìn)行語音檢測(cè),計(jì)算量較大。

3、語音信號(hào)的特征參數(shù)提取

人說話的頻率在10kHz以下。根據(jù)香農(nóng)采樣定理,為了使語音信號(hào)的采樣數(shù)據(jù)中包含所需單詞的信息,計(jì)算機(jī)的采樣頻率應(yīng)是需要記錄的語音信號(hào)中包含的最高語音頻率的兩倍以上。

一般將信號(hào)分割成若干塊,信號(hào)的每個(gè)塊稱為幀,為了保證可能落在幀邊緣的重要信息不會(huì)丟失,應(yīng)該使幀有重疊。例如,當(dāng)使用20kH的采樣面率時(shí),標(biāo)準(zhǔn)的一幀為10ms,包含200個(gè)采樣值。

話筒等語音輸入設(shè)備可以采集到聲波波形,雖然這些聲音的波形包含了所需單詞的信息,但用肉眼觀察這些波形卻得不到多少信息因此,需要從采樣數(shù)據(jù)中抽取那些能夠幫助辨別單詞的特征信息。在語音識(shí)別中,常用線性預(yù)測(cè)編碼技術(shù)抽取語音特征。

線性預(yù)測(cè)編碼的基本思想是:語音信號(hào)采樣點(diǎn)之間存在相關(guān)性,可用過去的若干采樣點(diǎn)的線性組合預(yù)測(cè)當(dāng)前和將來的采樣點(diǎn)值。線性預(yù)測(cè)系數(shù)埽以通過使預(yù)測(cè)信號(hào)和實(shí)際信號(hào)之間的均方誤差最小來唯一確定。

語音線性預(yù)測(cè)系數(shù)作為語音信號(hào)的一種特征參數(shù),已經(jīng)廣泛應(yīng)用于語音處理各個(gè)領(lǐng)域。

4、向置量化

向量量化(Vector Quantization,VQ)技術(shù)是20世紀(jì)W年代后期發(fā)展起來的一種數(shù)據(jù)壓縮和編碼技術(shù)。經(jīng)過向量量化的特征向量也可以作為后面隱馬爾可夫模型中的輸入觀察符號(hào)。

在標(biāo)量量化中整個(gè)動(dòng)態(tài)范圍被分成若干個(gè)小區(qū)間,每個(gè)小區(qū)間有一個(gè)代表值,對(duì)于一個(gè)輸入的標(biāo)量信號(hào),量化時(shí)落入小區(qū)間的值就用這個(gè)代表值>[戈替。因?yàn)檫@時(shí)的信號(hào)量是一維的標(biāo)量,所以稱為標(biāo)量量化。

向量量化的概念是用線性空間的觀點(diǎn),把標(biāo)量改為一維的向量,對(duì)向量進(jìn)行量化。和標(biāo)量量化一樣,向量量化是把向量空間分成若干個(gè)小區(qū)域,每個(gè)小區(qū)域?qū)ふ乙粋€(gè)代表向量,量化時(shí)落入小區(qū)域的向量就用這個(gè)代表向量代替。

向量量化的基本原理是將若干個(gè)標(biāo)量數(shù)據(jù)組成一個(gè)向量(或者是從一幀語音數(shù)據(jù)中提取的特征向量)在多維空間給予整體量化,從而可以在信息量損失較小的情況下壓縮數(shù)據(jù)量。

語音識(shí)別

1、模板(template)匹配法

在訓(xùn)練階段,用戶將詞匯表中的每一個(gè)詞依次說一遍,并且將其特征向量作為模板存入模板庫。在識(shí)別階段,將輸入語音的特征向量序列,依次與模板庫中的每個(gè)模板進(jìn)行相似度比較,將相似度最高者作為識(shí)別結(jié)果輸出。

2、隨機(jī)模型法

隨機(jī)模型法是目前語音識(shí)別研究的主流。其突出的代表是隱馬爾可夫模型。語音信號(hào)在足夠短的時(shí)間段上的信號(hào)特征近似于穩(wěn)定,而總的過程可看成是依次相對(duì)穩(wěn)定的某一特性過渡到另一特性。隱馬爾可夫模型則用概率統(tǒng)計(jì)的方法來描述這樣一種時(shí)變的過程。

3、概率語法分析法

這種方法是用于大長度范圍的連續(xù)語音識(shí)別。語音學(xué)家通過研究不同的語音語譜圖及其變化發(fā)現(xiàn),雖然不同的人說同一些語音時(shí),相應(yīng)的語譜及其變化有種種差異,但是總有一些共同的特點(diǎn)足以使他們區(qū)別于其他語音,也即語音學(xué)家提出的“區(qū)別性特征”。

另一方面,人類的語言要受詞法、語法、語義等約束,人在識(shí)別語音的過程中充分應(yīng)用了這些約束以及對(duì)話環(huán)境的有關(guān)信息。

于是,將語音識(shí)別專家提出的“區(qū)別性特征”與來自構(gòu)詞、句法、語義等語用約束相互結(jié)合,就可以構(gòu)成一個(gè)“自底向上”或“自頂向下”的交互作用的知識(shí)系統(tǒng),不同層次的知識(shí)可以用若干規(guī)則來描述。

TTS是什么意思呢?

TTS是指一項(xiàng)語音合成技術(shù)。

語音合成是將人類語音用人工的方式所產(chǎn)生。若是將電腦系統(tǒng)用在語音合成上,則稱為語音合成器,而語音合成器可以用軟/硬件所實(shí)現(xiàn)。

文字轉(zhuǎn)語音系統(tǒng)則是將一般語言的文字轉(zhuǎn)換為語音,其他的系統(tǒng)可以描繪語言符號(hào)的表示方式,就像音標(biāo)轉(zhuǎn)換至語音一樣。

擴(kuò)展資料:

發(fā)展歷史

1、17世紀(jì)法國人研發(fā)機(jī)械式的說話裝置,直到19世紀(jì),貝爾實(shí)驗(yàn)室對(duì)于電子語音合成技術(shù)的研究,才開啟近代語音合成技術(shù)的發(fā)展。

2、貝爾實(shí)驗(yàn)室在1939年制作出第一個(gè)電子語音合成器VODER,是一種利用共振峰原理所制作的合成器。

3、1960年,瑞典語言學(xué)家G. Fant則提出利用線性預(yù)測(cè)編碼技術(shù)(LPC)來作為語音合成分析技術(shù),并推動(dòng)了日后的發(fā)展。

4、1980年代Moulines E和Charpentier F提出新的語音合成算法PSOLA,此技術(shù)可以合成比較自然的語音。

參考資料來源:百度百科-TTS

IVR是什么?

IVR(Interactive Voice Response)即互動(dòng)式語音應(yīng)答,您只須用電話即可進(jìn)入服務(wù)中心,可以根據(jù)操作提示收聽手機(jī)娛樂產(chǎn)品,也可以根據(jù)用戶輸入的內(nèi)容播放有關(guān)的信息。

業(yè)務(wù)

意即無線語音業(yè)務(wù)增值服務(wù),和大家熟知的固定電話聲訊服務(wù)類似。手機(jī)用戶撥打指定號(hào)碼,獲得所需信息或者參與互動(dòng)式的服務(wù)。

最常見的業(yè)務(wù)有:

1. 語音點(diǎn)歌

2.語音聊天交友

3. 手機(jī)雜志

4. 電子賀卡

5. 客服中心

6.交互式語音

IVR,即語音增值業(yè)務(wù),是移動(dòng)運(yùn)營商由2002年開始啟動(dòng)的業(yè)務(wù)。移動(dòng)的IVR分為兩大品牌:音信互動(dòng)和娛音在線,聯(lián)通的IVR品牌為聯(lián)通音。

擴(kuò)展資料:

效率優(yōu)化

一、制定數(shù)據(jù)采集規(guī)范并進(jìn)行必要的系統(tǒng)改造

IVR優(yōu)化分析系統(tǒng)以IVR呼叫日志數(shù)據(jù)為基礎(chǔ),如果IVR業(yè)務(wù)系統(tǒng)的日志記錄數(shù)據(jù)過于簡單,不能有效地支持客戶行為分析。系統(tǒng)中至少要包括以下信息:

大量的全過程電話。這里指的全過程電話是指電話從進(jìn)入IVR開始到離開呼叫中心為止的電話,其中離開的方式可以大致分為三種:接受自助IVR服務(wù)后,獲得滿意信息直接離開;在IVR中或者等待CSR服務(wù)的過程中放棄服務(wù)或等待離開;先IVR后轉(zhuǎn)接到CSR接受完服務(wù)離開。

能夠識(shí)別哪些電話是接受自助IVR服務(wù)后,獲得滿意結(jié)果直接離開,哪些電話又是主動(dòng)放棄服務(wù)離開。

需要記錄全過程電話在IVR中的路徑。

為了在系統(tǒng)中獲取以上信息,需要制定了IVR數(shù)據(jù)采集規(guī)范,并完成必要的IVR日志系統(tǒng)改正,IVR數(shù)據(jù)采集規(guī)范需要定義信息:

日志信息:1)用戶按鍵信息;2)語音播報(bào)信息;3)系統(tǒng)分支判斷信息

語音節(jié)點(diǎn)信息:1)功能節(jié)點(diǎn);2)連接節(jié)點(diǎn);3)報(bào)讀節(jié)點(diǎn);4)功能連接節(jié)點(diǎn)

判別信息:1)用戶收號(hào)完畢(連接節(jié)點(diǎn)和報(bào)讀節(jié)點(diǎn)中的連接節(jié)點(diǎn));2)語音播報(bào)完畢(功能節(jié)點(diǎn)和報(bào)讀節(jié)點(diǎn)中的功能節(jié)點(diǎn));3)按鍵超時(shí)(連接節(jié)點(diǎn)和報(bào)讀節(jié)點(diǎn)中的連接節(jié)點(diǎn));4)用戶掛機(jī)、系統(tǒng)主動(dòng)釋放;5)錯(cuò)誤提示信息。

二、建立IVR指標(biāo)評(píng)價(jià)體系

對(duì)IVR節(jié)點(diǎn)和業(yè)務(wù)的評(píng)價(jià),需要有統(tǒng)一定義的IVR評(píng)價(jià)指標(biāo)??梢詮墓?jié)點(diǎn),業(yè)務(wù)和通話三個(gè)角度建立IVR的指標(biāo)體系。通過這些指標(biāo)可以對(duì)現(xiàn)有的IVR語音菜單及業(yè)務(wù)進(jìn)行全面的評(píng)價(jià),并提出改進(jìn)的措施。以下從業(yè)務(wù)角度列出部分業(yè)務(wù)指標(biāo)及相關(guān)分析要素,不同的指標(biāo)面向不同的人員使用。

三、進(jìn)行數(shù)據(jù)建模與確定關(guān)鍵分析單

將原始日志處理后得出有效結(jié)論的數(shù)據(jù)處理過程按照以下八個(gè)步驟完成:從原始數(shù)據(jù)到數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)清洗、按鍵編碼、路徑生成、菜單生產(chǎn)、定義指標(biāo)、設(shè)計(jì)預(yù)算到最后的算法檢驗(yàn)。

其中用到“數(shù)據(jù)轉(zhuǎn)換”——“定義指標(biāo)”步是數(shù)據(jù)轉(zhuǎn)換和定義規(guī)則,最后兩步驟應(yīng)用了數(shù)學(xué)建模、數(shù)據(jù)分析、數(shù)據(jù)檢驗(yàn)的多種算法。

參考資料:百度百科-IVR

信息溝通的過程分為6個(gè)環(huán)節(jié)是什么

溝通的過程指的是信息交流的全過程,它涉及信息發(fā)送者、信息接收者、信 息渠道、編碼、解碼、反饋六個(gè)要素。

語音交互設(shè)計(jì)的常見形式分析?

隨著互聯(lián)網(wǎng)的不斷發(fā)展,交互設(shè)計(jì)的形式與種類也發(fā)生了很大的變化,下面霍營IT培訓(xùn)就一起來了解一下,關(guān)于語音交互設(shè)計(jì)的一些常見設(shè)計(jì)形式。

1.對(duì)話式設(shè)計(jì)


定義:簡單來說就是我問你答


目前我們使用的智能設(shè)備基本只能支持單輪對(duì)話,但這樣并不是人們習(xí)慣的對(duì)話方式


一輪以上的對(duì)話,才是符合用戶心理預(yù)期的。


請(qǐng)大家回憶下自己使用智能音箱的一些場(chǎng)景體驗(yàn),


舉個(gè)例子(天貓精靈)


用戶:天貓精靈,明天我有鬧鐘么?


天貓:您明天沒有鬧鐘呢


用戶:那可以幫我設(shè)定一個(gè)么?


天貓:..


你會(huì)發(fā)現(xiàn),智能音箱這個(gè)時(shí)候像是失憶了一般,毫無反應(yīng),顯然這并不是我們想要的一個(gè)交互,從用戶社交屬性來說,人們溝通的方式一直都是一輪以上對(duì)話式的,并不是單輪式的,一般來說,我們要做到讓用戶決定對(duì)話要持續(xù)多久,很顯然,你有親身體驗(yàn)過的話,能做到多輪對(duì)話的比較少。


插一個(gè)題外話,近天貓精靈更新了游戲語音的玩法,算是踏進(jìn)一步了吧,雖然不是很棒的體驗(yàn),但起碼跨進(jìn)了多一步,相信未來會(huì)越來越棒的。那對(duì)話式是如何設(shè)計(jì)出來呢?大致是怎么樣的一個(gè)流程呢?


2.設(shè)計(jì)工具


這里說的設(shè)計(jì)工具并不是說是一個(gè)具體的工具,更多是指一個(gè)方法論


示例對(duì)話


定義:示例對(duì)話字面意思就是演示舉例對(duì)話,它看起來像一個(gè)電影腳本,像兩個(gè)人一起在對(duì)話


特點(diǎn):是整個(gè)設(shè)計(jì)對(duì)話過程的關(guān)鍵方法。成本較低,簡單易操作


用法:把要做成一件事情的場(chǎng)景用文字寫出來,然后大聲讀出來,你會(huì)發(fā)現(xiàn)書寫和口語化的還是有很多區(qū)別的,甚至是有些奇怪的,這時(shí)候你會(huì)發(fā)現(xiàn)有很多可以改進(jìn)的地方,所以你會(huì)看到一些招聘都會(huì)有這一項(xiàng)對(duì)應(yīng)的要求,甚至是要求一些事有話劇功底,有劇本寫作相關(guān)經(jīng)驗(yàn)優(yōu)先。


作用:它能夠讓你在投入開始研發(fā)之前,知道你的設(shè)計(jì)效果是如何。


展開全文閱讀