發(fā)布時間:2022-09-10
欄目:電商資訊
語音技術(shù)是人工智能(AI)的一個重要分支,包括自動語音識別技術(shù)(ASR)和語音合成技術(shù)(TTS)。語音識別就是可以讓計算機識別人類語音中的詞匯,通過識別到詞匯來進行后續(xù)的業(yè)務場景處理。語音識別是涉及心理學、生理學、聲學、語言學、信息理論、信號處理、計算機科學、模式識別等多個學科的交叉學科,具有廣闊的應用前景,如語音檢索、自動客戶服務、命令控制、機器自動翻譯等。而語音合成技術(shù)是將外部輸入的文字轉(zhuǎn)成人類可以聽懂的語音技術(shù)。它涉及聲學、語言學、數(shù)字信號處理、計算機科學等多個學科技術(shù),是中文信息處理領(lǐng)域的一項前沿技術(shù),解決的主要問題就是如何將文字信息轉(zhuǎn)化為可聽的聲音信息,應用場景包括語音導航、有聲讀物、機器人、語音助手、自動新聞播報等場景。
隨著人工智能技術(shù)的發(fā)展,語音技術(shù)目前發(fā)展的也比較成熟,國內(nèi)很多云廠商都提供了語音技術(shù)的服務SDK,企業(yè)和個人開發(fā)者可以根據(jù)云廠商提供的語音技術(shù)SDK開發(fā)自己的應用場景。開發(fā)者更多關(guān)注的是應用場景的創(chuàng)新性,而無需關(guān)注語音技術(shù)底層的實現(xiàn)邏輯,這也是云廠商提供給開發(fā)者的一大福利。目前國內(nèi)的百度、阿里、騰訊、科大訊飛、搜狗等科技公司都有語音技術(shù)的服務,其中,百度、阿里、科大訊飛的語音技術(shù)相對成熟,我們可以根據(jù)自己的需求選擇任何一家服務商使用。但是三家公司語音服務的付費模式、接入方式、語音庫各不相同,我們?nèi)绾芜x擇很為合適的服務商呢?三家服務商的語音技術(shù)各自有哪些特點和優(yōu)勢呢?
百度的語音技術(shù)產(chǎn)品叫天智人工智能。天智基于世界領(lǐng)先的百度大腦,提供拿來即用的視覺、語音等通用AI能力及行業(yè)解決方案、AI開發(fā)平臺及培訓服務等。行業(yè)客戶可基于自身業(yè)務需求及數(shù)據(jù),定制出個性化智能應用。而其中語音技術(shù)采用國際領(lǐng)先的流式端到端語音語言一體化建模算法,將語音快速正確識別為文字,支持手機應用語音交互、語音內(nèi)容分析、機器人對話等多個場景。它的服務包括短語音識別、語音合成、語音自練習平臺、呼叫中心語音解決方案、遠場語音識別等,其中短語音識別、語音合成常用的兩種服務。百度的短語音識別可以識別中文普通話、英語、粵語、四川話和大多數(shù)的方言。短語音識服務一個應用5萬免費調(diào)用次數(shù),可以滿足小型應用的需求。語音合成服務包括基礎(chǔ)音庫和精品音庫,都是免費提供給開發(fā)者使用的,但是有QPS的限制,精品音庫提供了九種音庫,這可以滿足中小開發(fā)者的需求。際精品音庫領(lǐng)先的流式端到端語音
阿里云是國內(nèi)很大的云廠商,其云市場規(guī)模國內(nèi)第一、世界第三,僅次于亞馬遜、微軟。阿里云不僅面向企業(yè)提供云服務器、數(shù)據(jù)庫、中間件等軟硬件服務,而且提供視頻、語音技術(shù)。阿里云的語音技術(shù)服務是智能語音交互,它是基于語音識別、語音合成、自然語言理解等技術(shù),為企業(yè)在多種實際應用場景下,賦予產(chǎn)品“能聽、會說、懂你”式的智能人機交互體驗。適用于多個應用場景中,包括智能問答、智能質(zhì)檢、法庭庭審實時記錄、實時演講字幕、訪談錄音轉(zhuǎn)寫等場景。主要功能包括錄音文件識別、實時語音轉(zhuǎn)寫、一句話識別、語音合成等。其中語音合成服務,通過先進的深度學習技術(shù),將文本轉(zhuǎn)換成自然流暢的語音。目前有多種音色可供選擇,并提供調(diào)節(jié)語速、語調(diào)、音量等功能。語音識別和語音合成目前都是按照次數(shù)收費,費用相對便宜,100萬次數(shù)1000元左右一年。語音合成提供了40多種可選的音庫,支持支持輸出pcm、wav、mp3編碼格式數(shù)據(jù);支持設(shè)置語速,語調(diào),音量;支持設(shè)置男聲/女聲,非常豐富,是企業(yè)和個人開發(fā)的優(yōu)選。
科大訊飛是專業(yè)從事智能語音及語言技術(shù)研究、軟件及芯片產(chǎn)品開發(fā)、語音信息服務及電子政務系統(tǒng)集成,擁有靈犀語音助手訊飛輸入法等優(yōu)秀產(chǎn)品,這就是與阿里百度不同的地方,科大訊飛是專門做語音技術(shù)的公司,它的技術(shù)是很成熟的。其中漢語語音識別技術(shù)在國內(nèi)領(lǐng)先,無人能及。得到、QQ閱讀、咪咕閱讀、起點讀書、高德地圖、滴滴出行、京東、有道翻譯等產(chǎn)品的語音都用的是科大訊飛的技術(shù)。科大訊飛語音識別技術(shù)已經(jīng)達到先進水平,語音識別正確率已經(jīng)達到實用標準。支持中、英、日、韓、俄、法、西7個語種的識別,同時,還支持廣東話、河南話、四川話等方言的識別。在語音合成技術(shù)方面,科大訊飛提供中英日韓等18種多語種、川豫粵等多方言、男女聲多風格的選擇,音量、語速、音調(diào)等參數(shù)。其高質(zhì)量合成音頻的自然度和清楚度已經(jīng)超過了普通人的朗讀水平。語音識別和語音合成目前都是按次數(shù)收費,收費相比阿里較貴,一萬次58元,是專業(yè)的語音產(chǎn)品的優(yōu)選。
百度的語音技術(shù)目前是免費使用的,注冊百度AI平臺就可以使用,但是有QPS限制,小應用可以選擇使用。阿里和科大訊飛都是按量收費,相對來說阿里的比較便宜,假如企業(yè)或者開發(fā)本身選擇的就是阿里云服務器,那建議使用阿里語音技術(shù)。科大訊飛是專業(yè)的語音技術(shù)提供商,其語音技術(shù)在國內(nèi)領(lǐng)先,國內(nèi)很多知名的產(chǎn)品都在使用科大訊飛??拼笥嶏w語音技術(shù)資費相對較貴,是專業(yè)語音產(chǎn)品的優(yōu)選。

文章地址:http://www.brucezhang.com/article/online/11358.html

- 1互聯(lián)網(wǎng)對傳統(tǒng)企業(yè)的沖擊有多大
- 2美團再因不正當競爭敗訴新反法互聯(lián)網(wǎng)專條首次適用外賣領(lǐng)域!
- 32021互聯(lián)網(wǎng)十件大事對不起賈躍亭你只能排第四
- 4互聯(lián)網(wǎng)宣傳做的就是用戶體驗
- 5互聯(lián)網(wǎng)創(chuàng)業(yè)到底需要怎樣的能力
- 6適合上班族的25個副業(yè)(適合上班族的互聯(lián)網(wǎng)副業(yè))
- 7互聯(lián)網(wǎng)的世界沒有永遠的敵人只有永遠的利益
- 8押唄進駐天線貓助力互聯(lián)網(wǎng)數(shù)碼產(chǎn)品寄存行業(yè)經(jīng)濟持續(xù)發(fā)展
- 9互聯(lián)網(wǎng)公司如何做好品牌定位
- 102021年互聯(lián)網(wǎng)金融發(fā)展回顧冬去春欲來改弦當更張