視點!能聽懂口音的開源語音系統(tǒng)來了:OpenAI出品 支持99種語言
逼近人類水平的語音識別系統(tǒng)來了?沒錯,OpenAI新開源了一個名為「Whisper」的新語音識別系統(tǒng),據(jù)稱在英文語音識別方面擁有接近人類水平的魯棒性和準確性!不僅如此,對于不同口音、專業(yè)術(shù)語的識別效果也是杠杠的!一經(jīng)發(fā)布就在推特上收獲4800+點贊,1000+轉(zhuǎn)發(fā)。
訪問:
Parallels Desktop 18 今年首次促銷:限時75折
【資料圖】
網(wǎng)友們紛紛對它意料之外的強大功能表示驚訝。
不僅是英文,有人用法國詩人波德萊爾的《惡之花》進行了語音測試,得到的文本幾乎與原文一致。
OpenAI聯(lián)合創(chuàng)始人&首席科學(xué)家Ilya Sutskever就表示:
終于有一個靠譜的語音識別系統(tǒng)能聽懂我的口音了。
前任特斯拉人工智能總監(jiān)Andrej Karpathy甚至轉(zhuǎn)發(fā)評論:OpenAI正處于最好的狀態(tài)中。
話不多說,讓我們看看這個被“好評如潮”的語音系統(tǒng)究竟是怎么回事。
逼近人類水平的語音識別系統(tǒng)
首先,Whisper最大特點是它使用的超大規(guī)模訓(xùn)練集:
它使用從網(wǎng)絡(luò)上收集的68萬小時的多語言、多任務(wù)監(jiān)督數(shù)據(jù)進行訓(xùn)練。
這導(dǎo)致數(shù)據(jù)集的內(nèi)容非常多元化,涵蓋了許多不同環(huán)境、不同錄音設(shè)備下、不同語言的音頻。
具體而言,65%(438218小時)是英語音頻和匹配的英語文本,大約18%(125739小時)是非英語音頻和英語文本,而最后17%(117113小時)則是非英語音頻和相應(yīng)的文本。
其中,非英語部分共包含98種不同語言。
不過,雖然音頻質(zhì)量的多樣性可以幫助提高訓(xùn)練模型的魯棒性,但轉(zhuǎn)錄文本質(zhì)量的多樣性并不是同樣有益的。
初步檢查顯示,原始數(shù)據(jù)集中有大量不合格的、現(xiàn)有自動語音識別(ASR)系統(tǒng)生成的轉(zhuǎn)錄文本。
而以往的研究表明,在人工和機器混合生成的數(shù)據(jù)集上進行訓(xùn)練,會顯著損害翻譯系統(tǒng)的性能。
為了解決這個問題,研究團隊開發(fā)了幾種自動過濾方法來識別和刪除低質(zhì)量的數(shù)據(jù)源。
但值得一提的是,沒有說話內(nèi)容的片段會被留下,作為語音活動檢測的訓(xùn)練數(shù)據(jù)。
其次,Whisper體系結(jié)構(gòu)是一種簡單的端到端方法,具體來說就是Transformer的編碼器-解碼器格式。
輸入音頻被分成30秒的片段,再轉(zhuǎn)換成log-Mel譜圖,然后傳入編碼器。
解碼器被訓(xùn)練來預(yù)測相應(yīng)的文本標題,并混合特殊標記,指示單一模型執(zhí)行諸如語言識別、多語言語音轉(zhuǎn)錄和英語語音翻譯等任務(wù)。
除此之外,研究人員還為Whisper設(shè)置了5種不同的型號,以下是各模型大致的內(nèi)存需求和相對速度,使用者可以自行選擇。
但需要注意的是,只有“l(fā)arge”型號支持多語言,前4個模型都只支持英語。
不過不需要擔(dān)心,與其他模型相比,英文語音識別正是Whisper的核心競爭力。
實驗結(jié)果證明,Whisper在Librispeech test-clean測試的錯誤率達到2.7%。
雖然這一數(shù)值與Wav2vec 2.0一樣,但在零樣本性能上,Whisper明顯更穩(wěn)健,平均誤差減少了55%。
甚至零樣本W(wǎng)hisper模型還縮小了與人類魯棒性之間的差距。
可以看出,與人類Alec相比,LibriSpeech模型的錯誤率大約是人類的兩倍,而Whisper模型的魯棒性邊界則包括Alec95%的置信區(qū)間。
研究團隊
Whisper的研究團隊來自O(shè)penAI,共同一作有兩位:Alec Radford、Jong Wook Kim。
Alec Radford,OpenAI的機器學(xué)習(xí)研究員,也是indico.io的聯(lián)合創(chuàng)始人。
Jong Wook Kim,在紐約大學(xué)獲得了音樂技術(shù)專業(yè)的博士學(xué)位,研究方向包括多模態(tài)深度學(xué)習(xí)和音樂理解,目前是OpenAI的研究人員。
值得一提的是,研究團隊指出,雖然目前Whisper還沒有實時功能,但它的運行速度和內(nèi)存大小表明,在這一基礎(chǔ)上搭建實時語音識別和翻譯功能是可行的。
他們希望Whisper的高精度和易用性,將允許開發(fā)人員將語音接口添加到更廣泛的應(yīng)用程序中。
論文和GitHub鏈接附在文末,感興趣的小伙伴們可以自取~
論文鏈接:
https://cdn.openai.com/papers/whisper.pdf
GitHub鏈接:
https://github.com/openai/whisper#approach
參考鏈接:
[1]https://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb
[2]https://techcrunch.com/2022/09/21/openai-open-sources-whisper-a-multilingual-speech-recognition-system/?guccounter
[3]https://news.ycombinator.com/item?id=32927360
[4]https://twitter.com/alecrad
[5]https://jongwook.kim/
關(guān)鍵詞: 人工智能 能聽懂口音的開源語音系統(tǒng)來了OpenAI出品
推薦
-
健康的肥胖不存在 脂肪含量和全因死亡之間具有線性因果關(guān)系
從重慶醫(yī)科大學(xué)附屬第一醫(yī)院獲悉,該院內(nèi)分泌科李啟富教授團隊基于基因分析探討了脂肪含量與死亡風(fēng)險的...
來源:科技日報 -
與亞馬遜Audible展開競爭 Spotify在美國推出有聲讀物服務(wù)
已在美國推出有聲讀物服務(wù),此舉欲與亞馬遜的 Audible 展開競爭。Spotify 稱,用戶可在 Spotify Ap...
來源:TechWeb -
YouTube視頻網(wǎng)站中“不感興趣”按鈕幾乎沒有任何作用 類似相關(guān)視頻還會出現(xiàn)
有一項新的研究發(fā)現(xiàn),即使用戶對 YouTube 中某些類型視頻選擇了不感興趣,但是類似相關(guān)的視頻還會出現(xiàn)...
來源:鳳凰科技 -
阿里巴巴將在核心科技上持續(xù)投入 助力全球產(chǎn)業(yè)鏈供應(yīng)鏈韌性與穩(wěn)定
阿里巴巴集團董事會主席兼首席執(zhí)行官張勇表示,國際地緣政治沖突加劇、逆全球化思潮涌現(xiàn)等因素給全球產(chǎn)...
來源:網(wǎng)易科技 -
-
Instagram短視頻功能發(fā)展正趨于停滯 觀看時長不及TikTok十分之一
幾個月來 Instagram 一直在努力發(fā)展其短視頻項目 Reels,但據(jù)一份內(nèi)部報告顯示,短視頻功能的發(fā)展正...
來源:TechWeb -
5G高空瞭望智能“監(jiān)督員”24小時在崗 鶴壁打造5G智慧社區(qū)
守在大屏前,小區(qū)各處安全狀況一覽無余;不用跑醫(yī)院,5G健康小屋幫你體檢;在公園座椅休息時,可以同時充...
來源:人民郵電報 -
筑牢網(wǎng)絡(luò)安全防線 中國工業(yè)互聯(lián)網(wǎng)研究院設(shè)立“網(wǎng)絡(luò)安全宣傳角”
在第九屆國家網(wǎng)絡(luò)安全宣傳周活動中,中國工業(yè)互聯(lián)網(wǎng)研究院依托門戶網(wǎng)站、微信公眾號發(fā)布《2022網(wǎng)絡(luò)安全...
來源:人民郵電報 -
-
提升城鎮(zhèn)一體化醫(yī)療服務(wù)能力 安溪升級智慧醫(yī)療云
近日,福建安溪電信在成功打造全縣醫(yī)療云服務(wù)的基礎(chǔ)上,依托EC產(chǎn)業(yè)園醫(yī)療云平臺,聯(lián)手安溪衛(wèi)健局開展醫(yī)...
來源:人民郵電報
直播更多》
-
2022無錫(北京)科技合作洽談會74個重大項目簽約 總金額達到202.34億
在近日舉行的2022無錫(北京)科技合作洽...
-
2022無錫(北京)科技合作洽談會74個重大項目簽約 總金額達到202.34億
在近日舉行的2022無錫(北京)科技合作洽...
-
構(gòu)建網(wǎng)絡(luò)安全保障體系 天津濱海高新區(qū)在信創(chuàng)安全領(lǐng)域持續(xù)發(fā)力
9月上旬,天津濱海高新區(qū)內(nèi)企業(yè)麒麟軟件...
-
解放大量人力物力 智慧漁政網(wǎng)絡(luò)為執(zhí)法插上科技翅膀
有人正在長江非法垂釣!近日,武漢市農(nóng)業(yè)...
-
將加強政策引導(dǎo) 廣西管局推進自貿(mào)區(qū)工業(yè)企業(yè)工業(yè)互聯(lián)網(wǎng)建設(shè)
近日,廣西信息通信業(yè)與中國(廣西)自由...
-
快手高級副總裁帶隊國際化業(yè)務(wù)一個多月 對部門組織架構(gòu)進行調(diào)整
快手高級副總裁馬宏彬在帶隊國際化業(yè)務(wù)...
資訊更多》
焦點
- 補齊訓(xùn)練短板 科學(xué)組訓(xùn)助力獵鯊海天
- 廈門國家火炬高新區(qū)專精特新企業(yè)培育項目開班 50名備企業(yè)高管開啟研學(xué)之旅
- 為禁捕退捕裝上“數(shù)字眼” 中國聯(lián)通助力長江黃河流域水域治理
- 順豐同城寄丟20克黃金保價8000元只賠2000元 當(dāng)事人質(zhì)疑保價意義何在
- SK明年將在韓國投資73萬億韓元提升產(chǎn)能 未來5年還將投入25萬億韓元
- 大理州首個文旅行業(yè)5G應(yīng)用 5G智慧文旅項目落戶銀都水鄉(xiāng)
- 德國柏林國際消費電子展全面恢復(fù)線下舉辦 大量“智慧家居”類產(chǎn)品吸引眼球
- 中俄邊境地區(qū)無線電頻率協(xié)調(diào)工作組及專家組會談 近日以線上視頻形式召開
- 浙江移動物聯(lián)網(wǎng)連接數(shù)突破1億 率先邁入萬物智聯(lián)時代
- 全力構(gòu)建數(shù)據(jù)出境的“安全屏障” 9月1日起《數(shù)據(jù)出境安全評估辦法》正式施行