SenseVoice

10852024-07-12 20:38:4762條評(píng)論

標(biāo)簽：SenseVoice

AI音頻工具

鏈接直達(dá)手機(jī)訪問

舉報(bào)

讓我們一起共建文明社區(qū)！您的反饋至關(guān)重要！

網(wǎng)站介紹

SenseVoice，一款阿里通義實(shí)驗(yàn)室發(fā)布的FunAudioLLM框架多語言音頻基礎(chǔ)模型，enseVoice專注于高精度多語言語音識(shí)別、語音情感識(shí)別和音頻事件檢測，具有多語種、混合語言、音色和情感控制能力，在零樣本語音生成、跨語言語音克隆和指令跟蹤方面的能力表現(xiàn)優(yōu)秀。

FunAudioLLM 通過結(jié)合先進(jìn)的語音理解和生成技術(shù)，可以處理復(fù)雜的語音任務(wù)，并在多種語言環(huán)境中實(shí)現(xiàn)自然交。

SenseVoice可以應(yīng)用于語音翻譯、情感語音聊天、互動(dòng)播客和富有表現(xiàn)力的有聲讀物朗讀等。

SenseVoice具有音頻理解能力，包括語音識(shí)別(ASR)、語種識(shí)別(LID)、語音情感識(shí)別(SER)和聲學(xué)事件分類(AEC)或聲學(xué)事件檢測(AED)

SenseVoice性能：

多語言語音識(shí)別：經(jīng)過超過40萬小時(shí)的數(shù)據(jù)訓(xùn)練，支持50多種語言，識(shí)別性能超越Whisper模型。

豐富轉(zhuǎn)錄：

擁有優(yōu)秀的情緒識(shí)別能力，在測試數(shù)據(jù)上達(dá)到并超越目前最好的情緒識(shí)別模型的效果。

提供聲音事件檢測能力，支持bgm、掌聲、笑聲、哭泣、咳嗽、打噴嚏等各種常見人機(jī)交互事件的檢測。

高效推理：SenseVoice-Small 模型采用非自回歸端到端框架，從而實(shí)現(xiàn)極低的推理延遲。處理 10 秒的音頻僅需 70ms，比 Whisper-Large 快 15 倍。

便捷的Finetuning：提供便捷的Finetuning腳本和策略，讓用戶根據(jù)業(yè)務(wù)場景輕松解決長尾樣本問題。

服務(wù)部署：提供服務(wù)部署管道，支持多并發(fā)請求，客戶端語言包括Python、C++、HTML、Java、C#等。

在aiSHELL-1、AISHELL-2、Wenetspeech、Librispeech和Common Voice上測試了多語言語音識(shí)別性能和推理效率，中文和粵語，SenseVoice-Small效果好。

github：https://github.com/FunAudioLLM/SenseVoice

SenseVoice

本文鏈接：http://www.tondou.cn/post/1542.html ,轉(zhuǎn)載需注明文章鏈接來源：http://www.tondou.cn/

分享到：

喜歡（10）
不喜歡（3）

特別聲明

本站石南AI工具導(dǎo)航提供的“SenseVoice”來源于網(wǎng)絡(luò)，不保證外部鏈接的準(zhǔn)確性和完整性，同時(shí)，對(duì)于該外部鏈接的指向，不由“石南AI工具導(dǎo)航”實(shí)際控制，在“2024-07-12 20:38:47”收錄時(shí)，該網(wǎng)頁上的內(nèi)容，都屬于合規(guī)合法，后期網(wǎng)頁的內(nèi)容如出現(xiàn)違規(guī)，可以直接聯(lián)系網(wǎng)站管理員進(jìn)行刪除，“石南AI工具導(dǎo)航”不承擔(dān)任何責(zé)任。