三只羊盧總的錄音AI到底能不能做出來？真相讓人震驚！

石南11802024-09-27 13:24:09

今天一早，朋友發來一張圖，說警方通報，三只羊盧總的錄音是合成的，問我AI現在能不能干這個事。

三只羊盧總的錄音AI到底能不能做出來？真相讓人震驚！第1張

網上關于錄音的事炒的沸沸揚揚，各種陰謀論猜測。有人說酒后失言，一定是真的，畢竟這聲音和正常人說話沒啥區別。另一邊是替受害者打抱不平，但是又拿不出什么證據。

好吧，這次官方實錘了。在偽造者電腦、手機和AI音頻網站上發現了相關證據。

看到這里，我真的想噴了。AI技術的發展，是想推動生產提效，漂亮國為了阻止中國學習，甚至不惜損失用戶封了一批中國的賬號。

國內這些不懷好意的人，腦子里想的是用AI造謠炒熱度。有這精湛的技術，去找個好工作比啥不強?

作為一名AI愛好者，我覺得有必要科普一下，AI到底能不能達到三只羊盧總錄音的水平?

我可以明確的回答：能。

用秘塔AI的搜索功能，我大概整理了事情的經過。

簡單來說是辛巴和三只羊互相掐架，涉及商品問題、女主播糾紛。在輿論暴風眼上，爆出了三只羊董事長盧文慶全網炸裂的錄音。

三只羊盧總的錄音AI到底能不能做出來？真相讓人震驚！第2張

信息量極大，總結來說就是盧總潛規則了三只羊所有女主播，點名看不起張一鳴，還辱罵消費者。

大概就是這么個事。大部分人的理解是，AI無法做出這么逼真的效果。畢竟從聲音上聽，有情緒、有背景音、有方言。

這段錄音到底是不是AI做的，答案已經很明顯了。

那么下一個問題是，AI如何做出這么逼真的聲音？

先來理清一個概念，AI分為很多類。

有AI繪圖(MJ、SD、FLUX等)、AI視頻(runway、可靈、即夢等)、AI文本對話(ChatGPT、Claud、kimi等等)、AI音頻(11Lab、Suno、GPT-Sovtis等)。

錄音門，屬于AI音頻范疇。而AI音頻又分為AI生成音樂，比如一段話生成Suno原創歌曲，以及AI生成聲音。

生成聲音的兩種方法，包括文本生成語音和AI換聲。

文本生成語音，簡稱為TTS，現在技術門檻很低。只需要5秒鐘的聲音素材，就能訓練出AI模型。接下來只需輸入文字，就能產出一段音頻。

比如我曾用睿聲克隆過自己的聲音，做AI短視頻的素材。

但是TTS的克隆方法，問題是無法還原出人類的語氣情緒和斷句，能很明顯的聽出來由AI合成。

在音視頻商用領域，比如做AI廣告宣傳片，都不會用這項技術。

之前大家覺得盧總聲音是真實的，也是覺得AI音頻的發展，還達不到以假亂真的程度。

的確，親身測試過大量工具，TTS的確無法還原人類的語氣。

但是TTS不行，不代表AI換聲不行。

例如AI換聲的核心技術SVC，它使用深度神經網絡來實現從一個人的聲音到另一個人聲音的轉換。

缺點是要采集30分鐘以上的音頻素材，把聲音素材煉成AI音頻模型，再用SVC換聲音，把音色替換過去。

優點很明顯，它能保留一個人所有的聲音特征，包括語調、情緒、方言、停頓等等，不同的只有音色。只要模型夠好，你根本無法識別出它是AI。

所以用SVC偽造盧總的聲音，步驟很簡單。

先在網上搜集盧總30分鐘以上的音頻，把他的聲音清洗后，煉成模型。找一個和他說相同方言的人，錄一段音頻，最后用SVC技術替換音色。

所以AI能否復刻盧總的聲音，答案是可行的。

講這么多，是我覺得每個人哪怕現在不用AI，也至少要了解AI的發展，能解決哪些降本增效的問題。如果哪一天個人或者公司想用，能第一時間找到解決方案。

而那些利用AI技術做違法犯罪的人，我勸你們把心思用到正確的地方。

學會一項技術也不容易，做點落地應用的產品多好，用不法手段謀利，最終結果一定是進去踩縫紉機。

不管是否愿意，AI的進步都不可阻擋，且不可逆，在接下來的幾年中滲透到各行各業。

我們學習AI，是想讓自己的生活過的更好，提高工作效率，賺取收入。

現在又多了一項任務——保護好自己和家人。

本文鏈接：http://www.tondou.cn/post/1749.html ,轉載需注明文章鏈接來源：http://www.tondou.cn/

分享到：

標簽：AI 音頻AI

喜歡（11）
不喜歡（2）

本文轉載自互聯網，具體來源未知，或在文章中已說明來源，若有權利人發現，請聯系我們更正。本站尊重原創，轉載文章僅為傳遞更多信息之目的，并不意味著贊同其觀點或證實其內容的真實性。如其他媒體、網站或個人從本網站轉載使用，請保留本站注明的文章來源，并自負版權等法律責任。如有關于文章內容的疑問或投訴，請及時聯系我們。我們轉載此文的目的在于傳遞更多信息，同時也希望找到原作者，感謝各位讀者的支持！

本文鏈接：http://www.tondou.cn/post/1749.html