今天一早,朋友發來一張圖,說警方通報,三只羊盧總的錄音是合成的,問我AI現在能不能干這個事。
網上關于錄音的事炒的沸沸揚揚,各種陰謀論猜測。有人說酒后失言,一定是真的,畢竟這聲音和正常人說話沒啥區別。另一邊是替受害者打抱不平,但是又拿不出什么證據。
好吧,這次官方實錘了。在偽造者電腦、手機和AI音頻網站上發現了相關證據。
看到這里,我真的想噴了。AI技術的發展,是想推動生產提效,漂亮國為了阻止中國學習,甚至不惜損失用戶封了一批中國的賬號。
國內這些不懷好意的人,腦子里想的是用AI造謠炒熱度。有這精湛的技術,去找個好工作比啥不強?
作為一名AI愛好者,我覺得有必要科普一下,AI到底能不能達到三只羊盧總錄音的水平?
我可以明確的回答:能。
用秘塔AI的搜索功能,我大概整理了事情的經過。
簡單來說是辛巴和三只羊互相掐架,涉及商品問題、女主播糾紛。在輿論暴風眼上,爆出了三只羊董事長盧文慶全網炸裂的錄音。
信息量極大,總結來說就是盧總潛規則了三只羊所有女主播,點名看不起張一鳴,還辱罵消費者。
大概就是這么個事。大部分人的理解是,AI無法做出這么逼真的效果。畢竟從聲音上聽,有情緒、有背景音、有方言。
這段錄音到底是不是AI做的,答案已經很明顯了。
那么下一個問題是,AI如何做出這么逼真的聲音?
先來理清一個概念,AI分為很多類。
有AI繪圖(MJ、SD、FLUX等)、AI視頻(runway、可靈、即夢等)、AI文本對話(ChatGPT、Claud、kimi等等)、AI音頻(11Lab、Suno、GPT-Sovtis等)。
錄音門,屬于AI音頻范疇。而AI音頻又分為AI生成音樂,比如一段話生成Suno原創歌曲,以及AI生成聲音。
生成聲音的兩種方法,包括文本生成語音和AI換聲。
文本生成語音,簡稱為TTS,現在技術門檻很低。只需要5秒鐘的聲音素材,就能訓練出AI模型。接下來只需輸入文字,就能產出一段音頻。
比如我曾用睿聲克隆過自己的聲音,做AI短視頻的素材。
但是TTS的克隆方法,問題是無法還原出人類的語氣情緒和斷句,能很明顯的聽出來由AI合成。
在音視頻商用領域,比如做AI廣告宣傳片,都不會用這項技術。
之前大家覺得盧總聲音是真實的,也是覺得AI音頻的發展,還達不到以假亂真的程度。
的確,親身測試過大量工具,TTS的確無法還原人類的語氣。
但是TTS不行,不代表AI換聲不行。
例如AI換聲的核心技術SVC,它使用深度神經網絡來實現從一個人的聲音到另一個人聲音的轉換。
缺點是要采集30分鐘以上的音頻素材,把聲音素材煉成AI音頻模型,再用SVC換聲音,把音色替換過去。
優點很明顯,它能保留一個人所有的聲音特征,包括語調、情緒、方言、停頓等等,不同的只有音色。只要模型夠好,你根本無法識別出它是AI。
所以用SVC偽造盧總的聲音,步驟很簡單。
先在網上搜集盧總30分鐘以上的音頻,把他的聲音清洗后,煉成模型。找一個和他說相同方言的人,錄一段音頻,最后用SVC技術替換音色。
所以AI能否復刻盧總的聲音,答案是可行的。
講這么多,是我覺得每個人哪怕現在不用AI,也至少要了解AI的發展,能解決哪些降本增效的問題。如果哪一天個人或者公司想用,能第一時間找到解決方案。
而那些利用AI技術做違法犯罪的人,我勸你們把心思用到正確的地方。
學會一項技術也不容易,做點落地應用的產品多好,用不法手段謀利,最終結果一定是進去踩縫紉機。
不管是否愿意,AI的進步都不可阻擋,且不可逆,在接下來的幾年中滲透到各行各業。
我們學習AI,是想讓自己的生活過的更好,提高工作效率,賺取收入。
現在又多了一項任務——保護好自己和家人。
本文鏈接:http://www.tondou.cn/post/1749.html ,轉載需注明文章鏈接來源:http://www.tondou.cn/
- 喜歡(11)
- 不喜歡(2)