ChatGPT實(shí)時(shí)語(yǔ)音將于本周向免費(fèi)用戶推出：OpenAI DevDay 2024詳細(xì)解讀

石南11162024-10-03 18:40:57

北美時(shí)間2024年10月1日，2024年度的OpenAI開發(fā)者大會(huì)(OpenAI DevDay 2024)如期而至。

ChatGPT實(shí)時(shí)語(yǔ)音將于本周向免費(fèi)用戶推出：OpenAI DevDay 2024詳細(xì)解讀第1張

1. ChatGPT實(shí)時(shí)語(yǔ)音將于本周向免費(fèi)用戶推出

在OpenAI DevDay 2024的最新更新中，OpenAI宣布從本周開始，實(shí)時(shí)語(yǔ)音功能(Advanced Voice Mode)將面向全球所有ChatGPT Enterprise、Edu和Team用戶推出。此外，免費(fèi)用戶也將能夠搶先體驗(yàn)到這一功能。

ChatGPT實(shí)時(shí)語(yǔ)音將于本周向免費(fèi)用戶推出：OpenAI DevDay 2024詳細(xì)解讀第2張

雖然OpenAI如是說(shuō)，但不出意外，ChatGPT免費(fèi)用戶應(yīng)該是只能夠短暫體驗(yàn)實(shí)時(shí)語(yǔ)音功能(Advanced Voice Mode)這一新功能。畢竟對(duì)于ChatGPT Plus用戶，實(shí)時(shí)語(yǔ)音功能也是有著聊天時(shí)長(zhǎng)限制的，超過(guò)規(guī)定的聊天時(shí)長(zhǎng)后，語(yǔ)音模式將會(huì)自動(dòng)切換為標(biāo)準(zhǔn)語(yǔ)音模式(標(biāo)準(zhǔn)語(yǔ)音模式)。

目前OpenAI并沒有給出明確的聊天時(shí)長(zhǎng)限制，只是表示聊天時(shí)長(zhǎng)的限制可能會(huì)隨著計(jì)算資源而動(dòng)態(tài)調(diào)整。聊天時(shí)長(zhǎng)達(dá)到上限前15分鐘，ChatGPT會(huì)發(fā)出通知提醒。

ChatGPT實(shí)時(shí)語(yǔ)音將于本周向免費(fèi)用戶推出：OpenAI DevDay 2024詳細(xì)解讀第3張

2. Realtime API

對(duì)于開發(fā)者，OpenAI推出了Realtime API，允許開發(fā)者在其應(yīng)用中構(gòu)建快速的語(yǔ)音聊天體驗(yàn)，類似于上面提到的ChatGPT實(shí)時(shí)語(yǔ)音模式(Advanced Voice Mode)，但適用于開發(fā)者自己的應(yīng)用。此API以低延遲提供自然的語(yǔ)音對(duì)話，現(xiàn)已面向付費(fèi)開發(fā)者以公測(cè)形式推出。除了Realtime API，OpenAI還在其Chat Completions API中增加了音頻輸入和輸出功能，開發(fā)者無(wú)需再將多個(gè)模型組合使用，單次API調(diào)用即可實(shí)現(xiàn)自然的語(yǔ)音對(duì)話體驗(yàn)。

主要特點(diǎn)：

低延遲的多模態(tài)體驗(yàn)：開發(fā)者可利用Realtime API實(shí)現(xiàn)快速的語(yǔ)音到語(yǔ)音轉(zhuǎn)換，并支持在對(duì)話中插入功能調(diào)用，使語(yǔ)音助手可以執(zhí)行操作或拉取上下文。

典型應(yīng)用場(chǎng)景：可用于客戶服務(wù)、語(yǔ)言學(xué)習(xí)、健康和健身教練等場(chǎng)景，提供自然流暢的語(yǔ)音交互。

音頻定價(jià)：Realtime API支持文本和音頻輸入輸出，按token分別計(jì)費(fèi)，價(jià)格為每百萬(wàn)個(gè)輸入音頻tokens 100美元，每百萬(wàn)個(gè)輸出音頻tokens 200美元。

安全與隱私：Realtime API具備多層安全防護(hù)，防止濫用，并對(duì)用戶輸入輸出進(jìn)行監(jiān)控。

ChatGPT實(shí)時(shí)語(yǔ)音將于本周向免費(fèi)用戶推出：OpenAI DevDay 2024詳細(xì)解讀第4張

3. 在Playground中自動(dòng)生成Prompt

在OpenAI DevDay的更新中，OpenAI在Playground推出了自動(dòng)生成Prompt提示詞的功能。此功能可以幫助開發(fā)者更快地將想法轉(zhuǎn)化為原型。開發(fā)者只需簡(jiǎn)單描述其使用模型的目的，Playground就會(huì)自動(dòng)生成提示、有效的函數(shù)架構(gòu)和結(jié)構(gòu)化輸出格式，讓開發(fā)者更輕松地進(jìn)行原型設(shè)計(jì)。

ChatGPT實(shí)時(shí)語(yǔ)音將于本周向免費(fèi)用戶推出：OpenAI DevDay 2024詳細(xì)解讀第5張

用過(guò)Claude控制臺(tái)的小伙伴應(yīng)該可以聯(lián)想到，OpenAI新推出的這個(gè)功能對(duì)標(biāo)的就是Claude幾個(gè)月前在控制臺(tái)添加的自動(dòng)生成提示詞的功能。詳情可以看我這篇文章：《Claude更新王炸功能：一鍵生成、評(píng)估、優(yōu)化提示詞！》。

4. Prompt Caching(提示緩存)

此外，OpenAI推出了Prompt Caching(提示緩存)功能，讓開發(fā)者能夠降低使用成本并加快提示詞處理速度。此功能可自動(dòng)對(duì)模型最近處理過(guò)的輸入令牌進(jìn)行緩存，開發(fā)者可以以50%的折扣價(jià)格重復(fù)使用這些令牌，并且不會(huì)影響延遲。

ChatGPT實(shí)時(shí)語(yǔ)音將于本周向免費(fèi)用戶推出：OpenAI DevDay 2024詳細(xì)解讀第6張

主要特點(diǎn)：

折扣與定價(jià)：對(duì)于已經(jīng)緩存的輸入令牌，開發(fā)者可以獲得50%的折扣。例如，GPT-4o模型的未緩存輸入令牌費(fèi)用為每百萬(wàn)tokens 2.50美元，而緩存令牌的費(fèi)用為1.25美元。

自動(dòng)應(yīng)用：Prompt Caching將自動(dòng)應(yīng)用于最新版本的GPT-4o、GPT-4o mini、o1-preview和o1-mini模型，以及它們的微調(diào)版本。提示內(nèi)容超過(guò)1024個(gè)令牌時(shí)，API會(huì)自動(dòng)緩存，開發(fā)者無(wú)需修改API集成。

緩存清除：緩存通常在5到10分鐘不活躍后清除，并在最后一次使用后一小時(shí)內(nèi)完全移除。

企業(yè)隱私承諾：緩存不會(huì)在組織之間共享，且遵循OpenAI的企業(yè)隱私協(xié)議。

最后提一句，OpenAI這次推出的Prompt Caching(提示緩存)功能對(duì)標(biāo)的也是Claude在今年8月推出的同名稱的功能。

ChatGPT實(shí)時(shí)語(yǔ)音將于本周向免費(fèi)用戶推出：OpenAI DevDay 2024詳細(xì)解讀第7張

5. Model Distillation(模型蒸餾)

OpenAI在本次更新中推出了Model Distillation(模型蒸餾)功能，這是一個(gè)用于微調(diào)較小、成本效益更高模型的工作流程，利用大型模型(如GPT-4o或o1-preview)的輸出來(lái)提升性能。

ChatGPT實(shí)時(shí)語(yǔ)音將于本周向免費(fèi)用戶推出：OpenAI DevDay 2024詳細(xì)解讀第8張

模型蒸餾的主要功能：

存儲(chǔ)完成（Stored Completions）：開發(fā)者可以通過(guò)API捕捉并存儲(chǔ)模型生成的輸入輸出對(duì)，生成用于微調(diào)的數(shù)據(jù)集。這使得使用生產(chǎn)數(shù)據(jù)構(gòu)建數(shù)據(jù)集變得更加簡(jiǎn)單，以便評(píng)估和微調(diào)較小的模型。

評(píng)估（Evals，測(cè)試版）：開發(fā)者可以在OpenAI平臺(tái)上創(chuàng)建和運(yùn)行自定義評(píng)估，以衡量模型在特定任務(wù)上的性能。Evals與微調(diào)流程完全集成，也可以獨(dú)立使用來(lái)評(píng)估模型性能。

微調(diào)集成：存儲(chǔ)完成和評(píng)估工具與現(xiàn)有的微調(diào)功能相結(jié)合，開發(fā)者可以使用存儲(chǔ)的完成數(shù)據(jù)集進(jìn)行微調(diào)，并使用Evals測(cè)試微調(diào)后的模型性能。

模型蒸餾工作流程：

通過(guò)Evals創(chuàng)建一個(gè)評(píng)估，以測(cè)試目標(biāo)模型(如GPT-4o mini)的性能。

使用Stored Completions生成真實(shí)世界任務(wù)的數(shù)據(jù)集，將大型模型(如GPT-4o)的輸出作為微調(diào)的基準(zhǔn)數(shù)據(jù)。

使用生成的數(shù)據(jù)集微調(diào)較小的模型(如GPT-4o mini)，并通過(guò)Evals不斷測(cè)試其性能。

模型蒸餾定價(jià)與可用性：

Model Distillation(模型蒸餾)功能現(xiàn)已向所有開發(fā)者開放，支持所有OpenAI模型。開發(fā)者每天可以獲得2百萬(wàn)個(gè)免費(fèi)訓(xùn)練令牌用于GPT-4o mini，直到10月31日。此外，存儲(chǔ)完成是免費(fèi)的，而Evals在2024年底之前，每周最多可運(yùn)行7次免費(fèi)的評(píng)估，條件是開發(fā)者選擇將其評(píng)估共享給OpenAI以改進(jìn)未來(lái)的模型。

6. Vision Fine-tuning(視覺微調(diào))

OpenAI宣布在其微調(diào)API中添加了對(duì)視覺微調(diào)的支持，開發(fā)者現(xiàn)在可以使用圖像和文本微調(diào)GPT-4o。這一功能為圖像理解任務(wù)提供了更強(qiáng)大的定制能力，適用于增強(qiáng)視覺搜索、改進(jìn)自動(dòng)駕駛的物體檢測(cè)、或更精確的醫(yī)學(xué)圖像分析等應(yīng)用。

主要特點(diǎn)：

圖像和文本結(jié)合微調(diào)：開發(fā)者可以通過(guò)上傳圖像數(shù)據(jù)集來(lái)增強(qiáng)GPT-4o的視覺處理能力，并且只需100張圖像即可實(shí)現(xiàn)顯著性能提升。隨著圖像和文本數(shù)據(jù)量的增加，性能將進(jìn)一步提升。

真實(shí)世界應(yīng)用：通過(guò)與合作伙伴的測(cè)試，GPT-4o在改進(jìn)道路圖像檢測(cè)、自動(dòng)化企業(yè)流程以及優(yōu)化網(wǎng)站設(shè)計(jì)等領(lǐng)域表現(xiàn)出色。例如，Grab 使用視覺微調(diào)改進(jìn)了道路標(biāo)志定位準(zhǔn)確性，Automat 提高了桌面機(jī)器人在識(shí)別UI元素時(shí)的成功率，Coframe 則通過(guò)視覺微調(diào)提升了網(wǎng)站設(shè)計(jì)的一致性。

視覺微調(diào)定價(jià)與可用性：

視覺微調(diào)現(xiàn)已向所有付費(fèi)開發(fā)者開放，并支持最新的GPT-4o模型(gpt-4o-2024-08-06)。OpenAI提供了免費(fèi)的視覺微調(diào)訓(xùn)練令牌，2024年10月31日前每天最多100萬(wàn)免費(fèi)令牌。之后，微調(diào)訓(xùn)練將按每百萬(wàn)tokens 25美元收費(fèi)，推理過(guò)程則按每百萬(wàn)輸入tokens 3.75美元、輸出tokens 15美元計(jì)費(fèi)。

7. 擴(kuò)大o1模型API的使用權(quán)限

OpenAI宣布擴(kuò)大o1模型API的使用權(quán)限，允許賬號(hào)使用級(jí)別第3層(usage tier 3)的開發(fā)者訪問(wèn)，并提升了調(diào)用速率限制，使其與GPT-4o的速率限制相同，以滿足生產(chǎn)級(jí)別的應(yīng)用開發(fā)。

第 5 層：o1-preview每分鐘10.000個(gè)請(qǐng)求，o1-mini每分鐘30.000個(gè)請(qǐng)求。

第 4 層：o1-preview和o1-mini均為每分鐘10.000個(gè)請(qǐng)求。

第 3 層：o1-preview和o1-mini均為每分鐘5.000個(gè)請(qǐng)求。

ChatGPT實(shí)時(shí)語(yǔ)音將于本周向免費(fèi)用戶推出：OpenAI DevDay 2024詳細(xì)解讀第9張

ChatGPT

本文鏈接：http://www.tondou.cn/post/1761.html ,轉(zhuǎn)載需注明文章鏈接來(lái)源：http://www.tondou.cn/

分享到：

標(biāo)簽：ChatGPT Open AI

喜歡（11）
不喜歡（3）

本文轉(zhuǎn)載自互聯(lián)網(wǎng)，具體來(lái)源未知，或在文章中已說(shuō)明來(lái)源，若有權(quán)利人發(fā)現(xiàn)，請(qǐng)聯(lián)系我們更正。本站尊重原創(chuàng)，轉(zhuǎn)載文章僅為傳遞更多信息之目的，并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性。如其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)站轉(zhuǎn)載使用，請(qǐng)保留本站注明的文章來(lái)源，并自負(fù)版權(quán)等法律責(zé)任。如有關(guān)于文章內(nèi)容的疑問(wèn)或投訴，請(qǐng)及時(shí)聯(lián)系我們。我們轉(zhuǎn)載此文的目的在于傳遞更多信息，同時(shí)也希望找到原作者，感謝各位讀者的支持！

本文鏈接：http://www.tondou.cn/post/1761.html