作為開源AI模型領域的領頭羊,Meta的Llama系列模型在持續迭代,不斷進化。就在近日的Meta Connect 2024大會上,Meta推出了新版本的Llama模型——Llama 3.2。
省流版摘要
Llama 3.2 正式發布:包括小型和中型視覺大模型(11B和90B),以及輕量級的文本模型(1B和3B),適用于邊緣設備和移動設備,并提供預訓練和指令微調版本。
輕量模型表現突出:1B和3B模型支持128K的上下文長度,在設備端的任務(如摘要生成、指令執行、文本改寫)中表現卓越,適配高通、聯發科硬件,并針對Arm處理器進行了優化。
視覺模型超越封閉模型:Llama 3.2的11B和90B視覺模型可以直接替代對應文本模型,在圖像理解任務上超過了Claude 3 HAIku等封閉模型,支持本地微調和部署。
Llama Stack 分布方案:首次推出官方的Llama Stack分布,簡化了在單節點、本地部署、云端和設備端使用Llama模型的工作流程,支持RAG(檢索增強生成)等集成安全的應用。
廣泛合作伙伴支持:與AWS、Databricks、戴爾科技等合作伙伴協作,為企業客戶構建了Llama Stack分布方案。設備端通過PyTorch ExecuTorch實現,單節點通過OLlama支持。
堅持開放創新:Llama 繼續在開放性、可修改性和成本效益方面引領行業,幫助更多人通過生成式AI實現創意突破。Llama 3.2模型現已可在llama.com和Hugging Face下載,并支持多家合作平臺即時開發。
為什么推出Llama 3.2
Llama 3.2的推出,是對開發者需求的積極響應。Llama 3.1系列模型發布至今已有兩個月,其中最引人注目的是405B模型,它是首個開源的前沿級AI模型。然而,Llama 3.1系列盡管性能卓越,但在實際應用中,搭建這些模型往往需要大量的計算資源和專業知識。如何能夠在有限的資源條件下,依然享受Llama模型帶來的先進功能?Llama 3.2在這樣的背景下應運而生。
Llama 3.2的核心目標是讓更廣泛的開發者,尤其是在邊緣設備和移動設備上構建應用的開發者,能夠利用輕量且高效的模型進行開發。通過引入1B和3B的輕量級文本模型,以及11B和90B的視覺大模型,Llama 3.2為設備端的應用提供支持。此外,Llama 3.2還進一步優化了對高通、聯發科等硬件的支持,并針對Arm處理器進行了精細優化,確保在邊緣設備上的性能表現出色。
Llama 3.2核心能力
Llama 3.2系列中的兩款大模型——11B和90B,專為圖像推理任務而設計,支持多種視覺理解應用場景,如文檔級別的圖表和圖像解析、圖像標注以及基于自然語言描述的視覺定位任務。例如,可以通過問題詢問上一年度哪個月企業的銷售表現最佳,Llama 3.2會根據提供的圖表快速推理并給出答案。在另一個場景中,模型還可以通過分析地圖,回答某條遠足路線何時變得陡峭或特定路徑的距離。Llama 3.2模型不僅能夠從圖像中提取細節,還能理解場景的整體內容,生成適合的圖像說明,使得視覺與語言之間的鴻溝得以彌合。
輕量級的1B和3B模型則在多語言文本生成和工具調用能力上表現出色。這些模型能夠幫助開發者構建個性化的本地化智能應用,確保數據隱私不離開設備本身。比如,一個這樣的應用可以幫助用戶總結最近收到的10條消息,提取其中的待辦事項,并直接通過工具調用發送會議跟進邀請。
在本地運行這些模型具有兩個顯著優勢。首先,提示詞和模型響應的處理速度更快,因為所有操作都在本地進行。其次,本地化運行能夠保持數據隱私,避免諸如消息或日歷等信息上傳至云端,從而確保應用的隱私性更高。由于處理均在本地完成,開發者和用戶可以完全掌控哪些查詢留在設備上處理,哪些查詢可能需要更大的模型在云端完成。
Llama 3.2模型評估
經過評估,Llama 3.2視覺模型在圖像識別和多種視覺理解任務上,表現與當前領先的基礎模型Claude 3 Haiku和GPT-4o mini相當。尤其是3B模型,在指令執行、摘要生成、提示詞改寫和工具使用等任務上,超越了Gemma 2 2.6B和Phi 3.5-mini等競爭對手;而1B模型在多項任務中與Gemma系列的表現不相上下。
Llama 3.2模型的性能評估基于超過150個基準數據集,這些數據集涵蓋了多種語言和任務類型。對于視覺大語言模型,主要評估了其在圖像理解和視覺推理任務中的表現,結果顯示Llama 3.2在這些關鍵任務上具備領先優勢。
視覺指令微調基準測試
在視覺指令微調基準測試(Vision Instruction-Tuned Benchmarks)中,Llama 3.2的11B和90B模型表現出色,尤其在視覺推理、圖表理解和問答任務上,整體表現優于Claude 3 - Haiku,甚至在某些任務上超越了GPT-4o-mini。
圖像推理任務:
在復雜圖表理解任務(如ChartQA和AI2 Diagram)上,Llama 3.2的90B模型得分最高,超越了其他模型。
在DocVQA(文檔視覺問答)任務中,Llama 3.2的表現與Claude 3 - Haiku接近,但仍然稍有領先。
數學與推理任務:
Llama 3.2在MATH和MMMU任務上的表現強勁,尤其是90B模型,遠遠超越了Claude 3 - Haiku。
文本任務:
Llama 3.2在GPQA(推理)和MMLU(通用推理)等文本任務中的表現同樣很好,特別是90B模型在多語言推理任務(MGSM)上表現優異。
輕量級指令微調基準測試
在輕量級指令微調基準測試(Lightweight Instruction-Tuned Benchmarks)中,Llama 3.2系列的1B和3B模型在多項任務中表現優異,尤其在工具使用、數學推理和多語言推理等方面展現了較強的競爭力。其中,Llama 3.2 3B在BFCL V2工具使用任務中以67.0分領先,在多語言推理任務MGSM中,Llama 3.2 3B取得了58.2分,顯示出其在設備端應用中的強大能力。
通用任務:
在MMLU(5-shot)任務中,Llama 3.2 3B以63.4分表現出色,超越了Gemma 2 2B IT,但略低于Phi-3.5-mini IT的69.0分。
在Open-rewrite eval任務中,Llama 3.2系列模型整體領先,Llama 3.2 1B和Llama 3.2 3B分別得分41.6和40.1.優于其他對比模型。
工具使用:
Llama 3.2 3B在BFCL V2工具使用任務中表現優異,以67.0分大幅領先于其他模型,顯示出其在調用工具任務中的強大能力。
數學推理:
在GSM8K任務中,Llama 3.2 3B表現優異,獲得77.7分,超過了Gemma 2 2B IT的62.5分,但Phi-3.5-mini IT依然以86.2分在該任務上領先。
MATH任務中,Llama 3.2 3B取得48.0分,同樣遠超Gemma 2 2B IT和Phi-3.5-mini IT。
推理能力:
Llama 3.2 3B在ARC Challenge推理任務中取得78.6分,略勝于Gemma 2 2B IT,但仍低于Phi-3.5-mini IT的87.4分。
多語言任務:
在MGSM(0-shot)任務中,Llama 3.2 3B的58.2分顯著超越了其他模型,表明其在多語言推理任務上的卓越表現。
視覺模型
Llama 3.2的11B和90B模型是首次支持視覺任務的Llama模型。為支持圖像輸入,這些模型采用了全新的架構,具備圖像推理能力。模型通過引入一組專門訓練的適配器權重,將預訓練的圖像編碼器與預訓練的語言模型進行集成。這些適配器由一系列交叉注意力層組成,將圖像編碼器的表示傳遞給語言模型,確保圖像和語言的表示能夠很好地對齊。
在訓練過程中,首先使用包含大量噪聲的圖像-文本對數據進行預訓練,然后再通過中等規模的高質量、領域內和知識增強的圖像-文本對數據進行進一步訓練。在適配器訓練階段,僅更新圖像編碼器的參數,而保留語言模型的參數不變,以確保其原有的文本處理能力不受影響,使得開發者能夠將其作為Llama 3.1模型的直接替代方案。
在模型的后期訓練中,采用了與文本模型相似的調優方法,結合多輪的監督微調、拒絕采樣和直接偏好優化。通過使用生成的數據,結合領域內的圖像進行問題和答案的生成,確保微調數據的高質量,并引入安全緩解數據,確保模型在保持有效性的同時具備高安全性。
最終,Llama 3.2的視覺模型能夠同時處理圖像和文本提示,具備深度理解和推理能力。
輕量級模型
與Llama 3.1一樣,Llama 3.2借助強大的教師模型(Teacher Model),成功打造出性能優異的輕量級模型。通過剪枝(Pruning)和知識蒸餾(Knowledge Distillation)兩種技術手段,Llama 3.2的1B和3B模型首次實現了在設備端高效運行的能力,成為輕量化Llama模型中的佼佼者。
剪枝技術的應用使得模型體積得以縮減,但依然保留了盡可能多的知識和性能。通過結構化剪枝,對Llama 3.1 8B模型進行精細化調整,系統性地移除部分網絡節點,并調整權重和梯度的大小,從而生成一個更小、更高效的模型,同時保持原網絡的性能。
知識蒸餾則通過將較大網絡的知識傳遞給較小網絡,從而提升小模型的性能。在Llama 3.2的1B和3B模型中,結合了來自Llama 3.1 8B和70B模型的logits,將這些輸出作為預訓練階段的目標進行訓練,隨后在剪枝后通過蒸餾技術恢復模型的性能。
在后期訓練中,采用與Llama 3.1類似的流程,通過多輪對預訓練模型的對齊,包括監督微調、拒絕采樣和直接偏好優化,生成最終的對話模型。此外,支持的上下文長度擴展至128K tokens,同時保證了與預訓練模型相同的質量水平。為了確保數據質量,還使用了合成數據生成技術,經過精細處理和過濾,以優化模型在摘要生成、文本改寫、指令執行、語言推理和工具使用等多項能力上的表現。
為進一步推動輕量模型在移動設備上的應用,Llama 3.2與高通、聯發科以及Arm緊密合作,這三家公司在全球移動設備處理器市場占據重要地位,確保模型能在99%的移動設備上高效運行。發布的模型權重基于BFloat16數值,量化變體也正在積極研發中,未來將進一步提升運行速度。
Llama Stack 分布方案
Meta于7月發布了關于Llama Stack API的意見征集,旨在提供一個標準化的接口,支持對Llama模型進行微調、生成合成數據等工具鏈組件的自定義化。
經過數月,Llama團隊將該API從概念化變為實際應用,開發了API的參考實現,涵蓋了推理、工具調用和檢索增強生成(RAG)等功能。最終推出了Llama Stack分布方案,通過將多個API服務提供商打包為一個單一的端點,簡化了開發者在不同環境中使用Llama模型的體驗,無論是本地部署、云端還是設備端。
Llama Stack分布方案的完整發布內容包括:
Llama CLI:命令行工具,用于構建、配置和運行Llama Stack分布方案
多種語言的客戶端代碼支持,包括Python、Node、Kotlin和Swift
適用于Llama Stack分布服務器和代理API服務提供商的Docker容器
多種分布方案支持
單節點Llama Stack分布(通過Meta內部實現和Ollama)
云端分布方案(支持AWS、Databricks、Fireworks和Together)
設備端分布方案(通過PyTorch ExecuTorch在iOS上實現)
本地部署分布方案(戴爾支持的On-prem)
如何使用Llama 3.2
Hugging Face: Llama 3.2的各類模型,包括輕量級的1B和3B文本模型,以及支持圖像處理的11B和90B視覺模型,均可在Hugging Face上下載和使用。這是開發者進行模型微調、實驗以及集成到不同應用中的一個常見平臺。
Amazon Bedrock 和 SageMaker: Llama 3.2模型在Amazon Bedrock和SageMaker上支持云端部署。用戶可以通過這些平臺進行模型推理,并支持多區域推理端點,方便開發者進行程序化調用。此外,Amazon SageMaker JumpStart還提供了微調和模型部署的能力,使開發者能夠定制Llama 3.2模型以滿足特定應用需求。
Azure AI: Llama 3.2模型在Microsoft Azure AI平臺上也可以使用,提供了無服務器的API部署方案。Azure上不僅支持Llama模型的標準推理,還集成了內容安全功能,幫助開發者在構建AI應用時遵守合規要求。
本文鏈接:http://www.tondou.cn/post/1758.html ,轉載需注明文章鏈接來源:http://www.tondou.cn/
- 喜歡(11)
- 不喜歡(3)