Inception Labs 推出 Mercury:首個商業級擴散大型語言模型(dLLM)

Mercury Coder:以擴散模型重塑代碼生成未來

2025 年 2 月 26 日,Inception Labs 宣布推出其最新研發的擴散大型語言模型(Diffusion Large Language Models,簡稱 dLLMs)系列,命名為 Mercury https://www.inceptionlabs.ai/news。這一創新技術旨在突破傳統自回歸大型語言模型(LLMs)的限制,提供更快速且高效的文本生成能力。

autoregressive LLM vs dLLM

擴散模型:重新定義文本生成

傳統的 LLMs 採用自回歸方式,從左到右逐字生成文本,這種順序性導致生成速度受限,且每個標記的生成都需要評估包含數十億參數的神經網絡。相較之下,Mercury 採用了擴散模型技術,從純隨機噪聲開始,通過多次「去噪」步驟,逐步生成高質量的文本。這種「由粗到細」的生成方式,使得 Mercury 能夠在 NVIDIA H100 GPU 上實現每秒超過 1000 個 tokens 的生成速度,這在過去僅能依賴定制晶片 (如 groq 的晶片) 才能達成。

為何選擇擴散模型?Inception Labs 的技術考量

Inception Labs 選擇擴散模型作為其核心技術,主要基於以下考量:

  1. 平行生成提升速度:擴散模型能夠平行生成多個標記,打破了自回歸模型逐字生成的限制,大幅提升生成速度。

  2. 降低運算成本:透過更高效地利用 GPU 資源,擴散模型在生成文本時所需的計算資源更少,從而降低了運行成本。

  3. 強化推理與錯誤修正能力:擴散模型具備持續修正輸出內容的能力,能有效減少錯誤和幻覺,提升文本的準確性和一致性。

  4. 多模態融合的潛力:由於擴散模型已廣泛應用於影像、影片和音頻生成,這使得其在處理多模態任務時具備天然的優勢,有助於未來實現更豐富的應用場景。

dLLMs 與傳統 LLM 架構的相容性

傳統的 LLM 公司,如 OpenAI 和 Google,主要採用自回歸架構進行文本生成。然而,dLLMs 的出現為這些公司提供了新的選擇。由於 dLLMs 能夠平行生成多個標記,並在推理和錯誤修正方面具備優勢,傳統 LLM 公司可以考慮將 dLLMs 整合到現有系統中,以提升模型的性能和效率。這需要對現有的基礎設施和模型進行調整,但從長遠來看,這種轉變可能帶來顯著的效益。

在推理相容性方面,dLLMs 的非順序生成特性可能與現有的推理方法(如 Chain of Thought,CoT)存在差異。CoT 技術旨在增強 LLM 的推理能力,透過生成中間推理步驟來提高模型的解題能力。然而,dLLMs 的平行生成方式可能不完全適用於傳統的 CoT 方法,因為 CoT 通常依賴於順序性的推理步驟。

為了適應 dLLMs 的特性,傳統 LLM 公司需要調整提示策略和模型架構。例如,開發新的提示技術,使模型能夠在平行生成的過程中有效地進行推理。此外,結合符號邏輯推理的方法,如 Symbolic Chain-of-Thought(SymbCoT),可能有助於在 dLLMs 中實現更精確的邏輯推理。

總體而言,dLLMs 的引入為傳統 LLM 公司提供了新的機遇,但也帶來了挑戰。成功的整合需要在模型訓練、推理策略和基礎設施方面進行相應的調整,以充分發揮 dLLMs 的優勢,同時確保與現有推理方法的相容性。

Mercury Coder:高效的代碼生成模型

作為 Mercury 系列的首個公開模型,Mercury Coder 專注於代碼生成領域。當前的代碼生成模型多採用自回歸方式,逐行生成代碼,這可能導致速度緩慢且容易引入錯誤。相較之下,Mercury Coder 利用擴散模型的平行生成特性,能夠同時生成多行代碼,大幅提升生成速度和準確性。

在多項標準編程基準測試中,Mercury Coder 的表現超越了許多現有的速度優化模型,如 GPT-4o Mini 和 Claude 3.5 Haiku,同時速度提升達 5 到 10 倍。這使得開發者能夠以更低的成本,獲得高質量的代碼生成結果。

實際應用案例:Mercury Coder 在真實世界中的應用

Mercury Coder 的高效能和準確性使其在多個領域展現出廣泛的應用潛力:

  1. 軟體開發中的代碼自動生成

    在傳統的軟體開發過程中,開發者需要耗費大量時間編寫重複性、基礎性的程式碼,這不僅降低開發效率,也增加了人為錯誤的機率。透過 Mercury Coder,開發團隊可快速生成程式碼框架,尤其適合前端元件、後端 API、自動化測試腳本的生成,大幅提升開發速度與可靠性。

  2. 錯誤檢測與程式碼修正
    Mercury Coder 的平行生成特性,可同時處理程式碼的多個段落,能快速比對程式碼與最佳實踐的差異,精準定位並修正可能出現的漏洞或邏輯錯誤。這種即時錯誤檢測與修正能力,使開發者能專注於更具創造力和複雜度的工作。

  3. 編程教育與學習輔助工具
    在教育領域,學習者經常因為程式碼的複雜性與錯誤資訊的模糊性而感到挫折。Mercury Coder 提供即時的程式碼提示與錯誤修正,協助初學者更快掌握編程技巧與概念。同時,它可生成具解說性的程式碼範例,讓學習者透過實作快速理解抽象的編程邏輯,強化學習效果。

  4. 企業內部程式碼管理與品質監控
    許多企業需要維護大量現有的軟體系統,Mercury Coder 的擴散模型可以幫助企業快速審核與改善內部程式碼品質,使團隊更容易進行代碼重構與系統升級,大幅降低技術債務的管理成本。

Inception Labs:專注於擴散模型的先驅

Inception Labs 由來自史丹佛大學、加州大學洛杉磯分校與康奈爾大學等機構的頂尖研究人員組成,團隊在擴散模型領域累積了深厚的技術基礎。團隊創新的「Score Entropy Discrete Diffusion(SEDD)」技術,不僅首次將擴散模型成功應用於離散型數據如文本和程式碼,也為未來更複雜的多模態 AI 奠定了堅實的技術基礎。

團隊成員相信,未來的 AI 將趨向於跨領域整合,而擴散模型天然的多模態能力使其成為最適合未來 AI 應用的架構之一。