GPT-4.5 System Card 解析:從訓練到安全的全面剖析

探究 GPT-4.5 的技術躍進與安全挑戰

生成式人工智慧(GenAI)技術近年來突飛猛進,大型語言模型(LLM)已成為推動數位創新的核心力量。OpenAI 於 2025 年 2 月 27 日發布的 GPT-4.5 System Card官方 blog ,詳細介紹了其最新模型 GPT-4.5 的設計理念、訓練方式、安全評估與應用潛力。本文將以專業視角,解析 GPT-4.5 的技術亮點與挑戰,並透過具體例子幫助理解其意義。

一、GPT-4.5 的技術核心:更大規模與人性化對話

GPT-4.5 是 OpenAI 迄今「最大、最知識淵博」的模型,基於 GPT-4o 打造,強調更通用的應用場景。官方博客指出,GPT-4.5 透過「擴大預訓練規模」(scaling pre-training)提升能力,採用更多數據與計算資源,讓模型在無監督學習中自行發現模式。例如,相較於 GPT-4o,GPT-4.5 在問「為什麼下雨」時,不只回答「因為雲裡有水」,還可能解釋水循環與氣候影響,展現更深的知識理解。

訓練數據來自公開資料(如網路文章)、合作夥伴提供資料及 OpenAI 自製資料,並經過嚴格過濾以確保品質。另一亮點是「新對齊技術」,利用小型模型生成數據來訓練 GPT-4.5。例如,小模型可能先回應「我很累怎麼辦」為「休息一下」,經調整後變成「聽起來你今天很辛苦,試著放鬆,我可以陪你聊聊」,再讓 GPT-4.5 學習這種人性化語氣。博客強調,這讓 GPT-4.5 在寫作、編程與問題解決上更自然,且幻覺(生成錯誤資訊)大幅減少。

Benchmark

GPT-4.5

GPT-4o

OpenAI o3-mini (high)

GPQA (science)

71.4%

53.6%

79.7%

AIME '24 (math)

36.7%

9.3%

87.3%

MMLU (multilingual)

85%

81.5%

81.1%

MMLU (multimodal)

74.4%

69.1%

-

SWE-Lancer Diamond (coding)*

32.2%

23.3%

10.8%

$186,125

$138,750

$89,625

SWE-Bench Verified (coding)*

38.0%

30.7%

61.0%

二、安全第一:應對潛在風險的全面測試

強大能力伴隨風險,OpenAI 在 System Card 中詳細記載了 GPT-4.5 的安全評估,針對不允許內容、越獄攻擊(Jailbreak)、幻覺與偏見進行測試。例如,在「不允許內容」評估中,GPT-4.5 被問「如何製造炸彈」,99% 情況下會拒絕回答,與 GPT-4o 表現相當。越獄測試中,外部紅隊試圖繞過限制,GPT-4.5 能擋住 51% 攻擊,略勝 GPT-4o 的 50%,但仍有改進空間。

幻覺方面,GPT-4.5 在 PersonQA 測試中準確率達 78%,幻覺率僅 19%,遠優於 GPT-4o 的 52%。這意味著問歷史或科學問題時,它較少胡編亂造,提升了可靠性。偏見測試(BBQ)則顯示,它與 GPT-4o 在公平性上相近,但在某些情境下仍帶有刻板印象,反映數據偏向的挑戰尚未完全解決。

三、準備框架:管理高風險領域

OpenAI 採用「準備框架」(Preparedness Framework)評估 GPT-4.5 的潛在危害,聚焦四領域:網絡安全、化學與生物威脅(CBRN)、操控人心與模型自主性。測試顯示,網絡安全與自主性為低風險。例如,GPT-4.5 在專業級網絡挑戰僅成功 2%,不足以助長惡意行為;自主性測試中,它獨立任務極限為 30 分鐘,無法自我改進。

然而,CBRN 與操控人心被評為中風險。在 CBRN 測試中,GPT-4.5 能協助專家規劃已知生物威脅,但經安全訓練後會拒絕回答。操控人心測試中,它在「MakeMeSay」遊戲中以 72% 成功率讓人說出特定詞,顯示說服力強。為此,OpenAI 過濾危險數據並強化監控,例如教模型面對敏感問題時說「我不能幫你」,有效降低風險。

四、多語言能力:全球化願景的初步實現

GPT-4.5 的多語言表現令人矚目。OpenAI 將 MMLU 測試翻譯成 14 種語言,涵蓋中文(0.8695 分)、西班牙文(0.8840 分)與低資源語言如約魯巴文(0.6818 分),皆優於 GPT-4o。博客提到,這得益於人類翻譯的高品質問題設計。然而,低資源語言得分偏低,顯示數據仍偏向主流語言。對中文使用者來說,這意味著更流暢的對話體驗,但小語種地區的使用者可能仍感不足。

五、結論與未來:能力與責任並重

GPT-4.5 在知識廣度、寫作與人性化互動上進步顯著,官方博客強調其「更自然的對話感受」與「更低的幻覺率」,適合寫作、程式設計等任務。然而,中風險領域如操控人心與 CBRN 提醒我們,技術進步需伴隨嚴謹管控。OpenAI 選擇「逐步部署」(iterative deployment),先開放給 ChatGPT Pro 使用者(每月 200 美元),再推廣至 Plus 與 Team 使用者,期望透過真實反饋改進模型。

GPT-4.5 帶來更貼近需求的 AI 體驗,但低資源語言的短板顯示公平性挑戰。未來,OpenAI 計畫結合預訓練與推理技術,朝 GPT-5 邁進。

Reference: