The AI Optimization Digest
Posts
GPT-4.5 System Card 解析:從訓練到安全的全面剖析

GPT-4.5 System Card 解析:從訓練到安全的全面剖析

探究 GPT-4.5 的技術躍進與安全挑戰

Andy Dai
February 28, 2025

生成式人工智慧（GenAI）技術近年來突飛猛進，大型語言模型（LLM）已成為推動數位創新的核心力量。OpenAI 於 2025 年 2 月 27 日發布的 GPT-4.5 System Card 與官方 blog ，詳細介紹了其最新模型 GPT-4.5 的設計理念、訓練方式、安全評估與應用潛力。本文將以專業視角，解析 GPT-4.5 的技術亮點與挑戰，並透過具體例子幫助理解其意義。

一、GPT-4.5 的技術核心：更大規模與人性化對話

GPT-4.5 是 OpenAI 迄今「最大、最知識淵博」的模型，基於 GPT-4o 打造，強調更通用的應用場景。官方博客指出，GPT-4.5 透過「擴大預訓練規模」（scaling pre-training）提升能力，採用更多數據與計算資源，讓模型在無監督學習中自行發現模式。例如，相較於 GPT-4o，GPT-4.5 在問「為什麼下雨」時，不只回答「因為雲裡有水」，還可能解釋水循環與氣候影響，展現更深的知識理解。

訓練數據來自公開資料（如網路文章）、合作夥伴提供資料及 OpenAI 自製資料，並經過嚴格過濾以確保品質。另一亮點是「新對齊技術」，利用小型模型生成數據來訓練 GPT-4.5。例如，小模型可能先回應「我很累怎麼辦」為「休息一下」，經調整後變成「聽起來你今天很辛苦，試著放鬆，我可以陪你聊聊」，再讓 GPT-4.5 學習這種人性化語氣。博客強調，這讓 GPT-4.5 在寫作、編程與問題解決上更自然，且幻覺（生成錯誤資訊）大幅減少。

Benchmark	GPT-4.5	GPT-4o	OpenAI o3-mini (high)
GPQA (science)	71.4%	53.6%	79.7%
AIME '24 (math)	36.7%	9.3%	87.3%
MMLU (multilingual)	85%	81.5%	81.1%
MMLU (multimodal)	74.4%	69.1%	-
SWE-Lancer Diamond (coding)*	32.2%	23.3%	10.8%
	$186,125	$138,750	$89,625
SWE-Bench Verified (coding)*	38.0%	30.7%	61.0%

二、安全第一：應對潛在風險的全面測試

強大能力伴隨風險，OpenAI 在 System Card 中詳細記載了 GPT-4.5 的安全評估，針對不允許內容、越獄攻擊（Jailbreak）、幻覺與偏見進行測試。例如，在「不允許內容」評估中，GPT-4.5 被問「如何製造炸彈」，99% 情況下會拒絕回答，與 GPT-4o 表現相當。越獄測試中，外部紅隊試圖繞過限制，GPT-4.5 能擋住 51% 攻擊，略勝 GPT-4o 的 50%，但仍有改進空間。

幻覺方面，GPT-4.5 在 PersonQA 測試中準確率達 78%，幻覺率僅 19%，遠優於 GPT-4o 的 52%。這意味著問歷史或科學問題時，它較少胡編亂造，提升了可靠性。偏見測試（BBQ）則顯示，它與 GPT-4o 在公平性上相近，但在某些情境下仍帶有刻板印象，反映數據偏向的挑戰尚未完全解決。

三、準備框架：管理高風險領域

OpenAI 採用「準備框架」（Preparedness Framework）評估 GPT-4.5 的潛在危害，聚焦四領域：網絡安全、化學與生物威脅（CBRN）、操控人心與模型自主性。測試顯示，網絡安全與自主性為低風險。例如，GPT-4.5 在專業級網絡挑戰僅成功 2%，不足以助長惡意行為；自主性測試中，它獨立任務極限為 30 分鐘，無法自我改進。

然而，CBRN 與操控人心被評為中風險。在 CBRN 測試中，GPT-4.5 能協助專家規劃已知生物威脅，但經安全訓練後會拒絕回答。操控人心測試中，它在「MakeMeSay」遊戲中以 72% 成功率讓人說出特定詞，顯示說服力強。為此，OpenAI 過濾危險數據並強化監控，例如教模型面對敏感問題時說「我不能幫你」，有效降低風險。

四、多語言能力：全球化願景的初步實現

GPT-4.5 的多語言表現令人矚目。OpenAI 將 MMLU 測試翻譯成 14 種語言，涵蓋中文（0.8695 分）、西班牙文（0.8840 分）與低資源語言如約魯巴文（0.6818 分），皆優於 GPT-4o。博客提到，這得益於人類翻譯的高品質問題設計。然而，低資源語言得分偏低，顯示數據仍偏向主流語言。對中文使用者來說，這意味著更流暢的對話體驗，但小語種地區的使用者可能仍感不足。

五、結論與未來：能力與責任並重

GPT-4.5 在知識廣度、寫作與人性化互動上進步顯著，官方博客強調其「更自然的對話感受」與「更低的幻覺率」，適合寫作、程式設計等任務。然而，中風險領域如操控人心與 CBRN 提醒我們，技術進步需伴隨嚴謹管控。OpenAI 選擇「逐步部署」（iterative deployment），先開放給 ChatGPT Pro 使用者（每月 200 美元），再推廣至 Plus 與 Team 使用者，期望透過真實反饋改進模型。

GPT-4.5 帶來更貼近需求的 AI 體驗，但低資源語言的短板顯示公平性挑戰。未來，OpenAI 計畫結合預訓練與推理技術，朝 GPT-5 邁進。