牛游戲網 > 資訊

GPT-5基準圖錯誤遭全網吐槽奧爾特曼自嘲：圖表重大失誤

時間：2025/08/08 10:31:15 編輯：川崎伊俊

科技圈翹首以盼的GPT-5發布會上，戲劇性一幕突如其來。原本聚焦于模型卓越性能展示的時刻，卻因一組錯誤頻出的基準圖，令全場嘩然。圖表中數據與實際標注南轅北轍，不僅讓演示效果大打折扣，也引發網友們群嘲。事后，奧爾特曼坦率承認圖表失誤，直言這是嚴重且不該出現的問題。可這場風波，已然在GPT-5閃耀登場之際，蒙上了一層陰影。

GPT-5基準圖錯誤遭全網吐槽

GPT-5發布基準圖錯誤遭吐槽面向所有用戶開放！當地時間8月7日，OpenAI宣布推出新一代旗艦人工智能模型GPT-5，并稱其為“世界上最好的模型”，將免費提供給用戶。該模型面向所有用戶開放，包括免費用戶、Plus用戶、Pro用戶和團隊用戶。下周還將向企業用戶和教育用戶推出。

OpenAI表示，GPT-5的智能性能遠超公司之前的所有模型，在編碼、數學、寫作、健康、視覺感知等領域均表現出色。新模型在響應速度、回答準確性以及減少“幻覺”方面都有顯著提升。ChatGPT團隊負責人Nick Turley指出，與前代產品相比，GPT-5讓用戶感覺更自然。

OpenAI首席執行官Sam Altman對GPT-5給予了極高評價，認為這是該公司朝通用人工智能目標邁出的重要一步。他表示，無論是顯而易見的還是微妙的，GPT-5都給人更好的體驗，感覺像是在與任何領域的專家交談——一位博士級別的專家。

GPT-5在編程能力方面尤為突出，能夠僅憑一個提示就創建美觀響應式的網站、應用程序和游戲。在SWE-bench Verified基準測試中，GPT-5首次嘗試的準確率達74.9%，高于其他競爭模型。此外，GPT-5在創意寫作和健康咨詢方面也有所提升，能夠處理復雜的寫作任務，并更積極地標記潛在健康問題。

OpenAI還引入了一種新的安全訓練形式，稱為“安全補全”。這種訓練方法教模型在安全范圍內盡可能給出最有幫助的答案。GPT-5經過訓練后能夠識別任務何時無法完成，避免猜測，并能更清晰地解釋局限性，從而減少了無根據的斷言。

此外，OpenAI還為ChatGPT用戶推出了四種預設性格：憤世嫉俗者、機器人、傾聽者和書呆子。這些性格選項適用于文本聊天，未來還將擴展到語音聊天，使用戶無需編寫自定義提示詞即可設置ChatGPT的交互方式。

然而，在GPT-5的發布會上出現了一些小錯誤，如現場展示的性能圖表存在數據與圖表顯示不匹配的情況。特斯拉CEO馬斯克也在社交媒體上指出了GPT-5在某些基準測試中的表現不如預期。

微軟計劃將OpenAI的GPT-5整合到其Copilot生態系統中，包括Microsoft 365 Copilot、GitHub Copilot、Azure AI Foundry和Copilot Studio。新的智能模式支持動態模型切換，以增強推理和特定任務的響應。開發人員可以通過Azure AI Foundry利用GPT-5，確保AI驅動的應用程序中特定于任務的精度。