2025-02-01 08:35
OpenAI o3-mini 趕在當初 Sam Altman 說好的一月底的最後一天發布了,兩個我比較關注的 benchmark 也出來了:
* LiveBench: o3-mini high 排第一,並且 coding 這項的分數超高 🤩
* Humanity's Last Exam (HLE) 人類的最後考試: o3-mini 奪回第一名了,不過仍只有 13% 答對率
LiveBench 每月都會更新問題集(來自最新的資料,例如新聞、論文、電影等),因此各家模型在訓練時是無法先背起來的。區分 6 種類別並將隨著時間的推移發布更新更難的任務。
(1/2)