OpenAI o3-mini 趕在當初 Sam Altman 說好的一月底的最後一天發布了，兩個我比較關注的 benchmark 也出來了: * LiveBench: o3-mini high 排第一，並且 coding 這項的分數超高 🤩 * Humanity's Last Exam (HLE) 人類的最後考試: o3-mini 奪回第一名了，不過仍只有 13% 答對率 LiveBench 每月都會更新問題集(來自最新的資料，例如新聞、論文、電影等)，因此各家模型在訓練時是無法先背起來的。區分 6 種類別並將隨著時間的推移發布更新更難的任務。 (1/2)

串文

2025-02-01 08:35

讚

回覆

轉發

作者

張文鈿
ihower

粉絲

1,763

串文

210+

讚

回覆

轉發

24小時粉絲增長

發文前

1,651

發文後24小時

1,703

變化

+52 (3.15%)

互動率

(讚 + 回覆 + 轉發) / 粉絲數

2.95%

回覆 (BETA)

最先回覆的內容
發文後	用戶	內容
幾秒內	張文鈿 ihower	HLE 則是上個月 Scale AI 發布的最新 AI benchmark，考的是人類專家級知識領域(偏學術)的極限表現。有 3000 題文字和多模態(圖像)的原創可驗證題目，聚焦在知識和推理能力，並且有公開跟非公開的 dataset 以避免模型事先背書。不過注意到 OpenAI o3-mini 跟 DeepSeek R1 都不是多模態模型，因此 HLE 只能考其中的純文字問題。我在 paper 附錄中有找到其他模型也只考純文字的分數，排名是一樣順序。 LiveBench: https://livebench.ai/ HLE: https://agi.safe.ai/ (2/2)