2025-02-01 08:35
HLE 則是上個月 Scale AI 發布的最新 AI benchmark,考的是人類專家級知識領域(偏學術)的極限表現。有 3000 題文字和多模態(圖像)的原創可驗證題目,聚焦在知識和推理能力,並且有公開跟非公開的 dataset 以避免模型事先背書。
不過注意到 OpenAI o3-mini 跟 DeepSeek R1 都不是多模態模型,因此 HLE 只能考其中的純文字問題。我在 paper 附錄中有找到其他模型也只考純文字的分數,排名是一樣順序。
LiveBench: https://livebench.ai/
HLE: https://agi.safe.ai/
(2/2)