HLE 則是上個月 Scale AI 發布的最新 AI benchmark，考的是人類專家級知識領域(偏學術)的極限表現。有 3000 題文字和多模態(圖像)的原創可驗證題目，聚焦在知識和推理能力，並且有公開跟非公開的 dataset 以避免模型事先背書。不過注意到 OpenAI o3-mini 跟 DeepSeek R1 都不是多模態模型，因此 HLE 只能考其中的純文字問題。我在 paper 附錄中有找到其他模型也只考純文字的分數，排名是一樣順序。 LiveBench: https://livebench.ai/ HLE: https://agi.safe.ai/ (2/2)

串文

2025-02-01 08:35

讚

回覆

轉發

作者

張文鈿
ihower

粉絲

1,774

串文

210+

讚

回覆

轉發

24小時粉絲增長

發文前

1,651

發文後24小時

1,703

變化

+52 (3.15%)

互動率

(讚 + 回覆 + 轉發) / 粉絲數

0.39%

回覆 (BETA)

最先回覆的內容
發文後	用戶	內容