2025-02-02 06:38
關於 DeepSeek 對AI市場衝擊自己所得嘅筆記
1.Fact
• 一間嚟自中國嘅人工智能公司最近推出新模型R1,擅長解難同埋推理。據講可以達到GPT-O1嘅程度,但係只係需要較低的成本。
• 另外,佢地係採用開源嘅模型,意味着任何人都可以複製佢哋嘅訓練方法,睇下可唔可以做到同樣嘅結果,所以好難呃人。
1A 咁到底成本有幾低呢?
• 根據好多媒體的報道佢哋嘅訓練成本只需要560萬美元。但係呢個講法具有一定嘅誤導性,首先560萬係指之前嘅model V3,而唔係破天荒嘅R1。其次560萬未有計算設備同埋R&D嘅開支。然而不能否認佢係佢哋所需嘅整個成本應該都係比目前主流嘅模型係平
• DeepSeek 訓練成本雖然低但依然有使用nvda嘅晶片H800
• 就我所理解,DeepSeek 成本咁平係因為算法技術突破,例如Distillation 同MOE嘅應用。但呢啲都唔係屬於最新嘅算法?
2. 所引起嘅回應
• R1模型發表當日,全世界都好震撼。引發咗好多質疑,例如美國的巨型企業需唔需要繼續花費巨額嘅資本開支(CAPEX)投資於人工智能的訓練。
(一)