關於 DeepSeek 對AI市場衝擊自己所得嘅筆記 1.Fact • 一間嚟自中國嘅人工智能公司最近推出新模型R1，擅長解難同埋推理。據講可以達到GPT-O1嘅程度，但係只係需要較低的成本。 • 另外，佢地係採用開源嘅模型，意味着任何人都可以複製佢哋嘅訓練方法，睇下可唔可以做到同樣嘅結果，所以好難呃人。 1A 咁到底成本有幾低呢? • 根據好多媒體的報道佢哋嘅訓練成本只需要560萬美元。但係呢個講法具有一定嘅誤導性，首先560萬係指之前嘅model V3，而唔係破天荒嘅R1。其次560萬未有計算設備同埋R&D嘅開支。然而不能否認佢係佢哋所需嘅整個成本應該都係比目前主流嘅模型係平 • DeepSeek 訓練成本雖然低但依然有使用nvda嘅晶片H800 • 就我所理解，DeepSeek 成本咁平係因為算法技術突破，例如Distillation 同MOE嘅應用。但呢啲都唔係屬於最新嘅算法？ 2. 所引起嘅回應 • R1模型發表當日，全世界都好震撼。引發咗好多質疑，例如美國的巨型企業需唔需要繼續花費巨額嘅資本開支(CAPEX)投資於人工智能的訓練。（一）

串文

2025-02-02 06:38

讚

回覆

轉發

作者

LYS
geniusinglee

粉絲

319

串文

319+

讚

回覆

轉發

24小時粉絲增長

發文前

319

發文後24小時

319

變化

0 (0.00%)

互動率

(讚 + 回覆 + 轉發) / 粉絲數

1.25%

回覆 (BETA)

最先回覆的內容
發文後	用戶	內容
幾秒內	LYS geniusinglee	• 但係Deepseek R1發表不久亦都係輪到科技公司發表佢哋嘅財報：Meta表明會繼續加強600億至650億美元資本開支；Microsoft CEO Nadella 就表示Deepseek嘅突破其實同電腦週期嘅突破一樣，就係成本會隨住科技嘅創新而越嚟越低，令到產品變得更加普及。 “In some sense what’s happening with AI it’s no different than what was happening with the regular compute cycle. It’s always about bending the [cost] curve,” • 佢喺財務發表之前，亦都引述咗一個經濟學概念叫做Jevons Paradox。工業革命時期，Jevons 發現隨住蒸汽機嘅效率越高：即係用少啲煤就能夠產生多啲嘅能量，并未有導致煤嘅需求減低，反而提升咗對於煤嘅需求，咁係因為人類想產生更加多嘅能源去推動經濟發展。 • Nadella似乎認為低成本嘅AI會令到人工智能產品更加普及，所以我哋對算力的需求反而係更加多。（二）