大型語言模型真的只能由資本巨頭玩弄於股掌之間嗎？在這場由巨額資金和尖端硬體構築的人工智慧競技場中，大型語言模型似乎成了少數巨頭的專屬遊戲。而對資源有限的中小型研究團隊而言，這些模型更像是遙不可及的「奢侈品」。但問題是，智慧的邊界真的只能用金錢來丈量嗎？人類的創造力，難道會被冰冷的GPU陣列和訓練集的規模所局限？即使無法參與模型參數優化的「軍備競賽」，我們仍有另一條道路：用「說話的藝術」來激活這些大型語言模型的潛能。一些研究者正在探索如何通過設計精妙的提示詞來引導大型語言模型，讓它們在無需額外訓練的情況下發揮出意想不到的能力。在這之中，有一個方法就叫做叫上下文學習（In-Context Learning, ICL）。你只需要在與模型對話時，給它幾個符合你期望的對話範例，模型就能迅速模仿這些範例風格進行回應。不需要 GPU，不需要額外訓練，就能讓模型「學習」一種全新的語言表達方式。舉個極端的例子，想讓模型模仿歧視性言論？只需丟幾句帶著偏見的例子進去，下一句它就會用很雞巴的方式回應你。然而，ICL 並非沒有限制。隨著你提供的範例數量增加，模型的計算需求會大幅提高。下文接續

串文

2025-01-22 18:20

讚

回覆

轉發

作者

陳丕為
chenpiwei

粉絲

327

串文

50+

讚

回覆

轉發

24小時粉絲增長

發文前

321

發文後24小時

322

變化

+1 (0.31%)

互動率

(讚 + 回覆 + 轉發) / 粉絲數

3.67%

回覆 (BETA)

最先回覆的內容
發文後	用戶	內容
2 分鐘內	陳丕為 chenpiwei	然而，ICL 並非沒有限制。隨著你提供的範例數量增加，模型的計算需求會大幅提高。此外，每次與模型互動時都需要重新輸入這些範例，顯得非常低效。更麻煩的是，模型還受到上下文長度的限制，例如像 Llama 2 這樣的模型，其最大上下文長度為 4096 個 token，當範例超過這個數量時，模型無法完整處理。為了解決這些問題，這篇論文提出了一個新方法，名為上下文向量（In-Context Vector, ICV）。這個方法的核心思想是，將範例的關鍵資訊濃縮成一個「特徵向量」，這個向量能代表範例中蘊含的任務信息或對話規則。在模型進行推斷時，使用這個向量對模型的內部運算進行調整，使其生成符合預期的結果。相比 ICL，ICV 有幾個明顯的優勢： 1. 更高效：不需要在每次對話中重複輸入範例，特徵向量可以一次生成，多次使用。 2. 突破上下文長度限制：ICV 通過向量濃縮範例資訊，無需直接附加範例，避免了上下文長度的瓶頸。 3. 計算成本低：生成特徵向量的過程幾乎不增加額外的計算負擔，比起微調或添加額外參數，ICV 更輕量。 https://arxiv.org/pdf/2311.06668