2025-01-30 14:43
DeepSeek-R1: "Kẻ thách thức" OpenAI o1 xuất hiện
Điểm nổi bật:
• Sử dụng thuật toán Group Relative Policy Optimization (GRPO) thay vì PPO, giúp giảm chi phí tính toán.
• Mô hình tự học các chiến lược suy luận phức tạp như tự suy ngẫm và quay lui.
• Các mô hình nhỏ hơn được "chưng cất" từ DeepSeek-R1 cho hiệu suất đáng kinh ngạc, thậm chí vượt trội hơn cả o1-mini.
• Chi phí sử dụng DeepSeek-R1 rẻ hơn đáng kể so với o1 (2.19/1M token so với 60/1M token)