過去一週,如果你只關注那些AI生成的聳動的行銷文案,你可能錯過了一場正在地殼深處發生的、無聲的「地震」。這場地震的核心,源自一組看似不起眼,卻足以讓所有AI領域的頂級玩家徹夜難眠的數字:15.8%。
這是 Elon Musk 旗下 xAI 公司發布的最新大型語言模型 Grok-4,在「ARC-AGI」這個地獄級的抽象推理能力測試集上,取得的驚人成績。說它驚人,不是因為分數高,而是因為在同一個考場上,被譽為當今最強 AI 的 Claude-4 Opus,得分僅有 8.6%;而我們熟悉的 GPT-4、Google Gemini 和 Anthropic Sonnet,甚至連跨過 10% 的公布門檻都做不到,直接出局。
這 15.8%,像一聲尖銳的警報,劃破了當前 AI 發展的平靜表象。它揭示了一個我們不願承認、…
Keep reading with a 7-day free trial
Subscribe to AI避坑情報員電子週報|AITrapAdvisor Weekly Newsletter to keep reading this post and get 7 days of free access to the full post archives.