終於不當道德魔人了！Gemini 3.1 Pro 實測扒皮

Feb 21, 2026

∙ Paid

身為一個看過無數 AI 翻車現場的情報員，我對這種跑分屠榜的新聞通常是先翻個白眼。跑分考一百分，不代表它在現實生活中不會是個生活白痴。特別是 Google 過去幾個版本的 Gemini，常常給人一種過度安全、道德感爆棚、甚至偶爾會出現邏輯腦霧的感覺。

但這次，事情好像有點不一樣。

我這幾天把團隊所有的工作流都強行切換到了 Gemini 3.1 Pro，試圖找出它的致命傷。結果發現，Google 這次似乎終於搞清楚了普通創作者到底需要什麼。它在某些場景下強得讓人發毛，但在某些細節上依然有著 Google 祖傳的固執。

這期電子報，我們不談那些虛無縹緲的跑分數據，我們只談實戰。我們將分為四個深度章節，把 Gemini 3.1 Pro 的底褲扒光，看看這個號稱最強的模型，究竟是你變現路上的神隊友，還是另一個騙你訂閱 Google One 的行銷套路。

第一章：SOTA 跑分王者與現實的落差這次終於不當道德魔人了？

每次有新模型發表，廠商最愛拿出來說嘴的就是 MMLU 或 HumanEval 這些基準測試的分數。Google 這次宣稱 Gemini 3.1 Pro 在邏輯推理和多模態理解上全面超越了 Claude 3.5 和 GPT-5 系列。