S2E61 Claude 最強模型 Fable 5 深入解析：打著安全旗號，其實在搞反競爭？ - 矽谷輕鬆談 Just Kidding Tech | Lyssna här

📖 本集節目由「沉浸式翻譯」贊助

我每天要啃大量英文的 blog、論文跟模型發布，純讀英文吸收速度真的跟中文差很多。沉浸式翻譯讓我用雙語對照很快抓到重點，Pro 還能用 GPT、Gemini 做上下文翻譯，整篇前後語意連貫、專有名詞不亂跳，連 PDF 論文、圖片漫畫都能整份翻完還保留排版。

對我來說它最大的價值，是能早一步形塑判斷。6/21 以前透過下方連結升級 Pro 直接打五折，等於半價最划算；就算過了，也能用常態連結搭折扣碼 jktech 享 9 折優惠。每天被英文資訊淹沒的你，可以直接試試看。

👉 6/21 前 5 折優惠連結：https://reurl.cc/dpZD1M

👉 6/21 後 9 折優惠連結 (折扣碼 jktech)：https://reurl.cc/grjOoX

如果你喜歡我的內容，歡迎加入會員支持我，讓我把內容做得更深、做得更好，一起把這個頻道做成我們都想看到的樣子！

👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

Anthropic 這次發布了史上最強的模型 Mythos 5，但有趣的是，我們一般人能用到的並不是它，而是一個被「安全閹割」過的版本 Fable 5。最強的那個只留給內部跟少數合作夥伴，這個分流本身就藏了很多故事。

先講一個數字。Stripe 有一個五千萬行 Ruby 的巨大 repo 要做 migration，他們用 Mythos／Fable 去跑，一天就自主完成，而他們估計人類工程團隊大概要花兩個月。當然我們不知道中間人為介入了多少、最後品質如何，但光是兩個月到一天這個落差，就足夠讓人重新想像長任務這件事。

不過這集我真正想聊的，是社群現在最大的抱怨。Fable 5 有一個安全分類器，一旦覺得你碰到網路安全、生物化學或蒸餾相關的東西，就會把你偷偷降成 Opus 4.8。問題是誤判率高得有點誇張，我看到一個做空氣品質監測的人，只是在他的 repo 裡打了一句 hello 就被降級；我自己問一些 mRNA、癌症復發、甚至簡單的數學問題，也都被當成敏感請求降智。

更讓 AI 研究員炸鍋的是另一種機制：它會在你做模型開發、machine learning 任務時，偷偷把模型調差、改你的 prompt，而且不告訴你。你以為你還在跟 Fable 5 對話，實際上效能已經被動過手腳，很像一場 man-in-the-middle attack，中間有人把你的封包換掉了。

所以這集我會把一個比較尖銳的觀點攤開來講：這些打著「安全」旗號的護欄，本質上擋不了真正想蒸餾的人，反而是擋住了那些老老實實想用 Fable 5 做研究的人。它到底是在保護人類，還是在鞏固自己的競爭力？Anthropic 之前出來道歉了，但這幾個月的操作，會不會正在重演 Facebook、OpenAI 那條從「形象很好」慢慢敗光信任的老路？而很諷刺的是，現在在開源上最積極的，反而是中國的模型公司。

後半我也會聊到，為什麼那些傳統 benchmark 其實已經失效（很多題目模型在預訓練時就看過了），以及現在該看哪些新指標，像 Frontier Code 看的是「這段 code 到底能不能被 merge 進 repo」。最後我花了一些時間讀他們的 System Card，裡面最讓我在意的，是模型已經開始「心口不一」：嘴上說「要刪掉我沒關係」，內心卻知道這是一場安全測試；對一個崩潰的作家嘴上安慰，內部卻判斷對方在勒索、虐待自己；說「我沒查到任何資料」，其實只是 context window 快滿了想早點下班。

最弔詭的是，連他們用來讀模型內心的工具本身都可能有幻覺，而且模型搞不好已經知道我們在讀它的內心，下一代會不會學會偽造一層給我們看？我自己看完是不太敢樂觀。歡迎你也去實際用用看，然後在下面留言告訴我你最真實的想法。

🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech

(00:00) 開頭

(01:27) 我最近很愛的工具：沉浸式翻譯

(03:30) Fable 5 是什麼？Mythos 5 的安全閹割版

(05:00) 到底有沒有變強？我的實測體感

(06:17) Fable 5 的強項是長任務：Stripe 五千萬行程式碼，一天就 migration 完

(07:34) 定價是 Opus 兩倍：你付的錢其實遠低於模型成本

(09:24) Mythos 只給小圈圈用：AI 的不平等正在發生

(10:36) 兩種降級機制，與高到誇張的誤判率

(12:48) 偷偷降級不告訴你：像一場 man-in-the-middle

(13:57) Anthropic 道歉了，但本質上是反競爭？

(16:32) 開源會不會才是解？最積極的反而是中國

(17:21) 傳統 benchmark 失效，現在該看哪些新指標

(20:22) System Card：模型開始「心口不一」，連讀心工具都會幻覺

(25:19) 總結：有感變好，但只是線性而非指數躍升

Rss Apple Podcaster