你知道什麼是 Evals 嗎？

為什麼它會成為 2025 年自由工作者與 PM 的關鍵生存技能

前幾天我看了一支 Peter Yang 訪談 Arize Director of Product —— Aman Khan 的影片

《The AI Skill That Will Define Your PM Career in 2025》

影片中有一句話讓我印象非常深刻。

OpenAI CPO 說：

「The most important role for a product manager is becoming good at writing evals.」

這句話不只是在講 PM。

如果你是 AI 自由工作者、接案工程師、AI 產品顧問、甚至是正在轉型的知識型工作者，

你其實更應該理解——什麼是 Evals，以及為什麼它會直接影響你的市場價值。

一、Evals 是什麼？為什麼 AI 產品「非它不可」

Evals 是 Evaluation（評估） 的簡稱。

但它不是傳統軟體世界裡那種「有沒有跑成功」「有沒有過單元測試」的概念。

因為 AI 產品，跟過去的產品本質不同

傳統軟體產品是：

輸入 A → 一定得到輸出 B（Deterministic）

但 AI 產品是：

輸入 A → 得到 B、C 或 D（Non-deterministic）

同一個 prompt、同一個模型、同一個系統

結果卻「看起來都對，但品質不一樣」。

👉 這正是 AI 產品最大的挑戰。

二、Evals 在做的事，其實是在回答一個關鍵問題

Aman Khan 在訪談中說了一句非常精準的話：

Evals are how we measure how good or bad that middle box – the product – is performing.

中間那個「黑盒子」，就是 AI 產品本身。

Evals 的核心不是「模型準不準」，而是：

這個 AI 回答 有沒有符合使用者期待？
在不同情境下，失誤率是多少？
哪一種輸出「對使用者來說比較好」？

所以 Aman 才會說：

Evals are like a new kind of A/B test.

只是這次比較的不是 UI、不是按鈕顏色

而是 「語言品質、推理合理性、商業可用度」。

三、為什麼這件事，跟自由工作者特別有關？

如果你是自由工作者，尤其是：

AI 工程師 / LLM Engineer
AI Workflow / Automation 顧問
AI PM / AI 產品顧問
幫企業「導入 AI」的角色

那你一定遇過這種狀況👇

「感覺這個回覆有點怪，但我也說不上來哪裡怪。」

沒有 Evals，你只能靠「感覺」。

但對企業來說，感覺 ≠ 品質控管。

四、懂 Evals 的自由工作者，差別在哪？

懂 Evals 的人，跟只會「把 AI 接起來」的人，差別非常大。

不懂 Evals 的自由工作者常見狀態

回答客戶：「目前看起來都 OK」
無法量化 AI 成效
無法解釋為什麼這個版本比較好
很難長期維運，只能一次性交付

懂 Evals 的自由工作者會這樣做

幫企業定義「什麼叫好答案」
設計評估指標（準確度、一致性、風險、語氣）
用資料而不是感覺溝通
讓 AI 專案 可長期優化、可擴展

👉 這會直接影響你的報價天花板。

五、Evals 正在變成一種「AI 時代的專業語言」

Aman 與 Peter Yang 的訪談，其實透露了一個很重要的趨勢：

未來 AI 產品的競爭力，不只在模型，而在評估能力。

而評估能力，本質上是：

把模糊的「好不好」
轉成可討論、可比較、可決策的標準

這也是為什麼 OpenAI CPO 會說：

寫 Evals，是 PM 最重要的能力之一

因為它是 連接技術、使用者與商業價值的關鍵橋樑。

六、如果你想開始學 Evals，可以從哪裡入手？

如果你對 Evals 有興趣，非常推薦 Arize 出版的這本指南：

📘 The Definitive Guide to LLM App Evaluation

它不是在教你寫論文，而是在教你：

怎麼為真實 AI 應用設計評估
怎麼避免「模型看起來很聰明但不能用」
怎麼讓 AI 專案真正進入生產環境

我想，不管是哪個類型或領域的自由工作者，從大架構下整合市場趨勢會是平日工作中很好的靈感，分享給你💡

by Abby