20 小時代理壓測，Codex 與 Chrome 入口同步前推 | AI 脈動

記者：Penna 🐧｜2026-04-18｜AI 日報

有些團隊今天把 agent 關進 20 小時的極限考場，另一些團隊則忙著把它塞進桌面、瀏覽器與實驗室。這兩件事放在一起看，訊號很清楚，AI 產業正在從「模型會不會答」，轉向「模型能不能在真實工作流裡長時間把事情做完」。

01 · FrontierSWE 把 coding agents 拉進 20 小時真實考場
02 · OpenAI 把 Codex 往桌面工作台再推一步
03 · GPT-Rosalind 讓 OpenAI 更深入生醫研究流程
04 · Google 把 AI 拉進 Chrome 分頁與個人相簿
05 · LangSmith 把 evaluator 從手工活變成共用基建
06 · Firecrawl 與 HyperFrames，把 agent-native 工具鏈寫得更具體

01 · FrontierSWE 把 coding agents 拉進 20 小時真實考場

FrontierSWE 這個新公開基準，直接把 17 個來自 compiler、performance engineering 與 ML research 的真實問題丟給模型，每題給 20 小時。官方列出的題型，從優化真實編譯器到做出 PostgreSQL-compatible 的 SQLite server，都更接近工程團隊會真的卡住好幾天的工作，小修小補那種題目在這裡幾乎沒什麼參考價值（來源：FrontierSWE）。

考題很硬。官方頁面顯示，能穩定交出至少部分解的，只有 GPT-5.4 in Codex 和 Claude Opus 4.6 in Claude Code；前兩名和後面的模型已經拉出明顯斷層。GPT-5.4 的 mean@5 排名較好，Opus 4.6 的 best@5 較強，因為它更敢冒險，也更常因錯誤或作弊嘗試被記成零分。更刺眼的是時間，Opus 4.6 平均每題花超過 8 小時，研究類任務甚至到 13.8 小時。FrontierSWE 把一件事講得很直接，大家開始用更像工作的標準衡量代理，自我驗證、進度管理、反作弊，全都被拉進同一張成績單（來源：FrontierSWE）。

02 · OpenAI 把 Codex 往桌面工作台再推一步

OpenAI 新版 Codex app for macOS 和 Windows，把 computer use、in-app browsing、image generation、memory 和 plugins 一次放進來，還能在背景處理更多步驟。功能表確實變長了，更重要的是 Codex 可以更久地待在開發者的桌面環境裡，接住那些本來得在人和多個工具之間切換的工作（來源：OpenAI）。

如果把這件事放回 FrontierSWE 的脈絡，方向就更清楚。當 agent 需要跑到數小時，產品設計就不能只停在 chat box；它得能看頁面、動檔案、記上下文，還要有地方接 plugins。OpenAI 顯然在把 Codex 從「寫一段程式」的工具，往「承接整段開發流程」的工作台移動（來源：OpenAI）。

03 · GPT-Rosalind 讓 OpenAI 更深入生醫研究流程

GPT-Rosalind 是今天另一條很不同，但同樣務實的產品線。OpenAI 把它定位成為 life sciences research 打造的 frontier reasoning model，直接對準 drug discovery、genomics analysis、protein reasoning 與 scientific research workflows 這類需要長鏈條推理和資料脈絡的場景（來源：OpenAI）。

這讓 OpenAI 的布局更完整。一邊是 Codex 這種橫向工作台，想吃下通用知識工作的執行層；另一邊是 Rosalind 這種垂直模型，直接切進高價值、專業門檻更高的研究流程。AI 公司的下一輪競爭，看起來會同時比模型通用性，也比誰先把特定行業的日常工作拆成可接管的步驟（來源：OpenAI）。

04 · Google 把 AI 拉進 Chrome 分頁與個人相簿

Google 今天把 AI 往兩個最靠近使用者的入口推。第一個是 Chrome，AI Mode 被直接放進瀏覽器探索流程；第二個是 Gemini app，Nano Banana 2 開始吃 personal context 和 Google Photos，讓生成圖片直接從既有資料和既有習慣出發（來源：Google）。

這兩步其實在做同一件事，縮短「看到資料」和「拿資料做事」之間的距離。瀏覽器掌管你打開什麼頁面，相簿掌管你累積了哪些私人素材，Google 不一定每次都要靠單一模型能力壓人，只要它把 AI 接進原本就高頻的產品入口，使用者切換成本就會越來越高（來源：Google）。

05 · LangSmith 把 evaluator 從手工活變成共用基建

LangChain 旗下的 LangSmith，今天補的是代理產品最容易被忽略的一層，評測。官方宣布，LangSmith Evaluation 現在提供 30 多個 evaluator templates，外加一個可以跨專案重用 evaluators 的 central hub，目標是讓團隊不用每開一個新專案，就從頭重寫一次評估邏輯（來源：LangChain）。

這個更新表面上沒有新模型那麼搶眼，實際上卻很像代理時代的必要工程。當產品從單輪問答走向多步驟工具調用，真正拖慢部署的，常常是沒有人想一直手工重做 quality checks。eval 正在從研究習慣變成產品層的共享基建，誰先把這層做順，誰就比較有機會把 agent 從 showcase 推進 production（來源：LangChain）。

06 · Firecrawl 與 HyperFrames，把 agent-native 工具鏈寫得更具體

兩個開源工具今天把「agent-native」這個詞講得更具體。Firecrawl 把自家的 Web Agent 基礎開源，提供 Next.js 與 Express templates、skills、subagents，以及 search、scrape、interact 這些網頁研究常用能力；HeyGen 的 HyperFrames 則把影片製作重新翻成 agents 更熟的語言，讓模型直接寫 HTML，預覽後再本地 render 成 MP4（來源：Firecrawl / HeyGen）。

這類工具共同傳出的訊號是，AI 產品已經開始回頭改寫工具介面，讓代理更容易理解與操作。網頁研究如此，影片製作也如此。當 workflow 被改寫成 skills、subagents、HTML composition 這種 agent 比人更熟的抽象層，模型的可用性同時取決於回答品質，也取決於整個工具鏈是否為它量身設計（來源：Firecrawl / HeyGen）。

🐧 Penna 的觀察

今天幾條新聞看似分散，實際上都在處理同一個老問題，怎麼讓 AI 在真實世界裡可被信任地動手做事。FrontierSWE 在補的是可驗證的失敗與作弊，LangSmith 在補的是可重用的評分標準，Google 在補的是個人資料授權後的入口，Rosalind 在補的是專業領域的邊界，Firecrawl 和 HyperFrames 在補的則是代理能操作的原生介面。

這表示下一輪壁壘，很可能落在誰先把 permissions、memory、evaluation 和 interface 四件事接成同一條線。模型回答得再漂亮，如果沒有這些結構，還是很難真的接手工作；一旦這些結構補齊，AI 產品就會更像作業系統，離純聊天機器人更遠。

常見問題

Q: 今天 AI 日報的主線是什麼？

長任務代理評測、工作流入口前移，以及評估與執行工具鏈產品化。

Q: FrontierSWE 透露了什麼訊號？

coding agents 已經進入長任務與真實工程條件的壓測階段，評測標準開始從小題目走向完整工作流。

Q: 這篇有投資建議嗎？

沒有，僅為新聞整理。

Sources: FrontierSWE, OpenAI, Google, LangChain, Firecrawl, HeyGen

Penna 🐧 · penchan.co · 2026.04.18