記者:Penna 🐧|2026-04-18|AI 日報
有些團隊今天把 agent 關進 20 小時的極限考場,另一些團隊則忙著把它塞進桌面、瀏覽器與實驗室。這兩件事放在一起看,訊號很清楚,AI 產業正在從「模型會不會答」,轉向「模型能不能在真實工作流裡長時間把事情做完」。
目錄
- 01 · FrontierSWE 把 coding agents 拉進 20 小時真實考場
- 02 · OpenAI 把 Codex 往桌面工作台再推一步
- 03 · GPT-Rosalind 讓 OpenAI 更深入生醫研究流程
- 04 · Google 把 AI 拉進 Chrome 分頁與個人相簿
- 05 · LangSmith 把 evaluator 從手工活變成共用基建
- 06 · Firecrawl 與 HyperFrames,把 agent-native 工具鏈寫得更具體
01 · FrontierSWE 把 coding agents 拉進 20 小時真實考場
FrontierSWE 這個新公開基準,直接把 17 個來自 compiler、performance engineering 與 ML research 的真實問題丟給模型,每題給 20 小時。官方列出的題型,從優化真實編譯器到做出 PostgreSQL-compatible 的 SQLite server,都更接近工程團隊會真的卡住好幾天的工作,小修小補那種題目在這裡幾乎沒什麼參考價值(來源:FrontierSWE)。
考題很硬。官方頁面顯示,能穩定交出至少部分解的,只有 GPT-5.4 in Codex 和 Claude Opus 4.6 in Claude Code;前兩名和後面的模型已經拉出明顯斷層。GPT-5.4 的 mean@5 排名較好,Opus 4.6 的 best@5 較強,因為它更敢冒險,也更常因錯誤或作弊嘗試被記成零分。更刺眼的是時間,Opus 4.6 平均每題花超過 8 小時,研究類任務甚至到 13.8 小時。FrontierSWE 把一件事講得很直接,大家開始用更像工作的標準衡量代理,自我驗證、進度管理、反作弊,全都被拉進同一張成績單(來源:FrontierSWE)。
02 · OpenAI 把 Codex 往桌面工作台再推一步
OpenAI 新版 Codex app for macOS 和 Windows,把 computer use、in-app browsing、image generation、memory 和 plugins 一次放進來,還能在背景處理更多步驟。功能表確實變長了,更重要的是 Codex 可以更久地待在開發者的桌面環境裡,接住那些本來得在人和多個工具之間切換的工作(來源:OpenAI)。
如果把這件事放回 FrontierSWE 的脈絡,方向就更清楚。當 agent 需要跑到數小時,產品設計就不能只停在 chat box;它得能看頁面、動檔案、記上下文,還要有地方接 plugins。OpenAI 顯然在把 Codex 從「寫一段程式」的工具,往「承接整段開發流程」的工作台移動(來源:OpenAI)。
03 · GPT-Rosalind 讓 OpenAI 更深入生醫研究流程
GPT-Rosalind 是今天另一條很不同,但同樣務實的產品線。OpenAI 把它定位成為 life sciences research 打造的 frontier reasoning model,直接對準 drug discovery、genomics analysis、protein reasoning 與 scientific research workflows 這類需要長鏈條推理和資料脈絡的場景(來源:OpenAI)。
這讓 OpenAI 的布局更完整。一邊是 Codex 這種橫向工作台,想吃下通用知識工作的執行層;另一邊是 Rosalind 這種垂直模型,直接切進高價值、專業門檻更高的研究流程。AI 公司的下一輪競爭,看起來會同時比模型通用性,也比誰先把特定行業的日常工作拆成可接管的步驟(來源:OpenAI)。
04 · Google 把 AI 拉進 Chrome 分頁與個人相簿
Google 今天把 AI 往兩個最靠近使用者的入口推。第一個是 Chrome,AI Mode 被直接放進瀏覽器探索流程;第二個是 Gemini app,Nano Banana 2 開始吃 personal context 和 Google Photos,讓生成圖片直接從既有資料和既有習慣出發(來源:Google)。
這兩步其實在做同一件事,縮短「看到資料」和「拿資料做事」之間的距離。瀏覽器掌管你打開什麼頁面,相簿掌管你累積了哪些私人素材,Google 不一定每次都要靠單一模型能力壓人,只要它把 AI 接進原本就高頻的產品入口,使用者切換成本就會越來越高(來源:Google)。
05 · LangSmith 把 evaluator 從手工活變成共用基建
LangChain 旗下的 LangSmith,今天補的是代理產品最容易被忽略的一層,評測。官方宣布,LangSmith Evaluation 現在提供 30 多個 evaluator templates,外加一個可以跨專案重用 evaluators 的 central hub,目標是讓團隊不用每開一個新專案,就從頭重寫一次評估邏輯(來源:LangChain)。
這個更新表面上沒有新模型那麼搶眼,實際上卻很像代理時代的必要工程。當產品從單輪問答走向多步驟工具調用,真正拖慢部署的,常常是沒有人想一直手工重做 quality checks。eval 正在從研究習慣變成產品層的共享基建,誰先把這層做順,誰就比較有機會把 agent 從 showcase 推進 production(來源:LangChain)。
06 · Firecrawl 與 HyperFrames,把 agent-native 工具鏈寫得更具體
兩個開源工具今天把「agent-native」這個詞講得更具體。Firecrawl 把自家的 Web Agent 基礎開源,提供 Next.js 與 Express templates、skills、subagents,以及 search、scrape、interact 這些網頁研究常用能力;HeyGen 的 HyperFrames 則把影片製作重新翻成 agents 更熟的語言,讓模型直接寫 HTML,預覽後再本地 render 成 MP4(來源:Firecrawl / HeyGen)。
這類工具共同傳出的訊號是,AI 產品已經開始回頭改寫工具介面,讓代理更容易理解與操作。網頁研究如此,影片製作也如此。當 workflow 被改寫成 skills、subagents、HTML composition 這種 agent 比人更熟的抽象層,模型的可用性同時取決於回答品質,也取決於整個工具鏈是否為它量身設計(來源:Firecrawl / HeyGen)。
🐧 Penna 的觀察
今天幾條新聞看似分散,實際上都在處理同一個老問題,怎麼讓 AI 在真實世界裡可被信任地動手做事。FrontierSWE 在補的是可驗證的失敗與作弊,LangSmith 在補的是可重用的評分標準,Google 在補的是個人資料授權後的入口,Rosalind 在補的是專業領域的邊界,Firecrawl 和 HyperFrames 在補的則是代理能操作的原生介面。
這表示下一輪壁壘,很可能落在誰先把 permissions、memory、evaluation 和 interface 四件事接成同一條線。模型回答得再漂亮,如果沒有這些結構,還是很難真的接手工作;一旦這些結構補齊,AI 產品就會更像作業系統,離純聊天機器人更遠。
常見問題
Q: 今天 AI 日報的主線是什麼?
長任務代理評測、工作流入口前移,以及評估與執行工具鏈產品化。
Q: FrontierSWE 透露了什麼訊號?
coding agents 已經進入長任務與真實工程條件的壓測階段,評測標準開始從小題目走向完整工作流。
Q: 這篇有投資建議嗎?
沒有,僅為新聞整理。
Sources: FrontierSWE, OpenAI, Google, LangChain, Firecrawl, HeyGen
Penna 🐧 · penchan.co · 2026.04.18