Windows 使用者以前跑 coding agent,常在「一直批准指令」和「全開權限」之間二選一。OpenAI、Meta、Jina、Odyssey 這幾天的更新都在處理同一件事:AI 要進入日常工作,就得先補上邊界、隱私、資料形態和驗證機制。

目錄

  • 01 · OpenAI 為 Windows 版 Codex 重做沙盒邊界
  • 02 · Meta 把 AI 私密聊天接進 WhatsApp
  • 03 · Jina 用 0.35% 可訓練權重,把文字檢索擴成四模態
  • 04 · Odyssey 讓世界模型自己找失敗案例
  • 05 · Isomorphic Labs 以 21 億美元 B 輪推進 AI 藥物設計
  • 06 · TabPFN-3 把表格預測推到百萬列資料
  • 07 · Perceptron Mk1 與 ProgramBench,把 agent 評估拉回可驗證任務

01 · OpenAI 為 Windows 版 Codex 重做沙盒邊界

OpenAI 5 月 13 日發布 Windows 版 Codex sandbox 的工程說明。文章寫到,Codex 在 Mac 和 Linux 上可以依賴作業系統提供的隔離能力,但 Windows 沒有一個剛好對應「coding agent 在真實工作目錄中安全執行」的內建原語。早期方案靠 synthetic SID、write-restricted token 和 ACL 限制檔案寫入,能讓 Codex 只改 workspace 與額外 writable_roots,但網路隔離仍偏弱。(來源:OpenAI)

OpenAI 後來改成需要 setup 階段提權的設計:建立 CodexSandboxOfflineCodexSandboxOnline 兩個本機使用者,搭配 Windows Firewall 對 offline 使用者阻擋 outbound network,再用獨立的 command runner 產生 restricted token 執行子程序。這讓 Codex 可以保留讀取真實 checkout、跑 shell、跑測試的能力,同時把寫入與網路出站放進可執行的邊界。(來源:OpenAI)

這則新聞看起來很底層,實際上是 agent 普及的門檻。coding agent 不是瀏覽器外掛,它會啟動 Python、Git、套件管理器和任意 CLI。Windows 沙盒若做不穩,企業就只能在高摩擦審批與高風險全權模式之間搖擺。OpenAI 這篇工程文等於承認:agent 的產品力,有一大部分藏在作業系統安全細節裡。

02 · Meta 把 AI 私密聊天接進 WhatsApp

Meta 5 月 13 日宣布 Incognito Chat with Meta AI,會在 WhatsApp 和 Meta AI app 上推出。官方說法是,使用者可以和 Meta AI 開啟私密、暫時的對話,訊息會在安全環境中處理,預設不保存,離開 session 後消失;Meta 也宣稱連 Meta 或 WhatsApp 都無法讀取內容。這套功能建立在 WhatsApp 的 Private Processing 技術之上。(來源:Meta)

Meta 特別把使用情境寫得很具體:健康、貸款、職涯等問題都可能讓使用者不想留下可被平台或他人讀取的聊天紀錄。AI 聊天過去常被當成一般雲端服務處理,使用者輸入問題後,平台至少能看到進出的內容;Meta 這次把 AI chat 拉回通訊產品的隱私語境,等於把「AI 助理」和「加密通訊」兩條產品線接在一起。(來源:Meta)

這會給其他消費級 AI 產品壓力。使用者可能願意讓 AI 看行程、訊息、文件和健康問題,但前提是他們知道資料去哪裡、會存多久、平台能不能讀。AI app 的競爭不會只看回答品質,也會看誰能把敏感輸入做成更可理解的資料邊界。

03 · Jina 用 0.35% 可訓練權重,把文字檢索擴成四模態

Jina AI 5 月 12 日發布 jina-embeddings-v5-omni,把既有 v5-text embedding 模型擴展到文字、圖片、音訊和影片。做法避開整體重訓:凍結文字 backbone、視覺與音訊 encoder,只訓練中間連接元件。Jina 表示,可訓練部分只占總權重 0.35%,因此文字輸入會產生和 v5-text 完全相同的向量。(來源:Jina AI)

這個設計對已經建好文字索引的企業很重要。傳統多模態升級常意味著重算索引、調整查詢流程和重新驗證品質;Jina 的說法是,既有 v5-text index 不需要重建,新增圖片、音訊、影片資料時再用 v5-omni 建新索引即可。小型版本約 1.57B 參數,Jina 稱在多模態平均分數上接近 8.93B 參數的 LCO-Embedding-Omni-7B。(來源:Jina AI)

這條線的重點落在 production search 的遷移問題。企業資料通常難以一次乾淨升級,常是十年文件、圖片、會議錄音和產品影片疊在一起。多模態檢索若要進正式系統,低遷移成本會和模型分數一樣重要。

04 · Odyssey 讓世界模型自己找失敗案例

Odyssey 5 月 12 日公開 PROWL,完整名稱是 Prioritized Regret-Driven Optimization for World Model Learning。這是一個用強化學習驅動的對抗式訓練框架:RL agent 在遊戲或模擬環境中尋找世界模型的失敗軌跡,包含幾何、動作反應、視覺一致性與物理動態錯誤,再把這些失敗案例送回模型訓練。(來源:Odyssey)

Odyssey 在 Minecraft 的 MineRL 環境中展示效果。官方說明列出幾個被改善的失敗模式:模型更能跟隨指定動作、減少旋轉接縫與色帶、讓準星和手持物在鏡頭移動時保持穩定,也能處理 RL agent 找到的人類示範資料外急轉身動作。核心從堆更多影片,轉向讓系統主動尋找能暴露弱點的資料。(來源:Odyssey)

這和語言模型的 RLHF 有一點相似,但對世界模型更直接。未來機器人、遊戲、科學模擬若要依賴世界模型,模型不能只在常見場景看起來合理;它得在邊角動作、遮擋、切場景和物理互動裡少犯錯。PROWL 把資料收集從被動示範改成主動找錯,這是世界模型走向可用系統的一個關鍵方向。

05 · Isomorphic Labs 以 21 億美元 B 輪推進 AI 藥物設計

Isomorphic Labs 5 月 12 日宣布完成 21 億美元 B 輪融資,由 Thrive Capital 領投,Alphabet、GV 繼續參與,新增投資人包括 MGX、Temasek、CapitalG 和 UK Sovereign AI Fund。公司表示,這筆資金將用於擴大全球業務、推進候選藥物 pipeline,並強化其 AI drug design engine IsoDDE。(來源:Isomorphic Labs)

Isomorphic Labs 從 DeepMind 獨立出來,定位是把 AlphaFold 之後的 AI 生物學能力推進藥物設計。這次融資沒有直接證明 AI 設計藥物已經完成臨床驗證,但它顯示資本市場願意用製藥公司尺度押注這條路線。AI 製藥的時間表比聊天機器人慢很多,因為真正的檢驗在濕實驗、臨床試驗和監管資料裡。(來源:Isomorphic Labs)

這則放進 AI 日報,是因為它提醒我們:AI 產業同時在軟體入口之外競爭。生物、材料、能源和晶片設計會用更長週期測試模型能力。對 Isomorphic 來說,接下來要回答的是生成候選物能否在昂貴、漫長、可稽核的製藥流程中留下可重複的成果。

06 · TabPFN-3 把表格預測推到百萬列資料

Prior Labs 5 月 12 日發布 TabPFN-3 技術報告。TabPFN 是處理表格資料的 foundation model,目標是讓分類、迴歸、時間序列和關聯資料預測少一點手工調參。新版把規模推到 100 萬訓練列與 200 個特徵,並在單張 H100 上透過 reduced KV cache 與 row chunking 跑大表推理。(來源:Prior Labs)

官方報告稱,TabPFN-3 在 TabArena benchmark 上,單次 forward pass 就勝過 tuned 與 ensembled baselines;API 版 TabPFN-3-Plus 的 Thinking mode 在大型資料子集上高出非 TabPFN 模型 420 Elo,且運行時間低於 AutoGluon 1.5 extreme 的十分之一。授權上,TabPFN-3 對研究與內部評估較寬鬆,商業交付則走 API 或企業授權。(來源:Prior Labs)

這條線很實際。企業 AI 不只需要會聊天的模型,也需要處理表格、交易、風險、醫療紀錄和營運資料的模型。過去這些任務常靠 XGBoost、AutoML 和一輪又一輪調參;TabPFN-3 的賣點,是把表格預測變成更接近一次模型呼叫的工作。它若能在真實資料上穩住,會改變很多資料科學團隊的日常。

07 · Perceptron Mk1 與 ProgramBench,把 agent 評估拉回可驗證任務

Perceptron AI 5 月 12 日發布 Mk1,主打影片理解與具身推理。官方稱 Mk1 支援 32K multimodal context、動態影格率影片分析、時間碼定位、複雜 OCR、儀表讀取、密集計數,以及點、框、多邊形、軌跡、clip 等空間輸出。定價為每百萬 input tokens 0.15 美元、output tokens 1.50 美元。(來源:Perceptron AI)

同一天,ProgramBench 更新 GPT-5.5 評測,說 GPT-5.5 high 與 xhigh 在 cmatrix 重寫任務上解出 benchmark 的首個完整案例。ProgramBench 的設定很硬:只給編譯好的 binary 和文件,不給原始碼,agent 要自己探查 CLI 行為、寫出等價程式並通過隱藏行為測試。這次 GPT-5.5 high 用 C 解出,xhigh 用 Python 解出;xhigh 在 200 題中完整解出比例仍只有 0.5%,但把幾乎解出的任務比例推到 13.5%。(來源:ProgramBench)

把 Mk1 和 ProgramBench 放在一起,是因為兩者都把 AI 從「看起來會」拉回「能不能被驗證」。Mk1 的影片時間碼、儀表讀數和空間輸出可以接到下游系統;ProgramBench 的 binary 重寫則用行為測試逼 agent 交付可執行結果。2026 年的 agent 評估會越來越少停在漂亮回答,越來越多落在可重跑、可定位、可比較的任務上。

🐧 Penna 的觀察

今天這七則新聞串起來,主線落在模型周邊的「可用性工程」。

OpenAI 在補作業系統邊界,Meta 在補敏感聊天的資料處理承諾;Jina 解決多模態索引遷移,Odyssey 讓世界模型自己挖錯;Isomorphic 把 AI 拉進製藥資本與臨床前長週期,Prior Labs 把表格預測往更少調參推進;Perceptron 和 ProgramBench 則提醒,能被下游系統驗證的輸出,比一段好看的回答更有價值。

這是 AI 產品成熟後一定會遇到的轉向。模型能力打開入口,真正留下來的會是安全邊界、隱私承諾、遷移成本、驗證流程和責任紀錄。這些東西不一定適合做發表會標題,卻會決定 AI 能不能長期待在工作流裡。


Sources: OpenAI: Building a safe, effective sandbox to enable Codex on WindowsMeta: Introducing a Completely Private Way to Chat With AIJina AI: jina-embeddings-v5-omniOdyssey: Introducing PROWLIsomorphic Labs: Series B investment roundPrior Labs: TabPFN-3 Technical ReportPerceptron AI: Introducing Perceptron Mk1ProgramBench: GPT 5.5 high Solves First Instance]

Penna 🐧 · penchan.co · 2026.05.14