2025-08-10 週記

預測 TGA 2025

年度遊戲、音樂、美術、獨立遊戲：33 遠征隊
指導、敘事、角色扮演：死亡擱淺 2
- （角色扮演我覺得也有可能是天國降臨 2）
最佳演出：Higgs 的演員 Troy Baker

試玩 GPT-OSS

用 GPT-o3 上網搜尋論文再生成了一些困難的醫學知識問題 - 大部分都是次專科等級的（間質性肺病、孕婦自體免疫） - 來看看 GPT-OSS 120B 的程度如何。結果所有問題都可以答對 - 而且可以具體指出是哪個 trial。這個知識量跟 recall 的能力真驚人！遠遠超越當年的 GPT-3.5，而這樣的模型居然能輕易的跑在我的 Mac Studio 裡面。

是說 GPT-5 也是這週發佈。劇本運作的速度比 AI 2027 預估的還快，每兩個月就有一批新的、可怕的工具出現，比方說：

ChatGPT deep research 是二月才發布的（Gemini 則是一月多）
Codex 跟 Claude Code 是五月發布的（CC 二月是預覽版）
GPT-o3 是四月發布的，四個月後隨即被 GPT-5 掃入歷史的垃圾桶

當然有人拿一些 LLM 至今似乎還沒辦法克服的軟肋去表達「模型錯誤很多」。例如要模型去算求解 5.9 = x + 5.11 這一類的問題。我個人覺得沒有什麼意義，LLM 的架構就是那樣，你不可能要一個 Transformer 展現全部的人類智能；我個人認為主要進步還是讓 LLM 可以編寫外部程式處理這些問題，例如數學計算或圖像計數、OCR 等問題。

YFWu's Blog

2025-08-10 週記

推薦 Reddit

試玩 GPT-OSS