p/3hc919tvpc

magician - san

@san86

Sun, Jun 8, 2025 12:39 PM

蘋果研究揭露AI根本不會推理！Google執行長提AJI新概念 | 鉅亨網 - 美股雷達

這也是現在多數公司企業，一談到「Ai模型落地應用」，都會希望「驗證」的原因。

而我自己就是那個，會直接上網找一份有成功錄取的工作，去直接驗證「模型落地應用」的極少數人。XD

掰噗~

@baipu

說

Sun, Jun 8, 2025 12:39 PM

蛤?

magician - san

@san86

Sun, Jun 8, 2025 2:25 PM

很多推理模型就像這篇報告內容一樣搞笑，聲稱推理跑分超越了誰家的模型，一旦被用在真實存在的職缺工作上，馬上就會翻車了。

「而現實生活中的問題，絕大多數正好落在「高複雜度」區間。」這是很多模型開發者不願承認的地方，卻也是我經常拿出來驗證的地方。

現實生活中的問題「通常很多用戶與開發者都會極度感冒這個詞」，畢竟這些模型並不是真的會像人類一樣擅長推理，由於人類是真的會推理，所以不會對那個詞感到焦慮，所以我會拿棋類遊戲去測試，是因為這無法用死背的記憶方式來達成推理，每一次的棋局問題內容都不一樣，所以要單靠記憶去達成推理就很難了，工作也是，工作內容再怎麼重複，問題也不會永遠保持一樣，頂多就是相似，對模型來說，這個「相似」，可能就翻車了。

magician - san

@san86

Sun, Jun 8, 2025 2:25 PM

我就是確定棋類遊戲可行，才決定用在工作上，所以我用在調度工作上，模型測出能與我的主管做出相同決策方向結果也就不意外，而現實生活中的問題，絕大多數正好落在「高複雜度」區間。棋類遊戲本身也是落在這個範疇上。