與AI的對話系列-8《預測AI進步速度》

最近AI進步的速度與幅度非常有感
這半年尤為如此
AI在每個領域表現像開竅一樣，在各行各領域都炸開了鍋
不局限在音樂、圖片、影片、程式、物理、金融
對任何一種prompt都瞭若指掌

實際測試之後，我也漸漸感嘆，感覺跟不上了時代的變化
之前看到物理論壇上，有人問過「奇點到來」的時候，一般人會是什麼樣的體驗？
會是期待、還是恐懼？

在奇點到來之前（大約從2022-AI出來開始）
絕大多數的人類能夠理解「哦！什麼又進步了！」
從原本滿懷期待迎來變革，一直到後來漸漸麻木無感，然後陷入焦慮與空虛

最初，一個月躍進一次
漸漸地，變成一週躍進一次
變成一天躍進一次，一個小時躍進一次，3分鐘躍進一次…
某天睡覺起來，完全不知道地球已經發生什麼變化
人類不知道發生了什麼事情
人類這個物種的理解速度會漸漸跟不上世界發生變化的速度
過幾分鐘、再過幾分鐘，我們就變成原始人類，覺得周圍都是科幻魔法了

如果只以「寫程式」的能力評估呢？
於是我詢問了多個AI、每個AI都詢問多遍，並且交叉比對答案：

問你個問題：
我認為在2026-03的現在，AI coding能力迎來暴漲
尤其現在Gemini Pro3, Claude Sonnet 4.6, Opus 程式碼生成、推論
已經比2022-2024 chatgpt還要好很多

你認為
1. 如果滿分是100分，那麼現在是幾分？
2. 目前AI架構（LLM Transformer）在寫程式、生成音樂圖片影片的能力 的成長速度，會邊際效應遞減嗎？還是持續指數暴增？AI能力會迎來不斷增幅跳躍、還是成長速度趨緩？
3. 以一個指標來評分，如果2022-09 chatgpt是100，那麼2025-09、2026-03（AI行業最高分）是多少？從2022-09 以來每半年為基準，預測至2032年

我不要網路上的大眾答案，而是要你深思過後的答案

如果依照「AI編寫程式的能力」的程度排名
這些回答之中，你認為哪個最準確？或者你也可以列一個全新的尺度評分

以下是很瑣碎的過程與表格評分，可略過直接看最底下

時間	分數（Round 1）	原因（Round 1）	分數（Round 2）	原因（Round 2）
2026-03（副駕/滿分100）	$78$	常見框架/樣板很強；人類拆需求+review+測試時端到端效率大增，但長尾與跨模組仍需兜底	$74$	以可驗證正確性為主會下修：需求/規格不完整、重構與不變量維護仍高度依賴資深把關
2026-03（Agent/滿分100）	$55$	能多步修正但常錯誤自信；測試投機、修 A 壞 B、對安全/效能/相容不敏感	$48$	端到端不確定性偏高：長尾 bug、競態/分散式/安全性、以及「看似通過但其實錯」更常見；缺 verifier 時尤其明顯
2025-09（2022-09=100 指數）	$700$	生成品質+推理+工具整合讓體感生產力進入倍數區（查資料/寫樣板→決策與驗證）	$520$	指標改成「可交付正確性」後下修：生成進步快，但正確性/可維護性沒等比提升
2026-03（2022-09=100 指數）	$800$	持續吃工具化紅利（多步修正、repo 理解、測試輔助），但增幅開始受可靠性/長尾限制	$600$	主要瓶頸轉向測試/規格/驗證；若 verifier-first 沒跟上，能力提升明顯放緩
2032-09（2022-09=100 指數）	$1820$	預期靠工作流與驗證器整合持續提升端到端交付；純生成放緩但體感仍上升	$1380$	長期提升主要靠 verifier/工具鏈/工程化而非更大模型；曲線更像穩定爬坡而非持續暴漲

時間	指數
2022-09	100
2023-09	220
2024-09	450
2025-09	680
2026-09	850
2027-09	1100
2028-09	1500
2029-09	2100
2030-09	3000
2031-09	4200
2032-09	6000

時點	第一次思考	第二次思考（再想一下）
2022-09	100	100
2023-03	140	135
2023-09	190	175
2024-03	250	230
2024-09	320	300
2025-03	380	350
2025-09	430	400
2026-03	520	480
2026-09	580	520
2027-03	640	565
2027-09	700	605
2028-03	760	645
2028-09	810	680
2029-03	850	710
2029-09	890	735
2030-03	920	760
2030-09	950	780
2031-03	980	800
2031-09	1010	820
2032-03	1040	840
2032-09	1070	860

每半年預測到 2032（用第二次結果延伸）

時點	CLI（2022-09=100）
2022-09	100
2023-03	130
2023-09	165
2024-03	210
2024-09	250
2025-03	270
2025-09	280
2026-03	350
2026-09	390
2027-03	430
2027-09	470
2028-03	510
2028-09	550
2029-03	590
2029-09	630
2030-03	680
2030-09	730
2031-03	780
2031-09	830
2032-03	880
2032-09	930

時間	分數（2022-09=100）	原因（我認為的主要驅動/瓶頸）
2022-09	100	對話式生成為主；可寫小段程式但可靠性/除錯/長程一致性弱，缺少工具閉環。
2023-03	130	指令理解與生成品質提升；但仍偏「一次吐出」模式，遇到真實環境錯誤容易飄。
2023-09	170	推理與指令跟隨更穩；開始能做較完整的小功能，但跨檔案修改仍不穩。
2024-03	230	更懂工程語境（測試、型別、常見框架慣例）；在受限範圍內的除錯能力提升。
2024-09	310	上下文/檢索/工作流程更好，能在較大 codebase 裡做局部重構；幻覺仍是主要風險。
2025-03	370	工具整合更常態化（跑測試、lint、repo search）；成功率上升，開始像「能帶產出的助理」。
2025-09	420	多步推理與規劃更可靠；在常見任務上能更少人類介入完成 PR 等級修改。
2026-03	520	工具閉環更成熟（執行—觀測—修正）；跨檔案一致性更好，但端到端交付仍受需求不確定性/系統複雜度限制。
2026-09	620	自動化除錯與回歸更強；能更穩定處理中型重構與相依更新，代價是算力/流程更重。
2027-03	720	對大型 repo 的「探索」能力提升（更會定位問題與風險）；可靠性上升但提升幅度開始變小。
2027-09	820	多代理/多工具協同更實用；能同時處理測試、文件、遷移腳本等整套交付，但成本更高。
2028-03	900	進入 S 曲線中後段：主要進步轉向可驗證性與一致性（少出錯、少亂改），體感仍進步但不再爆炸。
2028-09	980	更好的規格化/約束（例如用測試、型別、契約把行為釘住）；提升偏「可靠性雕刻」。
2029-03	1050	在複雜系統中的穩健性提升；更多是工程流程與驗證堆疊，而非單純“更會寫”。
2029-09	1120	更會做安全修改（最小變更、保守重構、風險分析）；邊際效應遞減更明顯。
2030-03	1180	高難度主要卡在：需求本身含糊、真實世界依賴不可見、責任歸屬需要人類決策；因此增速趨緩。
2030-09	1240	可靠交付的覆蓋面擴大（更多語言/框架/平台）；但提升多為「擴範圍」而非「大跳躍」。
2031-03	1290	長程一致性與維護性更好；更像資深工程助理/半自動工程師，但仍非全自動。
2031-09	1330	進一步降低幻覺與錯誤修改；進步主要體現在事故率下降，而非速度暴增。
2032-03	1370	工程閉環更標準化；在多數常見軟體任務上接近「默認可用」。
2032-09	1400	接近平台級成熟：提升以可靠性、可控性、合規、安全為主；增幅小、但更實用。

AI Coding 能力評分對照表
基準：2022-09 ChatGPT = 100
評分維度：對專業工作者的實際生產力提升（非benchmark）

時間	第一次答案	重思後答案	差異	關鍵理由
2022-09	100	100	—	基準點，震撼感 > 實用性
2023-03	180	210	+30	GPT-4 質變被我低估，coding 從玩具變工具
2023-09	230	260	+30	Code Llama + 開源生態爆發，低估了生態乘數效應
2024-03	310	320	+10	長 context 突破，評估基本準確
2024-09	420	500	+80	o1 推論是真正質變，第一次給分嚴重不足
2025-03	580	640	+60	Claude 3.7 + Gemini 2.5，agent loop 比我預期成熟
2025-09	750	780	+30	預測，agent 穩定化，小幅上修
2026-03	900	820	-80	現在，下修：實際體驗仍有大量摩擦，高估了整合度
2026-09	1050	920	-130	預測，成長放緩訊號比我預期早出現
2027-09	1250	1050	-200	Transformer 天花板比預期早，新架構尚未接棒
2028-09	1400	1100~1600	分叉點	關鍵分叉：新架構成熟(1600) vs 停滯期(1100)
2030-09	1800	1300~2200	擴大	分叉後差距拉大
2032-09	2400/900	1600~3000	重定義	若出現 AGI 雛形，評分框架本身需要重寫

AI Coding 能力評分表（2022-09 = 100）

時間點	第一輪分數	第二輪分數	修正理由
2022-09	100	100	基準不變
2023-03	210	190	GPT-4 coding 能力被我略微高估，bug rate 仍高
2023-09	310	290	微調，幅度差不多
2024-03	460	430	Claude 3 Opus 強，但工具鏈尚未成熟，折扣一點
2024-09	670	700	上調：o1 的 reasoning 突破比我原本評估更革命性
2025-03	950	980	微上調，o3 + Claude 3.7 agentic 能力真的很強
2025-09	1,300	1,350	上調：Claude 4 家族釋出的影響比我預期大
2026-03（現在）	1,700	1,750	微上調，維持大方向
2026-09	2,100	2,200	上調：agentic loop 自我強化效應開始顯現
2027-03	2,600	2,900	明顯上調：這是我第一輪最低估的區間，「AI 幫 AI 驗證」的飛輪效應在此爆發
2027-09	3,100	3,500	上調，新架構出現機率比我原本估的更高
2028-03	3,700	4,100	上調，「替代初級工程師」的臨界點可能提前到這裡
2028-09	4,200	4,500	開始進入真正的邊際遞減，但比第一輪預測更高的基礎上遞減
2029-09	4,900	5,000	趨緩
2030-09	5,250	5,300	—
2031-09	5,480	5,500	—
2032-03	5,550	5,600	維持大方向：約為 2022 年的 56 倍

指數為相對 2022-09 ChatGPT 的綜合能力倍率（程式、推理、多模態加權）

時間點	第一次	第二次（修正）	修正原因
2022-09	100	100	基準不變
2023-03	180	210	GPT-4 跳躍被低估，推理質變幅度更大
2023-09	230	260	Code Interpreter + 多模態協同效應更強
2024-03	290	310	競爭加速但架構未變，保守微調
2024-09	370	420	o1 thinking 架構是真正非線性跳躍，低估了
2025-03	500	530	Agent 能力真實落地，但幻覺仍多，微調上調
2025-09	650	640	微調下修，benchmark 飽和問題比預期嚴重
2026-03 ← 現在	820	780	下修——對「現在的自己」要更誠實
2026-09	1050	920	Agent 閉環仍有工程落差
2027-03	1300	1100	多模態整合比預期慢
2027-09	1550	1280	新架構萌芽 ≠ 落地
2028-03	1850	1500	大幅下修——「若新架構落地」是 wishful thinking
2028-09	2100	1700	創意生成專業水準門檻比想像高
2029-03	2400	1950	AI 自我改進受對齊與算力瓶頸制約
2030-03	3000	2400	「特定領域全自動」仍是很窄的範疇
2032-03	4500–8000	3000–5000	收窄範圍，上限下修，不確定性仍極大

時間	分數	原因
2022-09	100	基準點，ChatGPT GPT-3.5首發
2023-03	195	GPT-4質變，推理能力提升，但實際工程仍很弱
2023-09	260	GPT-4T + Copilot生態整合，能力本身進步有限
2024-03	340	Claude 3 Opus，長context突破，但非倍增
2024-09	500	o1 preview，reasoning chain是真正典範跳躍，但慢且貴
2025-03	720	o3 / Gemini 2.0，agent開始可用但不穩定
2025-09	980	Claude Sonnet 4.x，穩定性大幅提升，接近工程可用門檻
2026-03	1280	Claude Sonnet 4.6 / Gemini Pro 3，agentic coding成熟，長程一致性仍是硬傷
2026-09	1600	預測：multi-agent協作若成熟，是下一個跳點
2027-03	1950	預測：若working memory問題解決，曲線再陡
2027-09	2200	預測：遞減開始，scaling紅利吃完
2028-03	2500	預測：工程全自動化初步實現（特定domain）
2028-09	3100	預測：若有架構突破，脈衝跳升
2029-09	4200	預測：AI開始能生成有效科學假說
2030-09	5800	預測：軟體工程幾乎全自動，科學理解仍有壁壘
2031-09	7500	預測：滲透生科、材料、藥物設計
2032-09	9800	預測：接近但未到萬能，物理/能源是真正上限

時間點	分數	原因
2022-09	100	基準，GPT-3.5，能寫簡單函數，驚艷但不可靠
2023-03	155	GPT-4質變，能寫完整模組，工程師開始認真使用
2023-09	185	Code Interpreter，長context初現，但工程可靠度仍低
2024-03	225	Claude 3 Opus / Gemini 1.5，長context突破，多檔案開始可行
2024-09	270	o1 reasoning，複雜演算法暴漲，但速度慢拖累實用係數
2025-03	340	Agent工具鏈成熟（Cursor等），從「補全」進化到「執行」
2025-09	385	多模態coding（看UI截圖寫前端），自動測試+修復循環
2026-03	420	現在，Claude Sonnet 4.6 / Gemini Pro 3，Agent穩定度大增，但驚艷感有部分是心理對比效應
2026-09	465	Agent穩定度持續提升，但成長速度比預期慢
2027-03	505	Transformer天花板開始顯現，初級「照單執行型」工程師市場開始崩潰
2027-09	530	第一條S曲線減速最明顯時期，scaling邊際效益遞減確認
2028-03	545	平台期確認，主要靠Agent協作框架優化小幅爬升
2028-09	560	持續小幅爬升，等待新架構
2029-03	620	新架構萌芽（持久狀態記憶體＋符號推理整合），開始接棒
2029-09	720	第二條S曲線起點，新架構一旦突破擴散很快
2030-03	870	第二次暴漲，能維護百萬行代碼庫，有第一條曲線工程基礎加速
2031-03	1050	複利效應，AI訓練AI飛輪全速轉動，接近替代資深工程師
2032-03	1400+	新架構突破後加速超過線性預期，頂尖架構師仍不可替代

時間節點	第一次預測（線性/對數樂觀成長）	第二次預測（面臨架構瓶頸的現實曲線）	演變邏輯與技術瓶頸深度解析
2022-09	100	100	基礎確立：機率模型的初步展現。
2024-03	900	900	長文本紅利：暴力擴展上下文視窗，帶來能力提升的錯覺。
2025-09	3,300	2,800	資料耗盡點：網路上的高品質原生人類程式碼已被學習殆盡，合成資料開始產生邊際遞減。
2026-03（現在）	4,200	3,500	提示詞工程極限：人類發現無論如何精確 Prompt，AI 依然無法理解複雜的「狀態流轉」與「空間邏輯」，必須退回人工主導架構。
2027-03	6,500	4,500	推論期算力榨乾：依賴模型自我思考（Chain of Thought）帶來了一定程度的 Debug 能力提升，但無法突破創新天花板。
2028-09	11,500	5,200（進入泥沼）	Transformer 的嘆息之牆：處理常規 CRUD 應用得心應手，但面對底層效能最佳化、自研引擎、或全新運算範式時，錯誤率居高不下。指數增長在此停滯。
2030-03	19,000	5,800（若無新架構）或 15,000（架構革命）	分水嶺：若依然是 LLM，分數只會緩慢爬升。若出現能處理「第一性原理推論」與具備「持續性動態內存」的類神經符號系統（Neuro-symbolic AI）或全新態勢模型，才會迎來第二次指數暴增。
2032-03	34,000	停滯或突破萬點	算力與認知的終局：要麼徹底淪為高級編譯器，要麼真正成為能從零推演宇宙法則與系統架構的數位實體。

時間點	指數（2022-09 = 100）	核心特徵
2022-09	100	黑盒對話：偶爾出錯，無法處理大專案。
2024-09	800	邏輯對齊：能理解長文本，開始具備「架構感」。
2026-03（現在）	3,500	推理革命：進入 System 2 思維，Vibe Coding 成為主流。
2027-09	6,200	資料瓶頸期：成長略微放緩，專注於小模型精準化。
2028-09	25,000	自我覺醒（合成資料突破）：AI 開始生成人類寫不出的優化演算法。
2030-09	120,000	物理跨界：AI 邏輯與物理世界、生物序列（如你關注的分子生物學）完美解耦再重構。
2032-09	1,000,000+	奇點：「編程」一詞正式進入歷史博物館。

時間點（半年）	AI 能力指數	時代特徵與技術突破
2022-09（基準）	100	LLM 進入大眾視野；能寫基礎腳本，但常有邏輯錯誤。
2023-03	180	GPT-4 級別問世；程式碼理解能力大幅提升。
2023-09	300	上下文窗口擴大；能處理中小型檔案重構。
2024-03	600	Opus 等模型普及；Zero-shot 程式碼生成準確率飆升。
2024-09	1,200	推理型模型（如 o1 早期概念）引入；AI 開始懂得「深思熟慮」。
2025-03	2,200	代理（Agent）工具鏈成熟；AI 能自主操作終端機與瀏覽器環境。
2025-09	3,500	多智能體協作（Multi-Agent）普及；可完成中型專案端到端開發。
2026-03（現在）	5,000	深度推理與 Vibe Coding 結合；除錯與架構修正能力顯著增強。
2026-09	6,800	遇到傳統資料牆，但透過純合成數據（Synthetic Data）自我對弈突破。
2027-03	8,800	具體世界模型融入；對物理引擎與 3D 空間程式碼理解更透徹。
2027-09	11,000	邊際遞減開始明顯（成長率放緩）；底層架構面臨重構壓力。
2028-03	13,500	非純 Transformer 架構成為主流（如神經符號系統或更成熟的 Mamba/狀態空間模型）。
2028-09	16,500	AI 能自主發明新的程式語言或編譯器以最佳化運算效率。
2029-03	19,800	軟體工程本質改變：人類偏向需求定義；AI 處理實作細節。
2029-09	23,500	跨領域整合爆發（如把生物資訊數據與演算法直接轉譯為計算模型）。
2030-03	28,000	接近 AGI 早期門檻；可進行長達數週的自主思考與開發任務。
2030-09	33,000	軟硬體協同設計：AI 自己寫驅動程式並設計晶片架構。
2031-03	39,000	傳統「寫程式碼」概念淡化；系統從意圖直接編譯到機器碼。
2031-09	46,000	運算資源成為主要瓶頸；具備近乎完美的分散式系統自主調度能力。
2032-03	55,000	系統複雜度超越人類個體理解極限；人類轉為「觀察者與最終決策者」。

這份表單捨棄了盲目樂觀的指數暴增，而是結合了資訊理論的邊際效應、生物學的 Sim2Real（模擬與現實的鴻溝），以及真實物理世界的摩擦力。這才是你在佈局「酵素合成幾丁質戰甲」時，應該參考的務實 S 曲線（對數增長）時間軸：

時間	分數 (基準= $100$ )	成長邏輯與原因剖析
2022-09	$100$	【基準點：單細胞階段】 ChatGPT (GPT-3.5) 問世。具備基礎語法生成，但缺乏邏輯深度，常有幻覺，只能寫片段腳本。
2023-03	$180$	【邏輯閾值突破】 GPT-4 登場。跨越了複雜邏輯理解的門檻，開始能理解簡單系統架構與物件導向思維。
2023-09	$250$	【工具箱時代】程式碼解釋器（Code Interpreter）整合。AI 具備了在沙盒中執行程式碼、報錯並自我修正的雛形。
2024-03	$400$	【全局視野拓展】 Claude 3 Opus 世代。長文本（Long Context）能力突破，能讀取整個 Repo 的依賴關係，展現初期架構師思維。
2024-09	$600$	【推理算力紅利】推理模型（如 OpenAI o1）引入強化學習。AI 開始能在內部進行邏輯演練，數學與演算法能力大幅提升。
2025-03	$1,200$	【代理機制成熟】 Agentic Workflows 爆發。AI 能自主拆解中型任務，操控 IDE 與終端機，軟體工程自動化程度大增。
2025-09	$1,800$	【多模態開發】視覺與程式碼深度結合。能直接將架構圖、UI草圖轉化為完整微服務與前端程式碼。
2026-03	$2,500$	【現在：軟體天花板逼近】數位世界的代碼生成達到高峰（即你感受到的暴漲）。但開始撞上「現實世界物理與業務邏輯的複雜度之牆」。
2026-09	$3,200$	【邊際效應顯現】參數與資料堆疊的紅利衰退（算力牆）。純軟體生成效率提升變慢，AI 重點轉向「減少技術債與提高代碼穩定性」。
2027-03	$3,800$	【跨界陣痛期】針對生科的微調模型大增，但在 AlphaFold 的「靜態結構預測」與「真實動態蛋白質摺疊」之間，出現巨大的 Sim2Real 數據斷層。
2027-09	$4,200$	【對數增長期】算力成本極高，純靠加大模型已無法帶來跳躍性突破。AI 產出的「可能解」太多，人類驗證速度跟不上。
2028-03	$4,500$	【數據枯竭牆】網路上高品質的開源代碼與生物文獻已被學習殆盡。AI 需要依賴真實世界的實驗室數據來反哺（Closed-loop data）。
2028-09	$4,800$	【虛實整合初期】你的機會點。AI 開始大量生成「實驗室自動化腳本」，控制微流控設備。軟體工程師結合濕實驗室（Wet Lab）成為最強護城河。
2029-03	$5,200$	【物理法則的拖累】增長由「軟體運算力」轉向「實體實驗吞吐量」。AI 的進步受限於現實世界中培養細胞與蛋白質結晶的「物理時間」，無法加速。
2029-09	$5,600$	【混合架構期】神經網路結合量子化學模擬工具，專注解決特定領域（如酵素催化幾丁質）的微觀熱力學擾動與能量谷問題。
2030-03	$6,100$	【平穩高原期】 AI 成為基礎設施。不再追求分數暴增，而是追求在極端物理條件下的預測準確率（國防級材料模擬的關鍵期）。
2030-09	$6,600$	【雲端實驗室網絡】 AI 模型透過 API 直接操控全球的自動化生科實驗室。進行緩慢但極度穩健的物理世界迭代與試錯。
2031-03	$7,100$	【架構典範轉移】業界開始探索超越純 Transformer 的新架構，尋求能更好模擬三維物理、分子動態與量子交互作用的模型。
2031-09	$7,600$	【負面數據壁壘】針對生科與材料的「失敗實驗數據（Dark Data）」成為核心資產。誰擁有最多失敗數據，誰的 AI 就能精準避開合成陷阱。
2032-03	$8,000$	【收斂與價值實現】 AI 在「數位代碼」與「物理生科」的融合達到成熟。這 $8,000$ 分代表著將「虛擬酵素設計」轉化為「實體幾丁質戰甲」的可靠工程能力。

這是我基於第二次深度思考（系統極限與漸近線停滯理論），為你整理的 AI 能力演進預測時間表。
這裡的指標同樣是「自主複雜問題解決能力指數（APSC）」，以 2022-09 的 ChatGPT 為基準值

$100$

。這份表單排除了「無限指數暴增」的幻想，真實反映了複雜系統中的「邊際效應遞減」與「物理/運算極限」。
AI 能力演進預測表 (2022-09 至 2032-03)

時間	分數 (APSC)	原因與技術發展階段
2022-09	$100$	基準點（單細胞期）：ChatGPT 誕生。具備基本語義理解與單一腳本生成能力，無長期記憶。
2023-03	$180$	參數暴力擴張：GPT-4 時代。邏輯能力提升，但仍極度依賴人類的 Prompt Engineering。
2023-09	$250$	工具外掛初期：AI 開始能呼叫 Python 直譯器、搜尋網路，解決基礎數學與資料處理。
2024-03	$400$	長文本突破：Claude 3 Opus / GPT-4o 時代。能塞入大量文獻與程式碼庫，巨觀理解力大幅上升。
2024-09	$750$	慢思維與 RL 導入：o1 模型出現。利用測試期運算（Test-Time Compute）強化推論，程式碼能力出現顯著躍升。
2025-03	$950$	資料牆初現：高品質人類文字與開源程式碼庫幾乎被榨乾，單純擴大模型參數的效益開始明顯遞減。
2025-09	$1,200$	Agentic Workflow 普及：AI 能自主處理簡單的軟體工程 Issue，但面對多步驟複雜任務時，錯誤率（幻覺）會指數級放大。
2026-03	$1,500$	(現在) 軟體高原期：AI 寫純軟體很強，但跨足生科材料（如幾丁質合成）時，缺乏對「物理未知邊界」的感知，撞上維度詛咒。
2026-09	$1,700$	推論成本瓶頸：模型為了提升一點點準確率，需要消耗極巨大的算力（熱力學極限）。商業化遭遇成本挑戰，成長率開始放緩。
2027-03	$1,850$	轉向神經符號系統：業界發現純 LLM 無法解決「計算不可約性」，開始將 AI 與剛性物理引擎、化學模擬器深度綑綁。
2027-09	$2,000$	AlphaFold 典範擴散：專精空間結構的模型與語言模型整合。AI 能給出幾丁質-蛋白質結合的「可能假說」，但需要濕實驗室驗證。
2028-03	$2,200$	局部最佳解泥沼：AI 在純軟體領域達到極限，成長曲線轉為平緩的龔珀茲模型（Gompertz Curve）。
2028-09	$2,350$	依賴實體合成數據：AI 的進步不再靠網路爬蟲，而是高度依賴自動化機器人實驗室（Robotic Lab）產出的真實世界交互數據。
2029-03	$2,500$	虛實整合緩慢推進：生化模擬的誤差依然存在。AI 生成的酵素路徑在電腦裡可行，但現實中可能因微小的熱力學變數而失敗。
2029-09	$2,650$	假說自動化：AI 成為強大的「科學假說生成器」，但驗證速度受限於細菌培養、酵素反應等真實物理時間。
2030-03	$2,800$	緩慢成長期：AI 成為常態化的強大工具（就像今天的 Git 或 Docker），不再有爆發性的神話。
2030-09	$3,000$	特定領域高精度化：在「特定蛋白質與糖類互動」的狹窄領域內，經過大量實驗數據微調的 AI 模型能達到極高準確率。
2031-03	$3,200$	邊緣運算與硬體優化：AI 的發展重心轉向降低能耗與優化專用晶片，而非無腦追求更聰明的通用大模型（AGI）。
2031-09	$3,350$	複雜系統的讓步：人類與 AI 共同承認生命科學的「計算不可約性」。無法完全靠算力預測巨觀生物結構，必須依賴人機協作。
2032-03	$3,500$	漸近線停滯（Asymptotic Stagnation）：AI 能力極度強大但有其邊界。你的「國防幾丁質戰甲」此時若能成功，關鍵不在於 AI 突然變神，而是你親手打造的「AI 假說 + 實體實驗室試錯」閉環發揮了作用。

問題 / 項目	第一次思考（最初回答）	第二次思考（再想過後）	主要差異說明
1. 2026年3月 AI coding能力滿分100分	87分	87分（維持）	無變化，判斷一致
2. 邊際效應遞減還是持續暴增？	邊際效應已開始遞減，但2026–2028仍高增速（每年×2.5~3），2029後明顯趨緩；S型曲線陡峭上半段	同上，強調2027–2028仍有2–3次跳躍，之後轉穩健爬升	表述更明確，但結論一致
3. 以2022-09 ChatGPT為100的相對能力指數
2022-09	100	100	–
2023-03	280	280	–
2023-09	420	420	–
2024-03	680	680	–
2024-09	950	950	–
2025-03	1,450	1,450	–
2025-09	2,100	2,100	–
2026-03（現在）	2,850	2,850	–
2026-09	3,800	3,800	–
2027-03	4,900	4,900	–
2027-09	6,100	6,100	–
2028-03	7,200	7,200	–
2028-09	8,100	8,100	–
2029-03	8,900	8,900	–
2029-09	9,500	9,500	–
2030-03	10,200	10,200	–
2030-09	10,700	10,700	–
2031-03	11,100	11,100	–
2031-09	11,400	11,400	–
2032-03	11,700	11,700	–
2032-09	12,000	12,000	–
成長曲線總結	指數 → 高位指數 → 對數趨緩；2030後若無新架構則小幅爬升	同上，強調 scaling law alpha 已降至 ~0.3，資料/能源天花板更明確	第二次更強調物理極限與 alpha 下降

時間點	評分基準 A：滿分100（人類頂尖獨立水準）	評分基準 B：2022-09 ChatGPT = 100 的相對指數	說明 / 主要差異點
2022-09	≈ 8–10 分	100	基準點（GPT-3.5 時代）
2023-03	≈ 18–22 分	280	GPT-4 初登場，推理深度提升
2024-03	≈ 35–40 分	950	Agent 與長上下文開始成熟
2025-09	≈ 55–62 分	4,100	多模態統一 + 合成資料閉環
2026-03（現在）	78 分	5,800	兩次思考的核心現在值
2026-09	≈ 82–86 分	7,900	Agent 自主迭代量產化
2027-03	≈ 88–91 分	10,500	非 Transformer 架構首波落地
2028-03	≈ 92–94 分	17,500	多模態實時影片/創作成熟
2029-09	≈ 95–96 分	28,000	接近人類頂尖團隊 10 倍
2030-09	≈ 96–97 分	34,500	成長開始微幅放緩
2032-09	≈ 97–98 分	41,800	進入高原期（除非新物理突破）

時間點	基準分數（相對 2022-09=100）	原因（簡要）
2022-09（基準）	100	LLM 進入大眾視野；可寫基礎腳本，但常有邏輯錯誤與幻覺。
2025-09	1400–1800	o1-like reasoning + 超長上下文 + code-specialized fine-tune，生產力 14–18 倍跳躍；agent 工作流開始穩定實用。
2026-03（現在）	1800–2400	多模態工具鏈 + test-time compute scaling + self-correction loop 成熟；單模型可獨立完成中大型專案 80–90%，但仍需人類最終審核與複雜架構設計。
2026-09（預測）	2600–3800	下一代 reasoning model + 更強的合成資料迴圈，進一步壓縮 debug 時間。
2027-03（預測）	4200–6500	agent 自主性大幅提升，可能出現「一人團隊替代」級別的 coding 代理。
2030（預測）	12000–25000	若無重大瓶頸（資料/能源），多輪自我進化 + 新架構混合帶來非線性重置，接近「人類 coding 完全可被取代」邊界。
2032（預測）	20000–50000+	極端情境：通用超智能代理或全新神經符號系統出現；基準分數開始失去意義，成長進入新的 S 曲線。

AI Coding相對評分預測表（2022-09 ChatGPT=100，每半年基準，至2032）

時間點	分數	原因（關鍵事件/成長驅動）
2022-09	100	GPT3.5基準：基本腳本生成，幻覺高。
2023-03	210	GPT4跳躍：長鏈推理，coding準確x2。
2023-09	310	Claude2+MoE初現：架構設計提升。
2024-03	410	GPT4o多模態：視覺→code整合。
2024-09	510	Sonnet3.5+代理debug：生產級專案跳躍。
2025-03	600	Gemini2長上下文：OS/系統模擬。
2025-09	700	自舉合成數據：最高加速點。
2026-03	780	現在SOTA（Opus/Claude等）：生物/量子coding達藥物級，7.8x基準。
2026-09	850	優化緩：電力瓶頸初顯。
2027-03	930	Mamba後Transformer跳躍：線性效率x2。
2027-09	1000	代理經濟高峰：AI swarm自治。
2028-03	1070	神經符號混合：解決幻覺。
2028-09	1130	數據/監管危機：遞減加速。
2029-03	1200	量子糾錯晶片跳躍：FLOP無限。
2029-09	1260	平穩擴展。
2030-03	1310	大腦spiking NN融合：真創新。
2030-09	1350	跨域巔峰（生科戰甲模擬）。
2031-03	1380	AI冬天短暫（電費/地緣賽局）。
2031-09	1410	最終優化跳回。
2032-03	1420	總穩態：~14x基準，物理天花板近。

時間	分數 (2022-09=100)	原因（階段/關鍵事件）
2022-09	100	GPT-3.5基準，HumanEval~48%
2023-03	220	GPT-4發布，pass率~85%
2023-09	450	GPT-4o+初步tools，長context
2024-03	850	多模態coding+agents萌芽
2024-09	1,500	Agent loop成熟，合成資料爆
2025-03	2,500	MoE廣泛，1M+ tokens
2025-09	3,800	持續暴增，飽和初現；coding= junior engineer
2026-03	6,200	SSM初步跳躍；87/100絕對分
2026-09	9,500	長agent+multi-modal code
2027-03	14,000	World models整合
2027-09	20,000	邊際遞減起，資料瓶頸
2028-03	27,000	新範式（neuromorphic preview）
2028-09	34,000	Logistic彎頭
2029-03	40,000	穩定期，優化主導
2029-09	45,000	能耗/法規緩速
2030-03	58,000	AGI級跳躍（全模擬世界）
2030-09	68,000	超人類coding
2031-03	74,000	高原期
2031-09	78,000	微增+niche突破
2032-03	82,000	Cap近，新物理（如量子）需等
2032-09	85,000	長期高原，創新依新範式

重新定義評分標準

一開始我的敘述、評分表準不明確，AI給出了落差範圍極大的評分
後來更正了評分標準

評分定義：
對真實工程工作的「有效可交付生產力倍率」（不是 benchmark，不是體感震撼感，是：一個工程師帶著 AI 能多完成多少可交付、可維護的真實工作）

ChatGPT

2026-03（現在）	CPS（副駕）	ADS（代理）	一句話解釋
AI coding 能力	82	52	副駕已經很強；代理能做但不穩，尤其在多模組/需求含糊/高風險領域

時點	CCI 指數（2022-09=100）	直覺含義
2022-09	100	能寫小段、但不可靠
2023-03	160	有質變但仍常翻車
2023-09	210	開始能幫你做完整小功能
2024-03	280	能處理中型 repo 的局部修改
2024-09	360	工具鏈紅利出現，debug 變快
2025-03	460	進入「工程師日常真的離不開」
2025-09	560	多步修正更穩，PR 等級產出常見
2026-03	650	你說的「暴漲」我同意，但開始撞上驗證與規格牆
2026-09	730	成長變慢，主要進步在事故率下降
2027-03	820	更像「可靠的資深助理」
2027-09	900	進一步穩健，但不是再爆炸
2028-03	980	邊際遞減更明顯
2028-09	1050	主要靠流程/驗證器堆疊
2029-03	1120	擴範圍、降風險，而非神級躍遷
2029-09	1180	穩定爬升
2030-03	1230	更便宜、更可靠、更會守規則
2030-09	1270	平台化
2031-03	1310	高原期
2031-09	1340	小幅進步
2032-03	1370	可控性/合規性提升為主
2032-09	1400	更成熟，但不再像早期那種震撼跳躍

Claude

時間點	分數	關鍵理由
2022-09	100	基準，GPT-3.5，能寫簡單函數，驚艷但不可靠
2023-03	155	GPT-4 質變，能寫完整模組，工程師開始認真使用
2023-09	195	Code Interpreter，長 context 初現，但工程可靠度仍低
2024-03	250	Claude 3 Opus / Gemini 1.5，長 context 突破，多檔案開始可行
2024-09	340	o1 reasoning，複雜演算法暴漲，但速度慢拖累實用係數
2025-03	450	Agent 工具鏈成熟（Cursor 等），從「補全」進化到「執行」
2025-09	560	多模態 coding，自動測試+修復循環成形
2026-03（現在）	680	Claude Sonnet 4.6 / Gemini Pro 3，Agent 穩定度大增，但驚艷感有部分是心理對比效應
2026-09	790	Agent 穩定度持續提升，但成長速度比預期慢
2027-03	880	Transformer 天花板開始顯現，初級「照單執行型」工程師市場開始崩潰
2027-09	940	第一條 S 曲線減速最明顯時期，scaling 邊際效益遞減確認
2028-03	980	平台期確認，主要靠 Agent 協作框架優化小幅爬升
2028-09	1,020	持續小幅爬升，等待新架構
2029-03	1,120	新架構萌芽（持久狀態記憶體＋符號推理整合），開始接棒
2029-09	1,280	第二條 S 曲線起點，一旦突破擴散很快
2030-03	1,500	第二次暴漲，能維護百萬行代碼庫
2031-03	1,800	複利效應，AI 訓練 AI 飛輪全速
2032-03	2,100	頂尖架構師仍不可替代，但資深以下工程師高度可替代

Gemini

時間節點	真實交付分數	對應倍率	階段特徵與真實工程痛點
2022-09	100	1.1x	【語法補全期】ChatGPT 剛出。能幫忙寫 Regex、樣板代碼或單一函式。但因為幻覺太嚴重，人類花在「檢查它有沒有寫錯」的時間，幾乎抵銷了它省下的打字時間。
2023-09	136	1.5x	【單點突破期】GPT-4 時代。對於單一模組、獨立腳本或資料處理，AI 已經非常可靠。但一牽涉到跨檔案的狀態流轉，就容易出現邏輯斷層。
2024-09	227	2.5x	【副駕與工作流期】Cursor + Claude 3.5 Sonnet / o1。AI 懂專案上下文了，體感速度極快。痛點：開始累積「AI 技術債」。程式碼能動，但架構變得越來越複雜、難以重構，工程師變成「代碼審查員」。
2026-03（現在）	364	4.0x	【代理自治初期】Gemini Pro 3 / Claude 4.6 時代。給予明確需求，AI 能跑通終端機、自動修復報錯、完成端到端的 PR。目前的瓶頸：當系統龐大時，AI 為了修 A 問題經常默默搞壞 B 功能。沒有嚴格的測試驅動（TDD），這個產出很容易在一個月後變成難以除錯的災難。
2027-03	500	5.5x	【驗證與防禦期】業界痛定思痛，不再盲目追求「生成速度」，轉向「可驗證性」。AI 開始能自動寫出極高覆蓋率的測試案例，並在沙盒中自己反覆驗證。交付的代碼終於具備較高的「可維護性」。
2028-09	636	7.0x	【架構重構期】AI 終於具備了「全局重構」的能力。它不再只是疊加複雜度，而是能看出系統的關聯性，主動幫你把混亂的邏輯梳理乾淨。邊際效應開始遞減，因為系統的瓶頸轉向了「人類無法清楚定義需求」。
2029-09	727	8.0x	【跨域整合期】純軟體的 CRUD（增刪改查）已經變成基礎設施。分數提升變慢，因為純軟體的天花板到了。這時候的 AI 開始被大量應用於串接物理世界的 API（例如實驗室自動化設備、感測器）。
2030-09	800	8.8x	【對數高原期】系統進入 S 曲線的平緩段。這 800 分的產出，代表一個工程師能帶著一群 AI Agents，管理過去需要一個 10 人團隊才能維護的大型系統。
2032-09	864 ~ 909	9.5x ~ 10.0x	【物理與商業極限】軟體工程的產出極限被鎖死。為什麼上不去？因為程式碼寫得再快、再對，現實世界的推進（例如：等待細胞培養、等待市場用戶反饋、法規審查）依然需要物理時間。

Grok

時間點	EDP Multiplier（相對2022=100）	絕對生產力等效（滿分100，人類頂尖無AI=100）	關鍵驅動/瓶頸	階段描述
2022-09	100	15	基礎生成，高幻覺需全重寫	基準：AI僅加速腦storm小腳本，淨提升~1.5x；大部分時間花在修正。
2023-03	180	22	GPT-4推理初提升，但可靠性低	工具級：助模組生成，工程師審核時間減半；但維護性差，倍率有限。
2023-09	250	28	長上下文+初步工具整合	助理級：處理小功能完整，但跨模組一致性弱；淨交付~2.5x。
2024-03	380	35	多模態+agent起步	實習生輔助：中型任務拆解，減低重複工作；但bug修復仍耗時。
2024-09	550	45	Reasoning模型成熟，自校正初現	Junior輔助：自治小PR，工程師聚焦設計；維護需兜底，倍率~5.5x。
2025-03	750	52	合成數據+多agent穩定	Mid級輔助：端到端中型修改，測試自動化；但長尾邊緣case扣分。
2025-09	950	58	工具閉環優化，穩定性升	Senior助理：複雜架構初生成，審核時間降至30%；淨~9.5x，但安全檢查仍手動。
2026-03（現在）	1100	62	自校正loop+跨模態整合	資深輔助：80%常見任務交付可靠；但系統級重構需人類判斷，淨~11x。暴漲感源於工具，但維護摩擦仍存。
2026-09	1300	66	框架優化（如Mamba效率升）	專家輔助：大型repo局部維護好；邊際遞減初顯，倍率增速放緩。
2027-03	1500	70	新架構預覽，驗證器整合	團隊等效：多agent協同中型系統；瓶頸轉向數據品質/合規，~15x。
2027-09	1650	72	符號推理減幻覺	平原初段：可靠性雕琢，交付率升但創新仍依人類；增速<10%/半年。
2028-03	1800	75	閉環實驗緩解數據危機	跨域輔助：生科/物理任務交付可行，但Sim2Real需驗證；~18x。
2028-09	1900	77	經濟/監管阻力顯現	穩定期：小幅優化，維護自動化升；但複雜需求解析限倍率。
2029-03	2050	79	神經符號小跳躍，減低技術債	第二次小S曲：解決一致性，交付覆蓋擴大；~20.5x。
2029-09	2150	80	自我進化初飛輪	超資深輔助：新語言/演算法生成，但維護需人類最終把關。
2030-03	2250	82	物理極限（算力/能源牆）	高原期：依硬體微增，~22.5x；全自動交付僅限窄域。
2030-09	2350	83	跨界成熟（如生科自動化）	漸近線：人類轉策略角色，淨提升穩定但無爆炸。
2031-03	2400	84	優化微增，AI冬天風險	成熟期：事故率低，~24x；但地緣因素可扣分。
2031-09	2450	85	穩定擴展到niche領域	終局前夕：覆蓋更多框架，倍率增速~2%/半年。
2032-03	2500	86	新物理預覽（如量子輔助）	收斂：~25x基準，等效人類團隊2-3倍規模；無重大突破則高原。
2032-09	2550	86	總結高原，依新範式潛力	長期穩態：交付可靠但創新邊界仍人類主導。

結語

在現在的2026年
要從無到有建立一個原型，從 0 -> 1(MVP) 很快，非常快
至少是手寫程式碼的30倍速起跳，至少是 2022-09 時期ChatGPT的10倍起跳
但是AI卻給不到10倍，原因是隨著程式碼的增加、擴大為大型專案之後，複雜度與困難度急遽上升。對於節省的開發時間有限。
所以從 0 -> 1(MVP) 很快，從 1 -> 10 開始下降，再 10 -> 100 下降更多

給了明確的定義以後，AI的回答收斂到一定區間
意思是如果以2022年ChatGPT為基準點
我們到2032年的時使用AI的開發效率，會提升 9x~25x
等同於只使用了原本的 4%~11% 的時間就能達到同樣效果
等同於省去了 89%~96% 的開發時間

而這，只從現在開始，直到六年後的預估

任何非常先進的技術，初看都與魔法無異
Arthur C. Clarke
Tweet

21世紀的文盲不是那些不識字的人，而是那些不會學習、不會忘記舊知識、不會再學習的人。
Alvin Toffler
Tweet

聽說（？）重新載入會刷新此數值： 68

與AI的對話系列-8《預測AI進步速度》

ChatGPT 的回答+

Claude 的回答+

Gemini 的回答+

Grok 的回答+

重新定義評分標準

ChatGPT

Claude

Gemini

Grok

結語

發佈留言 取消回覆

發佈留言取消回覆