在刀劍神域(SAO)裡面的世界觀,
人工智能分為 Top Down、Bottom Up 兩種訓練方式
Top Down 是人類運用經驗和知識庫,賦予AI抽象的意義和規則
Bottom Up 則給予AI初始靈魂,讓他在環境摸索、自主學習,建立起一套規則
而搖光(Fluctlight)就是Bottom Up,與強化學習的方式非常像

強化學習(Reinforcement)是什麼?
強化學習是中的一種訓練方式
不像「監督式學習」需要人工label、餵標準答案
也不是「非監督式學習」那樣,自動分群、找出資料的內在關聯
而是自己決定要怎麼做、自己根據行動後的回饋(獎勵或懲罰)學習什麼是好策略
而策略梯度方法(Policy Gradient)是強化學習中一種優化行動的演算法
讓Agent通過不斷試錯來調整行為策略的學習方法
雖然做著相同的事情,但在不同的環境背景中會有不同的獎勵,甚至還會有懲罰。
明明做出相同舉動,系統給分卻不同,這件事乍看之下有點弔詭
但舉兩個生活例子就能明白:
ex:
在MMORPG遊戲中
一位高等法師在刷怪區施放範圍技能,消滅了此區域的怪物,怪物消失,獲得了大量經驗值。
此區怪物剛被清除,還來不及重生,
此時來了另一名法師做一模一樣的事情,對著一片空曠的土地施展範圍技能,卻啥也沒得到。不論重複幾次都是。

ex:
在馬路上
前方的車開的緩慢,後方的車輛被迫也只能開得很慢
此時道路的紅綠燈開始閃爍,由綠燈轉為黃燈,前車徐徐開過十字路口,剛好在紅燈變換之前通過了
不僅安全駕駛,還節省時間,因此得分、賺爛了
此時後方車做著與前方的車一模一樣的事情,然而卻被判定為闖紅燈
不僅時間緊迫、危險駕駛
還會被判定為違規、遭警察開罰單,虧爛了
(這與股市“進出時間點”很相似
明明都做著相同行為,結果卻天差地遠)
真實世界中,環境是隨著時間而變化的
而且,不只隨著時間變化,環境還會隨著他人的行為(環境)而產生變化
行為本身不是重點,獎勵與懲罰是被環境給定義的
人類大腦的學習行為
是由環境中不斷獲得獎勵、懲罰,由環境(系統)所給予的反饋,學習、建立起一套準則
這就是神經網路,具有可塑性、可學習性的本質
為什麼要「學會走路」,為什麼要「學語言」,為什麼要「學OO」…
學習(適應) -> 提高競爭力(進化) -> 存活(延續)
所有生物的“學習行為”,都是透過環境中不斷獲得的獎勵與懲罰塑造的
藉由外部世界的回饋訊號,調整行為、建立準則,學習怎麼生存
本質上都是:感受 -> 試錯 -> 調整 -> 適應
就像強化學習模型一樣,agent不會一開始就知道最終目的(reward)是什麼
只能不斷更新策略,直到找到一條(暫時)最合理的路

可以說,「學習」就是「從環境中尋找生存的方式」
(這也是為什麼在面臨威脅、激發生存本能之下,能發揮最好的學習效果)
不斷藉由環境的變化與反饋,調整自身的行動準則
而「行為」具有侷限性,所以依賴於周遭環境「給出分數」
所以每一件事情,都要看更寬廣的上下文
…然而
每一個上下文,都會依賴於更多的上下文;每一個環境,都能找到背後更大的環境
所以,無論所處在哪個“視角”,都是有其局限性的

“相同的一個字“,能夠被放在不同句子中,
”相同的一句話“,被放在不同文章章節,
“相同的一段故事”,在不同的文化解讀中,
都可以呈現出截然不同的意思
ex: 殺人(通常聯想到是負面的行為)
在社會中殺人 -> 違法、會被譴責
在遊戲中殺人 -> 可能是任務目標
在戰爭中殺人 -> 可能被視為英勇
ex: 在戰爭中殺人(通常聯想成英勇的行為)
在戰爭中殺敵人 -> 保衛國家,得以被頒勳
在戰爭中殺戰俘 -> 可能是違反人道行為
在戰爭中殺盟友 -> 普遍被視為背叛
ex: 在戰爭中殺盟友(通常聯想是背叛行為)
在戰爭中殺害昔日盟友 -> 利益分裂使關係反目
在戰爭中刺殺領袖奪權 -> 弒主、成為開國之君
在戰爭中刺殺邪惡政權領袖 -> 被視為正義之士

語境(context dependence)
同樣的字符、相同的構成單位,在不同的環境位置上出現,就有不同的意義和立場
這一點
在書本字裡行間、在程式碼裡、在基因序列、在原子層級、在電腦01,都是一樣的
在真實社會、國際政治上也都是如此
細菌如此,螞蟻如此,人類如此,地球如此,宇宙也是如此。
每個粒子都是一個點,當一大群的粒子組織聚集在一起,才具有「相對較大的意義」
將視野看遠一點,
至今為止,人類的意義取決於腳下的地球生態之上
放眼未來,人類的意義有望夠拓展到宇宙多個星球之上
可是,我不自覺得往更大的方向思考
那宇宙的意義呢?
宇宙膨脹後萬有引力收縮而回歸奇點大爆炸,不斷地循環?
星系間是三維結構在膨脹,而宇宙是四維結構,最終兩邊相通成一個圈?

無論是或不是
如果宇宙本身沒有目的,那人類到最終也沒有意義
因為我們無法知道,此時此刻為何、為誰、為什麼而行動
可以知道的是
這個世界本身就是循環往復、永恆回歸的
每一個角色都會以不同的場面、形式再現
每一件事情都會不斷地重複發生,在相同場景、不同地方
就好比,每一個字符都會在不同的書籍和文章中重複出現
每一場衝突、每一起事件,都是互換角色身份,不斷地發生
每個人此刻的立場及觀點、每一種情緒,都會在過去/未來與另一個人對調
只是,事件的對象不一定是你我,故事的主角大概會是別人
是誰、是哪個點、是什麼事情?就是概率與比例的「排列組合」
既然“探討意義”這件事,
無論將視野拉到多遠,無論想法發散到什麼地步
無論做了什麼嘗試,都無法得出結果(或者改變結果)
那不如就聚焦於當下
那麼,將視野拉回來吧
在戰場上
無論「士兵」參與哪一方陣營,一但投身戰鬥,就必須奮戰到底
結果是哪一國勝敗、哪一方正義或邪惡,哪一邊勢力多數哪一邊少數
都只能替自己所處的陣營(立場、環境)而做出努力、犧牲奉獻
因為,這就是此刻士兵的人生意義了
即便是局部的、是暫時的,但也是貨真價實存在的意義

所以,
假如我只是「一個點」,一團微不足道的粒子
那麼對於「我」來說,所有的結果與意義都取決於「當下、眼前」
什麼事情重要、誰對我來說重要?
身邊的人,所處的環境,與自己關係親密的人、事、物
答案呼之欲出
(我想這大概也是Deepseek的策略精髓)
GPT不斷往外探尋更大的意義,一個通才全能地包辦所有事項,非常強大
Deepseek則聚焦於眼前局部環境,分化出多個人才,更傾向於社會網路的分工合,非常高效
哲學思考的延伸:
四方上下曰宇,往古來今曰宙。
原來「無窮」便是如此啊。人與天地萬物都在無窮之中。
宇宙便是吾心,吾心即是宇宙。宇宙內事乃己分內事;己分內事乃宇宙內事。
—— 陸九淵
若將「意義」擴展,不再侷限於個體之中呢?
“一為全,全為一”
這句話可以從三個面向解讀:
(有機會再詳細討論)
- A=B,B=A 我就是世界,世界就是我(我包含世界,世界包含我)
- A∈B∈C 世界包含我,我包含粒子(相同特性的遞迴套娃)
- 1=0=∞ 本體、虛空、無邊界(萬象歸一,一歸何處?一歸虛無。)
一即一切
…
為了存活下去,人必須尋找能量來源
於是找食物吃,食物成爲「我」的一部分、成為我的血肉器官
這些食物原本也是有生命的,在他們死後,是「我」賦予了它們意義
這就是食物鏈,萬事萬物皆有關係
我由萬物構成,萬物亦由我延續
那麼,在我死去之後
我會成為萬物的一部分,亦由「萬物延續我」

若將自己投身到更大的「環境」中,
任由自己被吸收、被吞沒、被分解,成為其中的一部份,「意義」就能得以延續下去
如同
小漩渦捲入大漩渦中,大旋渦沒入巨浪之中
每一個個體終將成為更大旋轉體的一部分
萬物互為環境、彼此定義彼此

在全球分工合作的供應鏈中
許多產品在台灣精密加工後,先運至美國集中庫存,再運回台灣批發販售給最終消費者
明明是相同的商品,卻繞了地球一大圈又回到原點
顯然,這個過程看似低效、荒謬、沒邏輯
不過這件事在不同的人或角度看來就會擁有意義
對於「石油」來說,它知道自己的命運
它所做的就是為了飛機航行目的,不顧一切的提供動力來源
為了讓飛機航行、讓物流運作,這就是燃料的價值
對於「工廠」、「倉儲」、「消費者」來說,也各自具有不同的意義和價值
將世上發生的每一件事
每個細節放大來看,都是一段精彩的故事
這些表面現象的背後,每個角色各司其職、各有其意義與價值
猶如將一本書中的段落放大來看,每個字都有在這個位置上的意義

宇宙最終目的
可能有意義、可能沒意義
可能會繞遠路、可能循環往復
可能人類過於渺小、而無法領悟
…
不過,不需要去探尋宇宙的意義
因為我們就身處其中
可能是飛機、同時也是燃料;可能是食物、同時也是消化者
在這之中尋找意義,就是人生的全部意義
發佈留言