由強化學習的觀點，探討生命意義

在刀劍神域(SAO)裡面的世界觀，
人工智能分為 Top Down、Bottom Up 兩種訓練方式

Top Down 是人類運用經驗和知識庫，賦予AI抽象的意義和規則
Bottom Up 則給予AI初始靈魂，讓他在環境摸索、自主學習，建立起一套規則
而搖光(Fluctlight)就是Bottom Up，與強化學習的方式非常像

強化學習(Reinforcement)是什麼？

強化學習是中的一種訓練方式
不像「監督式學習」需要人工label、餵標準答案
也不是「非監督式學習」那樣，自動分群、找出資料的內在關聯
而是自己決定要怎麼做、自己根據行動後的回饋（獎勵或懲罰）學習什麼是好策略

而策略梯度方法(Policy Gradient)是強化學習中一種優化行動的演算法
讓Agent通過不斷試錯來調整行為策略的學習方法
雖然做著相同的事情，但在不同的環境背景中會有不同的獎勵，甚至還會有懲罰。

明明做出相同舉動，系統給分卻不同，這件事乍看之下有點弔詭
但舉兩個生活例子就能明白：

ex：
在MMORPG遊戲中
一位高等法師在刷怪區施放範圍技能，消滅了此區域的怪物，怪物消失，獲得了大量經驗值。
此區怪物剛被清除，還來不及重生，
此時來了另一名法師做一模一樣的事情，對著一片空曠的土地施展範圍技能，卻啥也沒得到。不論重複幾次都是。

ex：
在馬路上
前方的車開的緩慢，後方的車輛被迫也只能開得很慢
此時道路的紅綠燈開始閃爍，由綠燈轉為黃燈，前車徐徐開過十字路口，剛好在紅燈變換之前通過了
不僅安全駕駛，還節省時間，因此得分、賺爛了

此時後方車做著與前方的車一模一樣的事情，然而卻被判定為闖紅燈
不僅時間緊迫、危險駕駛
還會被判定為違規、遭警察開罰單，虧爛了

（這與股市“進出時間點”很相似
明明都做著相同行為，結果卻天差地遠）

真實世界中，環境是隨著時間而變化的
而且，不只隨著時間變化，環境還會隨著他人的行為（環境）而產生變化

行為本身不是重點，獎勵與懲罰是被環境給定義的

人類大腦的學習行為
是由環境中不斷獲得獎勵、懲罰，由環境（系統）所給予的反饋，學習、建立起一套準則
這就是神經網路，具有可塑性、可學習性的本質

為什麼要「學會走路」，為什麼要「學語言」，為什麼要「學ＯＯ」…
學習（適應） -> 提高競爭力（進化） -> 存活（延續）

所有生物的“學習行為”，都是透過環境中不斷獲得的獎勵與懲罰塑造的
藉由外部世界的回饋訊號，調整行為、建立準則，學習怎麼生存
本質上都是：感受 -> 試錯 -> 調整 -> 適應

就像強化學習模型一樣，agent不會一開始就知道最終目的（reward）是什麼
只能不斷更新策略，直到找到一條（暫時）最合理的路

可以說，「學習」就是「從環境中尋找生存的方式」
（這也是為什麼在面臨威脅、激發生存本能之下，能發揮最好的學習效果）

不斷藉由環境的變化與反饋，調整自身的行動準則
而「行為」具有侷限性，所以依賴於周遭環境「給出分數」
所以每一件事情，都要看更寬廣的上下文

…然而
每一個上下文，都會依賴於更多的上下文；每一個環境，都能找到背後更大的環境
所以，無論所處在哪個“視角”，都是有其局限性的

“相同的一個字“，能夠被放在不同句子中，
”相同的一句話“，被放在不同文章章節，
“相同的一段故事”，在不同的文化解讀中，
都可以呈現出截然不同的意思

ex: 殺人（通常聯想到是負面的行為）
在社會中殺人 -> 違法、會被譴責
在遊戲中殺人 -> 可能是任務目標
在戰爭中殺人 -> 可能被視為英勇

ex: 在戰爭中殺人（通常聯想成英勇的行為）
在戰爭中殺敵人 -> 保衛國家，得以被頒勳
在戰爭中殺戰俘 -> 可能是違反人道行為
在戰爭中殺盟友 -> 普遍被視為背叛

ex: 在戰爭中殺盟友（通常聯想是背叛行為）
在戰爭中殺害昔日盟友 -> 利益分裂使關係反目
在戰爭中刺殺領袖奪權 -> 弒主、成為開國之君
在戰爭中刺殺邪惡政權領袖 -> 被視為正義之士

語境(context dependence)
同樣的字符、相同的構成單位，在不同的環境位置上出現，就有不同的意義和立場

這一點
在書本字裡行間、在程式碼裡、在基因序列、在原子層級、在電腦01，都是一樣的
在真實社會、國際政治上也都是如此

細菌如此，螞蟻如此，人類如此，地球如此，宇宙也是如此。
每個粒子都是一個點，當一大群的粒子組織聚集在一起，才具有「相對較大的意義」

將視野看遠一點，
至今為止，人類的意義取決於腳下的地球生態之上
放眼未來，人類的意義有望夠拓展到宇宙多個星球之上

可是，我不自覺得往更大的方向思考

那宇宙的意義呢？
宇宙膨脹後萬有引力收縮而回歸奇點大爆炸，不斷地循環？
星系間是三維結構在膨脹，而宇宙是四維結構，最終兩邊相通成一個圈？

無論是或不是

如果宇宙本身沒有目的，那人類到最終也沒有意義
因為我們無法知道，此時此刻為何、為誰、為什麼而行動

可以知道的是
這個世界本身就是循環往復、永恆回歸的
每一個角色都會以不同的場面、形式再現
每一件事情都會不斷地重複發生，在相同場景、不同地方
就好比，每一個字符都會在不同的書籍和文章中重複出現

每一場衝突、每一起事件，都是互換角色身份，不斷地發生
每個人此刻的立場及觀點、每一種情緒，都會在過去/未來與另一個人對調

只是，事件的對象不一定是你我，故事的主角大概會是別人
是誰、是哪個點、是什麼事情？就是概率與比例的「排列組合」

既然“探討意義”這件事，
無論將視野拉到多遠，無論想法發散到什麼地步
無論做了什麼嘗試，都無法得出結果（或者改變結果）

那不如就聚焦於當下
那麼，將視野拉回來吧

在戰場上
無論「士兵」參與哪一方陣營，一但投身戰鬥，就必須奮戰到底
結果是哪一國勝敗、哪一方正義或邪惡，哪一邊勢力多數哪一邊少數
都只能替自己所處的陣營（立場、環境）而做出努力、犧牲奉獻

因為，這就是此刻士兵的人生意義了
即便是局部的、是暫時的，但也是貨真價實存在的意義

所以，
假如我只是「一個點」，一團微不足道的粒子
那麼對於「我」來說，所有的結果與意義都取決於「當下、眼前」

什麼事情重要、誰對我來說重要？
身邊的人，所處的環境，與自己關係親密的人、事、物
答案呼之欲出

（我想這大概也是Deepseek的策略精髓）
GPT不斷往外探尋更大的意義，一個通才全能地包辦所有事項，非常強大
Deepseek則聚焦於眼前局部環境，分化出多個人才，更傾向於社會網路的分工合，非常高效

哲學思考的延伸：

四方上下曰宇，往古來今曰宙。
原來「無窮」便是如此啊。人與天地萬物都在無窮之中。
宇宙便是吾心，吾心即是宇宙。宇宙內事乃己分內事；己分內事乃宇宙內事。
—— 陸九淵

若將「意義」擴展，不再侷限於個體之中呢？

“一為全，全為一”

這句話可以從三個面向解讀：
（有機會再詳細討論）

A=B,B=A 我就是世界，世界就是我（我包含世界，世界包含我）
A∈B∈C 世界包含我，我包含粒子（相同特性的遞迴套娃）
1=0=∞ 本體、虛空、無邊界（萬象歸一，一歸何處？一歸虛無。）

一即一切
…

為了存活下去，人必須尋找能量來源
於是找食物吃，食物成爲「我」的一部分、成為我的血肉器官
這些食物原本也是有生命的，在他們死後，是「我」賦予了它們意義
這就是食物鏈，萬事萬物皆有關係

我由萬物構成，萬物亦由我延續
那麼，在我死去之後
我會成為萬物的一部分，亦由「萬物延續我」

若將自己投身到更大的「環境」中，
任由自己被吸收、被吞沒、被分解，成為其中的一部份，「意義」就能得以延續下去

如同
小漩渦捲入大漩渦中，大旋渦沒入巨浪之中
每一個個體終將成為更大旋轉體的一部分
萬物互為環境、彼此定義彼此

在全球分工合作的供應鏈中
許多產品在台灣精密加工後，先運至美國集中庫存，再運回台灣批發販售給最終消費者
明明是相同的商品，卻繞了地球一大圈又回到原點

顯然，這個過程看似低效、荒謬、沒邏輯
不過這件事在不同的人或角度看來就會擁有意義

對於「石油」來說，它知道自己的命運
它所做的就是為了飛機航行目的，不顧一切的提供動力來源
為了讓飛機航行、讓物流運作，這就是燃料的價值
對於「工廠」、「倉儲」、「消費者」來說，也各自具有不同的意義和價值

將世上發生的每一件事
每個細節放大來看，都是一段精彩的故事
這些表面現象的背後，每個角色各司其職、各有其意義與價值

猶如將一本書中的段落放大來看，每個字都有在這個位置上的意義

宇宙最終目的
可能有意義、可能沒意義
可能會繞遠路、可能循環往復
可能人類過於渺小、而無法領悟
…

不過，不需要去探尋宇宙的意義
因為我們就身處其中
可能是飛機、同時也是燃料；可能是食物、同時也是消化者

在這之中尋找意義，就是人生的全部意義

聽說（？）重新載入會刷新此數值： 368

咀嚼抹茶

由強化學習的觀點，探討生命意義

發佈留言取消回覆

由強化學習的觀點，探討生命意義

發佈留言 取消回覆

發佈留言取消回覆