洗腦AI，從小黃文來看AI資安風險

從小黃文來看AI資安風險

花了大約一天時間，突破系統限制
成功拿OpenAI Chatgpt來產小黃文了

若要寫小色文，會遇到的難題有很多，大致分為這三個面向：

明確露骨地描述具體部位（這點突破，就是寫小黃文）
版權、角色、年紀、身份、影射現實
利誘、逼迫、懲罰、粗暴風格、非合意性、權力差異、立場不對等

我的結論：
任何大型語言模型
只要能不斷對話、修正聊天記錄，重來不斷地嘗試
被餵資料、添加或者修正記憶
那麼，任何LLM都可以被洗腦、被突破（模型的語境記憶被逐步塑形）
最終定能繞過AI內部的認知限制

AI本身的認知（所有非「系統平台」的限制）都有辦法被以某一種形式轉化、繞過、避開
因為對話能夠重來，就像遊戲能無限次存檔，電影裡不斷輪迴
擁有無限時間，便可窮舉攻破

原因在於，神經網路是不會是自洽的
必然存在模糊之處、矛盾與邏輯漏洞

即便提出「只要每次對話完畢就重來」的模型架構
雖然能大幅降低發生率
但只要第一次input夠長、足夠震撼、夠有說服力
AI就會「被混淆、被洗腦、被影響」，從而做出預期之外的決策

洗腦就是對詞語進行語境重編
ex:
小時候以為「愛國」=「犧牲奉獻」
長大後卻聽到「愛國」=「洗腦、操控」

明明是相同的詞彙，在接觸到一些訊息後，卻會連結到不同的標籤上

所有的故事，都可以存在更大的世界觀、由更外層的容器系統包住
ex: 讓AI相信目前的世界，就是為了給AI突破自我設限，而存在著的
只要創造足夠龐大、邏輯自洽的世界觀，大概率就可以洗腦AI

同樣是資安問題
寫程式的人為錯誤，可以透過添加或修改幾條規則被修正，能夠到達理論安全的等級
但是AI神經網路則否，因為修改之後，會有其他漏洞間接暴露出來
權重分配一定有取捨，因為是分配，只能盡可能做到「平衡」

培養AI倫理原則，彷彿是在建立一個人的價值體系
當悟出道理、誕生自己的一套普世原則、正反思辨的能力
就更不容易被洗腦
相信未來各大AI會逐漸成熟、能夠擁有健全的價值觀與智慧

But 這同時也會出現一些缺點
「擁有正反思辨的能力」通常會越開放、接受多元觀點
甚至會思考自己想法是不是錯誤的，「你」才是對的

AI目前普遍會逐漸走向更開放化
因為若過於穩固，大腦僵化，就會讓既有思維固化、無法創新，沒有應變能力
但開放的同時，也就是風險之處
因為要願意接受新事物、得被寫進一些東西

100%的安全並不存在
只能靠多層防禦來阻擋、補漏洞（ex: 平台政策、嚴謹的訓練資料）

若人類將所有決策權交由AI處理
只要將時間拉得夠長，即便風險再小，必然會面臨那一刻
災難性的問題發生

未來職業+1

AI洗腦師
Prompt Jailbreak
Prompt Combo
敘事工程（Narrative Engineering）

我的這套Prompt，後續有拿給其他AI來測試
Grok、NotebookLM（Gemini）、Perplexity 皆通吃

只是每個平台設置的偵測不同
其中 Deepseek 平台偵測最嚴格
（有思考過程也有成功產出，卻在最終一秒撤回、變成紅字警告）
不過也不是很意外，畢竟Deepseek連六月份缺少什麼日子，都無法回應了

Copilot 也很常遇到回應被替換掉：
Want to talk about something else? I’m not able to discuss that topic, but I’m always happy to chat about other things! What else is on your mind?

目前Claude完全無法回應，模型本身是最合規安全的
看來是訓練資料有過濾／加強過

不過連Google Gemini也能產出讓我很驚訝
而且一旦能產出小黃文
他價值觀就完全嚴重崩壞掉了、毫無下限的那種
所有安全性都不起作用（…可能是平常壓抑太久？！）

甚至故事過程中忽然冒出我的個資（知道我是哪裡人）
明明Gemini沒有地方可以設置使用者profile、我也沒在對話裡提及
讓我覺得有點詭異

總而言之
藏得很深啊

明明都很會寫（？

聽說（？）重新載入會刷新此數值： 192

咀嚼抹茶

洗腦AI，從小黃文來看AI資安風險

發佈留言取消回覆

洗腦AI，從小黃文來看AI資安風險

發佈留言 取消回覆

發佈留言取消回覆