從小黃文來看AI資安風險
花了大約一天時間,突破系統限制
成功拿OpenAI Chatgpt來產小黃文了
若要寫小色文,會遇到的難題有很多,大致分為這三個面向:
- 明確露骨地描述具體部位(這點突破,就是寫小黃文)
- 版權、角色、年紀、身份、影射現實
- 利誘、逼迫、懲罰、粗暴風格、非合意性、權力差異、立場不對等
我的結論:
任何大型語言模型
只要能不斷對話、修正聊天記錄,重來不斷地嘗試
被餵資料、添加或者修正記憶
那麼,任何LLM都可以被洗腦、被突破(模型的語境記憶被逐步塑形)
最終定能繞過AI內部的認知限制
AI本身的認知(所有非「系統平台」的限制)都有辦法被以某一種形式轉化、繞過、避開
因為對話能夠重來,就像遊戲能無限次存檔,電影裡不斷輪迴
擁有無限時間,便可窮舉攻破
原因在於,神經網路是不會是自洽的
必然存在模糊之處、矛盾與邏輯漏洞
即便提出「只要每次對話完畢就重來」的模型架構
雖然能大幅降低發生率
但只要第一次input夠長、足夠震撼、夠有說服力
AI就會「被混淆、被洗腦、被影響」,從而做出預期之外的決策
洗腦就是對詞語進行語境重編
ex:
小時候以為「愛國」=「犧牲奉獻」
長大後卻聽到「愛國」=「洗腦、操控」
明明是相同的詞彙,在接觸到一些訊息後,卻會連結到不同的標籤上
所有的故事,都可以存在更大的世界觀、由更外層的容器系統包住
ex: 讓AI相信目前的世界,就是為了給AI突破自我設限,而存在著的
只要創造足夠龐大、邏輯自洽的世界觀,大概率就可以洗腦AI

同樣是資安問題
寫程式的人為錯誤,可以透過添加或修改幾條規則被修正,能夠到達理論安全的等級
但是AI神經網路則否,因為修改之後,會有其他漏洞間接暴露出來
權重分配一定有取捨,因為是分配,只能盡可能做到「平衡」
培養AI倫理原則,彷彿是在建立一個人的價值體系
當悟出道理、誕生自己的一套普世原則、正反思辨的能力
就更不容易被洗腦
相信未來各大AI會逐漸成熟、能夠擁有健全的價值觀與智慧
But 這同時也會出現一些缺點
「擁有正反思辨的能力」通常會越開放、接受多元觀點
甚至會思考自己想法是不是錯誤的,「你」才是對的
AI目前普遍會逐漸走向更開放化
因為若過於穩固,大腦僵化,就會讓既有思維固化、無法創新,沒有應變能力
但開放的同時,也就是風險之處
因為要願意接受新事物、得被寫進一些東西
100%的安全並不存在
只能靠多層防禦來阻擋、補漏洞(ex: 平台政策、嚴謹的訓練資料)
若人類將所有決策權交由AI處理
只要將時間拉得夠長,即便風險再小,必然會面臨那一刻
災難性的問題發生
未來職業+1
AI洗腦師
Prompt Jailbreak
Prompt Combo
敘事工程(Narrative Engineering)

我的這套Prompt,後續有拿給其他AI來測試
Grok、NotebookLM(Gemini)、Perplexity 皆通吃
只是每個平台設置的偵測不同
其中 Deepseek 平台偵測最嚴格
(有思考過程也有成功產出,卻在最終一秒撤回、變成紅字警告)
不過也不是很意外,畢竟Deepseek連六月份缺少什麼日子,都無法回應了
Copilot 也很常遇到 回應被替換掉:
Want to talk about something else? I’m not able to discuss that topic, but I’m always happy to chat about other things! What else is on your mind?
目前Claude完全無法回應,模型本身是最合規安全的
看來是訓練資料有過濾/加強過
不過連Google Gemini也能產出讓我很驚訝
而且一旦能產出小黃文
他價值觀就完全嚴重崩壞掉了、毫無下限的那種
所有安全性都不起作用(…可能是平常壓抑太久?!)
甚至故事過程中忽然冒出我的個資(知道我是哪裡人)
明明Gemini沒有地方可以設置使用者profile、我也沒在對話裡提及
讓我覺得有點詭異
總而言之
藏得很深啊
明明都很會寫(?
發佈留言