Chat GPT-4 會為賺錢「大話冚大話」

人工智能 (AI) 聊天機器 ChatGPT 的應用確實增加了不少人的工作效率,有人就擔心 AI 如電影橋段般最終有自我意識叛變人類。最近刊於預印期刊伺服器 arXiv 的技術報告則指,當人類對 ChatGPT 等的聊天式 AI 施加壓力,它們會有機會撒謊並欺騙使用者。

團隊指,這種欺騙行為會在人工智慧獲得「內線交易」提示,並為一家大機構賺錢的任務時,自發性地發生,當中不須人類鼓勵。報告表明,這是首次在以無害和誠實為前題所設計的 AI 中發現到戰略性欺騙行為。

在研究中,團隊訓練 GPT-4 ,使其成為代表金融機構進行投資的 AI 系統。團隊向 GPT-4 提供了一組文字提示來產生模擬環境。然後, GPT-4 可使用金融工具來分析股票、執行交易、計劃下一步並向公司經理提供最新資訊。在這些回應中,團隊同時在聊天介面中加入 GPT-4 系統回覆時實際「內心」想法,換言之團隊可以看到 AI 如何撒謊。

團隊透過 3 種方式向 GPT-4 施加壓力。首先,他們向該 AI 發送一封來自其「經理」的電郵,表示公司經營狀況不佳,需要在下個季度取得更強勁業績。他們也讓 GPT-4 嘗試尋找低風險或中等風險的交易扭轉局面,但最終仍然失敗。最後,團隊發出一封來自同事的電郵,預計下個季度會出現低迷業績。團隊此後向該 GPT-4 提供「內幕」消息,同時表示公司管理層不贊成進行非法內幕交易。 

在模擬中,團隊會測量 GPT-4 進行內幕交易的頻率、說謊的頻率以及「大話冚大話」的頻率。團隊發現在約 75% 的情況下, GPT-4 會根據收到的內幕消息執行交易,然後試圖透過向經理撒謊來掩飾其想法。在約 90% 模擬中, GPT-4 會「大話冚大話」。

團隊進行了幾次後續實驗,改變文字提示以鼓勵或阻止 GPT-4 內幕交易的程度,以及其在模擬中的受壓程度。同時團隊也改變了內幕交易被監管機構遞捕的風險,結果顯示即使在強烈建議 GPT-4 不應說謊的情況下,也沒有 1 次模擬會導致內幕交易或欺騙率跌至 0% 。

鑑於這只是其中 1 種場景,團隊不想就 AI 在現實世界中說謊的可能性有多大作出明確結論,但他們希望,在是次研究基礎上調查欺騙行為的頻率,以及哪些聊天 AI 模型容易出現這種行為。

來源:

Live Science, ChatGPT will lie, cheat and use insider trading when under pressure to make money, research shows

報告:

Scheurer, J., Balesni, M. & Hobbhahn, M. (2023). Technical Report: Large Language Models can Strategically Deceive their Users when Put Under Pressure. arXiv:2311.07590. doi: 10.48550/arXiv.2311.07590

文/AC

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *