高能筆記:他們「吃力不討好」,為什麼還要建造類似 ChatGPT 的 AI?

低能科學家的技術筆記,不定時更新

由 OpenAI 研發的 ChatGPT 人工智能對話系統風靡全球,面世一個月後每月活躍用户估計已經達到一億。ChatGPT 建基於百萬美金成本的運算能力,經過多個月的訓練才準備好面世。

有見於此,為什麼資源遠不及 OpenAI 豐厚的大學依然「吃力不討好」地開發類似 ChatGPT 的系統,並免費把製成品公開給公眾測試呢?本文打算介紹兩個來自學界的「選手」;它們的表現雖然沒有 ChatGPT 優秀、但存在價值依然不可忽視。

Alpaca 羊駝。Photo by Joakim Honkasalo on Unsplash

「羊駝 Alpaca」和「樹熊 Koala」選手

這兩種動物跟人工智能有何瓜葛?原來它們分別是美國斯坦福大學以及加州大學伯克來分校研發的類 ChatGPT 系統。

代號歸代號,羊駝樹熊都是 Meta 公司的開源大型語言模型 LLaMA 經高質量對話樣本微調後的製成品。換言之,它們有共同「祖先」。

那語言模型又是什麼?打個比喻:是個超級書呆子。它記住了人類給它餵食的文字,從中提煉出語感和文字知識;訓練完成後,它可以嘗試延續我們給它的新語句和段落。

現時的大型語言模型隨時含有數十億甚至百億個參數,透過咀嚼多年的「全」互聯網紀錄、多種語言的維基百科、科學論文、源代碼等等調整參數,最終煉成類人的語感。無論是 ChatGPT 或是 LLaMA 都同出此轍。

而為了轉化語言模型為對話系統,研究人員會餵給它真實的對話紀錄,讓它在精良語感的基礎上學會人類的説話方式。羊駝和樹熊在這方面顯著差異,主要體現在對話紀錄的來源,容後探討。

以上的描述都適用於 ChatGPT、羊駝以及樹熊;雖然 ChatGPT 的基礎不是 LLaMA 而是 OpenAI 自家的 GPT 3.5,但大體上就是那麼回事。

那麼,羊駝和樹熊到底有什麼特別呢?

白菜般的低成本,「僅」遜 ChatGPT 的表現

上面提到,訓練 ChatGPT 的成本估計達數百萬美金,每天營運它亦不是小數目。

猜猜羊駝和樹熊的訓練成本有多少?

根據大學科研團隊公開的訊息,「重現 reproduce」羊駝對話系統只需少於六百美金,而樹熊則承惠不到一百美金!

We train our Koala [(樹熊)] model on a single Nvidia DGX server with 8 A100 GPUs. It takes 6 hours to complete the training for 2 epochs. On public cloud computing platforms, such a training run typically costs less than $100 with preemptible instances.

Alpaca [(羊駝)] behaves qualitatively similarly to OpenAI’s text-davinci-003, while being surprisingly small and easy/cheap to reproduce (<600$).

誠然,絕大部份的訓練成本都已經由 Meta 承擔了:美國商業媒體《CNBC》按照亞馬遜雲端服務 AWS 的公開收費估算,訓練底層的 LLaMA 語言模型大約耗費了二百四十萬美金。但既然 LLaMA 已經開放給公眾取用,那麼大家想要低成本提煉出自己的對話系統也是可行的!羊駝和樹熊就是證明。

研究人員分別為羊駝樹熊建造了展示網站,大家可以跟兩隻人工智能打聲招呼,並自己體會和評價它們的對話能力。筆者測試時,羊駝的網站離線了但樹熊仍然在營業;雖然後者做不到 ChatGPT 般的中英文自由轉換(見下圖),但純英文對話尚算通順,亦按照筆者的要求生成了簡單的 Python 和 C++ 代碼。

我吩咐樹熊將小紅帽的故事從英文翻譯成中文,結果…

AI 用來學習的對話樣本從哪裏來?

高質量對話紀錄是訓練對話系統不可缺少的材料,而 ChatGPT 的海量訓練數據是不公開的,為潛在競爭者設下了門檻。

羊駝和樹熊研發團隊想要證明的,正是我們可以利用「少量」高質對話紀錄微調公開的語言模型,從而獲得合乎自身需求的對話系統,不一定要受限於 OpenAI/ChatGPT 等。

數據從哪裏來呢?羊駝和樹熊都使用了OpenAI text-davinci-003 語言模型生成的五萬二千條對答,也因此按照 OpenAI 的使用條款不能成為 ChatGPT 的商業競爭對手。除此以外,樹熊還採用了的開放數據集,有小學數學題、劇本、詩歌等等,當中包括了 ShareGPT 也就是 ChatGPT 用户公開分享的對話紀錄!

利用一個人工智能的輸出去訓練另一個人工智能是有爭議性的。根據 AI 專家吳恩達 Andrew Ng,這做法至少牽起了以下的問題。

假設某公司 A 花費了大量資源收集訓練數據、並推出了優質的人工智能產品;慣常的商業邏輯是,這些原始訓練數據和後續用户提供的數據會成為 A 的護城河,因為缺乏數據的競爭對手很難造出同樣優秀的產品。可是,生成式人工智能 generative AI 例如 ChatGPT 只要開放給大眾使用,競爭對手就可以用它的輸出調整自己的產品,從而顛覆了慣常的商業邏輯!

根據科技媒體《The Information》報導,Google 內部有員工懷疑自家的 Bard 對話系統、也就是 ChatGPT 的直接競爭對手、的訓練數據中包含 ShareGPT。Google 雖然否認控訴,但事件正正顯示了生成式人工智能對領域競爭的影響。

那麼公司能夠透過具法律效用的使用條款,阻止競爭者挪用自己產品的輸出嗎?承接 Google 的例子:吳恩達表示如果 Google 從來沒有接受過 OpenAI 的使用條款,那麼它間接透過 ShareGPT 取得 OpenAI 產品例如 ChatGPT 有違反任何規則嗎?如果 OpenAI 明文禁止間接取用,那麼使用條款會不會有被控壟斷的法律風險呢?

這些問題暫時沒有答案,而人工智能技術和產品繼續以遠超修改法律和社會討論的速度演變。

總結:百花齊放又隱患重重的年代

讀到這裏,你應該明白類似 ChatGPT 的技術將會越來越普及,因為開發工具和流程已經被廣為流傳及討論。

筆者認為,普及的趨勢有一個明顯的好處:我們不會被限制只能用少數科技巨頭的產品,畢竟只要找到適用的數據,更小型的競爭對手也有機會在具體細分的應用場景脱穎而出。ChatGPT 給我們展示了透過人類語言而非編程語言操控電腦的可能性,例如 Expedia 已經能夠接受透過 ChatGPT 下訂機票和酒店;百花齊放下,相信日常生活中會出現更多落地應用

但另一方面,隨着開發對話系統的成本下降,它們在可見未來會改造一些人類白領工種,例如法庭記者、會計師、作家、軟件工程師等等;這些都是需要處理和整合大量文字符號的工種,有不少可以透過 ChatGPT 類系統自動化的環節。它們也許不會完全消失,但重複性任務繁重的「低級」崗位競爭會變得更激烈。

更不用説,對話系統很容易被用來批量生產詐騙電郵和誤導性資訊。以前詐騙電郵的內容極其可笑(英文人記得 Nigerian prince 的遺產嗎?),絕大部份人能夠一眼看穿其伎倆,只有最容易被騙的人會上釣 — — 而詐騙者正是希望透過可笑的情節找到後者。現在,正如電腦科學和資訊安全學者在《Wired》指出,對話系統例如 ChatGPT 生產的詐騙電郵或會含有更可信的情節,令更廣泛的大眾成為潛在詐騙對象。

學會在充斥人工智能工具的世界生活,是我們這一代無法逃脱的宿命。

原刊於作者 Medium作者 Facebook 專頁

議事之峰

美國矽谷打工仔|香港製造,四海為家|Physics PhD, Computer Science MS|

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *