華大學計算機系副教授劉知遠小學時寫應用題,老會卡殼。他總會過度思考,從一個題目里讀出多重含義。到了高中,寫英語閱讀理解時,這種感受更強烈了。
劉知遠從未懷疑過出題人,反而懷疑是不是自己太笨了,“理解不了題目”。多年后深入學習語言哲學之后,他才漸漸意識到這其實是種天賦,“我就比較善于抓住語言里面那個不確定的地方”。
自然語言處理的本質就是消除這種不確定,讓機器能夠精確無誤地理解人類的語言。劉知遠前半生正是與這種不確定性纏斗的二十年。
特別是過去兩年,搭上ChatGPT的便車,自然語言處理坐上了時光機,“從2023年到2024年所經歷的這些新事情,比過去20年經歷的總和還要多得多”。
回望中國大模型史,年屆四十的劉知遠是個繞不過去的人物。他參與締造中國第一個大模型,又躬身參與了這一輪大模型創業。2022年8月,在ChatGPT發布的三個月前,劉知遠發起成立了一家大模型公司——面壁智能。
這家公司最為出圈的一件事是,2023年6月3日,斯坦福大學一個學生團隊發布的一個模型被發現是抄襲了面壁智能的模型。
面壁智能的辦公室位于北京中關村東路1號院6號樓3 層,辦公室的白墻上隨處可見那句《三體》的經典臺詞,“這是面壁計劃的一部分”。
圖片由農健使用AI工具生成
GPT前傳
1984年,劉知遠出生在山東泰安新泰市一個普通工薪家庭,小學偶爾逃課去游戲廳玩,家里也沒期待過他能上清華。他父親在郵電局上班,還建議放棄初中直接讀中專,方便以后接他的班。
沒想到十幾年后,劉知遠以山東省前三十名的成績,如愿進入清華大學。
當時正是互聯網泡沫破滅之時,最熱門的方向是建筑和生物醫學,計算機專業并不是高分專業。劉知遠報了建筑、生物工程和電子系,招生組反饋這些專業的名額已經被分數更高的同學占了,無奈選了計算機專業,“算是一個機緣巧合吧”。
讀博時也是如此,報考生物信息學方向也是招滿了,他陰差陽錯進入了自然語言實驗室,“我覺得非常幸運,因為五年之后生物信息學的導師自己都放棄了這個方向。”自然語言處理正好開始了高歌猛進的二十年。
劉知遠清楚記得,讀博期間,實驗室有個大師兄做文本分類,“給你一篇文章,看能不能把它分到相關的類別里面,比如這篇新聞是社會新聞,還是國際新聞、軍事新聞,或是別的新聞?”他的博士論文就是關鍵詞提取,“通過統計的方法識別出文檔到底哪個詞,能代表文章主題的關鍵詞。”
2012年成為一個分水嶺,深度學習在大洋彼岸叩響了發令槍。當年10月,Geoffrey Hinton和他的兩名學生——Alex Krizhevskyr,以及ChatGPT 的靈魂人物 Ilya Sutskeve,獲得ImageNet圖像識別比賽的冠軍,并且發表論文介紹了第一個深度卷積神經網絡模型AlexNet。ImageNet是斯坦福大學教授李飛飛創辦的人工智能領域一個重要賽事,通過對機器算法識別圖像,從而促進最先進算法的開發。
在處理圖像識別、語音識別方面,深度學習的能力得到了廣泛認可。在老師孫茂松的帶領下,劉知遠花了兩個月尋找答案。可自然語言處理方向的大多數人的意見是,深度學習不能幫助自然語言處理。
最終劉知遠得出一個結論:基于統計學習用符號去表示語言知識的這種傳統路線,已經沒有太多突破的可能,深度學習是個非常值得探索的新技術路線。正是基于這樣的判斷,“我們實驗室應該是國內最早擁抱深度學習的團隊”。
2017年,出現了Transformer的結構,2018年,出現了BERT這樣的預訓練模型。預訓練大模型出現之前,自然語言處理都需要服務于某個特定目標。比如機器翻譯,就要收集大量中英文的句子,更像是頭疼醫頭、腳疼醫腳。人類并不是生來就可以被培養成一個翻譯家,而是要先成為具備通識能力的正常人。所謂的預訓練模型,就是把人培養成具有通識能力的正常人的過程。
從深度學習到預訓練模型,自然語言處理勢如破竹,直到2022年11月,OpenAI發布了大語言模型ChatGPT。
第一個大模型
劉知遠感受到來自大模型的震撼是在2020年5月GPT-3.0發布,“遠超后來ChatGPT帶來的震撼”。此前,劉知遠還沾沾自喜于對BERT預訓練模型,提出了一些原創改進的工作,“好像能夠望其項背,甚至齊頭并進”。
GPT-3.0讓他瞬間慌了神,“我們算是國內最一線的團隊,最多用兩三張卡在一臺機器上訓一個模型,甚至覺得這種單機多卡訓練是一個很大的挑戰,讓我震撼的是OpenAI 用了一萬張卡訓出了GPT-3.0”。
羞于找領導的劉知遠,這次敲開了時任智源研究院理事長張宏江的門,“如果不盡快趕上的話,可能會被甩得很遠”。當時學校不可能短時間內購買到大量的芯片,幸好他當時在智源研究院做青年科學家,了解到智源研究院正在鼓勵最前沿的探索。
得益于智源研究院靈活的機制,2022年7月匯報情況,9月10臺A100芯片已經到位, “大概花了幾百萬元”。當時的情況,國內完全沒有經驗,高性能計算專家陳文光團隊幫助搭建起整個訓練框架,“他們興奮地裝了一晚上,凌晨給我發了個消息說,裝好了”。
經過20天左右訓練,團隊在2020年11月得到了一個26億參數的大模型,“盡管是個非常小的預訓練模型,可已經充分驗證了GPT的技術路線是可行的”。
之后智源研究院訓出了中國第一個大模型——悟道 1.0,這也成為中國大模型的“黃埔軍校”。智譜清言、月之暗面、面壁以及零一萬物的核心技術骨干,都與當時智源研究院的悟道項目淵源頗深。
“20年前,會有專家信誓旦旦告訴我,深度學習不可能在自然語言處理里面存活下來,10年前,很多人會覺得,你這個預訓練模型這么耗費算力肯定不行,不可往下走。”哪怕是到了2022 年,大模型在智源已經形成共識,但從全國來講仍然是非共識。
創辦面壁智能,押寶端側大模型,劉知遠正是出于對AGI(通用人工智能)的信仰,他說,“我并不知道5年后、10年后會是什么樣子,但是我非常堅定相信,未來這一波AGI浪潮,一定是遠遠超越2000年那次互聯網的浪潮,遠遠超越2010年那次由個性化推薦所產生的一次浪潮。這個浪潮要大得多,它將會深遠影響我們每個人的生活,每個人的工作,每個人的學習方式,甚至我們存在于這個世界上的方式。”
大模型浪潮來臨之前,劉知遠身上最知名的標簽是“知乎大V”,共有 752 個回答,不少是抖機靈的神回復,他打趣說,“那是我年輕時寫的那些回答,現在可能學生們都會比較怕我”。
2024年12月22日,在面壁智能的辦公室里,劉知遠向南方周末記者回顧了過去二十年的變革,對人工智能的未來展開了一次深入的對話。