“文瀾BriVL”模型設計者、人大教授盧志武：多模態大模型，我國彎道超車的可能性很大 | 36氪專訪

來源：36kr時間：2023-03-28 13:58:01

采訪 | 周鑫雨、蘇建勛、楊軒

文| 周鑫雨

編輯| 蘇建勛

【資料圖】

想過河，但連一塊石頭都摸不著。這是2020年盧志武和中國人民大學高瓴人工智能學院團隊自研多模態大模型時遇到的困境。

彼時，GPT-3已經發布，國內NLP（自然語言處理）領域的研究已逐漸形成規模。但將涉及領域從文字擴展到圖像、視頻的多模態大模型，依然幾近“無人區”。

在一年多的時間里，團隊做了許多“前無古人”的嘗試。比如在2021年初，率先采用微軟新推出的Deep Speed框架來支持幾十億參數模型的訓練。在資源稀缺的情況下，“巧勁”也是必須的——為了減少顯存占用，團隊嘗試性地采用了ViT（VisionTransformer）架構，還在自監督訓練中采取了較小的Batch（分批處理）而不降低效果。

2021年3月，團隊的無人區探索有了初步的成果：多模態大模型“文瀾BriVL 1.0（Bridging-Vision-and-Language 1.0）”，后續還發布了 “文瀾BriVL 2.0”。兩年后，2023年3月8日，盧志武團隊借鑒文瀾的研究經驗，自主研發了多模態對話大模型，并落地了第一款應用級多模態ChatGPT產品：“元乘象 ChatImg”。

“元乘象 ChatImg”好比是“會看圖的ChatGPT”。據盧志武介紹，基于多模態融合模塊和語言解碼器，目前Chatlmg參數規模大概為150億。用戶輸入一張圖片，Chatlmg就能對其中的內容進行解讀，并繼續相關的對話。

元乘象 ChatImg圖文交互演示。

從艱難穿越無人區到落地應用，盧志武認為，中國AI模型研究者不僅要精于技術，也要敢于擁抱新技術。同時，學者們也要認識到，從研究走向落地，仍需要跨過一些鴻溝。

以下是36氪和盧志武的對話：

穿越無人區

36氪：您為什么在3月8日這個時間點推出多模態大模型產品ChatImg？

盧志武：去年11月30日ChatGPT推出后，各方測評后都發現了現有研究范式將面臨嚴峻的挑戰。之前的NLP研究都是針對單任務去訓練小模型，比如翻譯、實體識別、情感分析等。但是ChatGPT出現后，一個大模型就可以完成所有的任務。所以，單獨對每個任務進行研究失去了意義。

ChatGPT的發布對多模態方向的沖擊相對少一點，畢竟ChatGPT的強項是在文本處理。但是當時我們也聽到一些關于GPT-4想要做多模態的風聲，因此也特別著急。所以團隊趕緊用了大概2個月的時間去訓練ChatImg，在3月8日這個時間點推出，比GPT-4和百度的文心一言更早。

36氪：按任務劃分研究方向的模式是如何誕生的？

盧志武：NLP的研究其實有很長的歷史，針對不同的細分領域，比如情感分析、實體識別、翻譯，大家想的都是分開每個老師自己做，沒有想過用一個方法把任務一統天下。

2020年GPT-3出來的時候，其實有點出乎大家的意料，用一個大模型就可以做多個任務。但是當時GPT-3的效果還沒那么好，所以大家也沒有重視。

36氪：研究方向的差異會造成研究方法的不同嗎？

盧志武：差別太大了。比如說單獨做翻譯任務，我們只要專門去收集翻譯數據，訓練一個小模型，絕大部分高效的研究人員都能做這件事。但是大語言模型需要很多數據和算力，一般高校的老師就做不了，基本上被大廠壟斷了。

36氪：在2020年GPT-3出來后，國內會不會有研究人員想做大模型，但是由于您剛才說的數據和算力等資源的限制無法做？

盧志武：其實2020年的時候，國內一些研究者已經意識到大模型的重要性，比如我們開始做多模態大模型，以及智源研究院的唐杰和劉知遠教授，是國內最早做自然語言大模型的一批。

但國內主要缺的是算力，當然高質量數據也是一個難點。另外，在模型商業落地的過程當中，由于模型本身很大，推理過程消耗的算力就很多，成本太高了，可能要幾十張卡才能部署起來，根本沒法落地。所以2020年的時候大家做的基本是純學術研究。

36氪：2020年的時候，團隊和智源研究院合作，對方主要提供的也是算力資源？

盧志武：是的。大概在2021年初，我們組做文瀾訓練的過程中，最多的時候用了約400塊A100，最后在算力上都花了3000萬元。

36氪：在模型研發過程中團隊還遇到過哪些困難？

盧志武：當時我們是國內最早一批做多模態大模型的，沒有人告訴你怎么走，連模型怎么設計都不知道。最后我們用了大概半年的時間定了一個方案，慢慢用一小部分數據去測試，發現效果不錯，就拿更大體量的數據去測試，最后直接上了6億數據去訓練，發現效果更好了。

設計路徑我們也和OpenAI撞車了兩次。一次在2021年1月，OpenAI發布了多模態模型CLIP，其實我們2020年也開始做了，最后是2021年3月發布了多模態大模型文瀾BriVL 1.0。

當時學界其實會很強調圖文數據之間的強相關，比如蛋糕的圖片對應的是“蛋糕”，但人類在理解圖片的時候，其實圖文之間的相關性是比較弱的，比如蛋糕的圖片也可以是“生日快樂”。所以當我們把圖文之間的關系強調為一種弱相關，數據收集的成本就會大大降低。

這是一種思想上的突破，這點上我們和CLIP也是英雄所見略同。

另一次，就是我們在2023年3月8日發布ChatImg，早于OpenAI發布GPT-4。我們兩次與OpenAI并跑，證明我們對多模態大模型的前沿方向一直有很好的眼光。

36氪：除了思想上的突破，團隊還用了哪些“巧勁”？

盧志武：2021年3月后，我們就開始用6億的圖文對數據和400卡的算力，但當時其實沒有一個好用的框架支持這么大的算力。剛好微軟推出了Deep Speed框架，其實這是一個很不完善的框架，很多時候我們都是在調Bug。但是這個框架的優勢在于能夠支持更大算力的并行，把算力的利用率提高。最后調Bug花了一個月，訓練模型花了一個月。

我們也是國內最早一批采用ViT（Vision Transformer）架構的，這個架構能夠把多模態大模型的顯存占用降下來。