AI大模型已經成為創業熱點。
2012年,李志飛選擇回國,在語音交互領域創業,創立出門問問。
前商湯科技副總裁、通用智能技術負責人閆俊杰已進軍多模態AI大模型領域,于2021年11月成立人工智能公司MiniMax。
MiniMax從底層做起,形成了文本到視覺(texttovisual)、文本到語音(texttoaudio)、文本到文本(texttotext)三大模態的基礎模型架構。
這可能是國內第一家同時擁有3個模態大模型能力的創業公司。
在toC方向,其首款AI虛擬聊天社交軟件Glow推出四個月已經積累數百萬用戶;在toB方向,MiniMax計劃在今年對外開放API。
Glow的基本玩法是在應用中創建虛擬AI機器人,可以根據用戶意愿賦予其性格,實現實時溝通、互動并建立情感連接。
助推AI應用走向具體落地
如果將AI比作電力,那么大模型則相當于發電機,能將智能在更大的規模和范圍普及。
大模型的智能能力在未來將成為一種公共基礎資源,像電力或自來水一樣隨取隨用。
每個智能終端、每個APP,每個智能服務平臺,都可以像接入電網一樣,接入由IT基礎設施組成的智力網絡,讓AI算法與技術能夠更廣泛地應用于各行各業。
最底層是AI通用大模型,上面可以做AIGC,比如說Midjourney可以畫畫,Jasper可以寫文案等;
也可以基于底層模型做對話機器人,比如基于ChatGPT。
在美國,除了OpenAI和巨頭,還有另外三、四家創業公司也都在做AI通用大模型,都有大幾億美金的投入。
首先它有超強的語言能力,在學習語言的過程中,也學習了很多知識和邏輯。
模型學會了非常底層的結構和機制。萬物都是自然產生的,語言也好,生物結構也好,它一定符合某種我們目前難以解釋的規律。
模型經過互聯網上所有的數據訓練之后,它也獲得了某種屬于自己的解讀方式。
現在的通用大模型,即使進行了微調后,依舊可以做多個任務。
預訓練的核心是讓它有基礎的認知和邏輯能力,通過微調引導,讓它能夠在各項任務上處理得更好,知道怎么使用已有的知識。
國內公司與機構競相研發
AI大模型先后經歷了預訓練模型、大規模預訓練模型、超大規模預訓練模型三個階段,參數量實現了從億級到百萬億級的突破。
國外的超大規模預訓練模型起步于2018年,并在2021年進入[軍備競賽]階段。
而在國內,超大模型研發展異常迅速,2021年成為中國AI大模型的爆發年。
2021年,商湯發布了書生(INTERN)大模型,擁有100億的參數量,這是一個相當龐大的訓練工作。
在訓練過程中,大概有10個以上的監督信號幫助模型,適配各種不同的視覺或者NLP任務,截至2021年中,商湯已建成世界上最大的計算器視覺模型,該模型擁有超過300億個參數;
同年4月,華為云聯合循環智能發布盤古NLP超大規模預訓練語言模型,參數規模達1000億;
聯合北京大學發布盤古α超大規模預訓練模型,參數規模達2000億。
阿里達摩院發布270億參數的中文預訓練語言模型PLUG,聯合清華大學發布參數規模達到1000億的中文多模態預訓練模型M6;
7月,百度推出ERNIE3.0知識增強大模型,參數規模達到百億;
10月,浪潮信息發布約2500億的超大規模預訓練模型[源1.0];
12月,百度推出ERNIE3.0Titan模型,參數規模達2600億。
而達摩院的M6模型參數達到10萬億,將大模型參數直接提升了一個量級。
2022年,基于清華大學、阿里達摩院等研究成果以及超算基礎實現的[腦級人工智能模型]八卦爐(BAGUALU)完成建立。
其模型參數模型突破了174萬億個,完全可以與人腦中的突觸數量相媲美。
2021年12月,百度發布了全球首個知識增強千億級大模型——鵬城-百度·文心大模型,產業級知識增強[文心大模型]系列大模型也正式對外。
百度文心大模型正從技術自主創新和加速產業應用兩方面,推動中國AI發展更進一步。
2022年11月,百度發布了文心大模型的最新升級,包括新增11個大模型,大模型總量增至36個。
部分公司中國公司雖然目前還沒有正式推出自身大模型產品,但是也在積極進行研發。
云從科技的研究團隊高度認同[預訓練大模型+下游任務遷移]的技術趨勢,從2020年開始,已經陸續在NLP、OCR、機器視覺、語音等多個領域開展預訓練大模型的實踐。
以商湯科技的書生(INTERN)為例,在分類、目標檢測、語義分割、深度估計四大任務26個數據集上,基于同樣下游場景數據(10%)。
相較于同期OpenAI發布的最強開源模型CLIP-R50x16,平均錯誤率降低了40.2%,47.3%,34.8%,9.4%。
實現從[手工作坊]到[工廠模式]的轉變
在深度學習技術興起的近10年間,AI模型基本上是針對特定應用場景需求進行訓練的,即小模型,屬于傳統的定制化、作坊式的模型開發方式。
這意味著除了需要優秀的產品經理準確確定需求之外,還需要AI研發人員扎實的專業知識和協同合作能力完成大量復雜的工作。
模型無法復用和積累,同樣導致了AI落地的高門檻、高成本與低效率。
而大模型通過從海量的、多類型的場景數據中學習,并總結不同場景、不同業務下的通用能力,學習出一種特征和規則,成為具有泛化能力的模型底座。
由此利用大模型的通用能力可以有效的應對多樣化、碎片化的AI應用需求,為實現規模推廣AI落地應用提供可能。
大模型相對于傳統AI模型開發模式在研發時擁有更標準化的流程,在落地時擁有更強的通用性,可以泛化到多種應用場景;
并且大模型的自監督學習能力相較于傳統的需要人工標注的模型訓練能夠顯著降低研發成本,共同使得大模型對于AI產業具有重要意義。
結尾
熱潮已經襲來,有技術基礎的企業在強勢突圍,沒有技術基礎的企業準備發力,尚待進場。
而等熱潮退去,能否留在場上,還需看清自己的優勢和短板。
中國要有自己的通用自然語義大模型,它需要有為全球通用人工智能提供中國智慧、中國價值體系和中國方案的愿景;
需要從語料庫選擇、模型建構與訓練、參數調整的全過程前置規避風險和法律、道德與倫理問題,更需要的是定力和耐心。
無論如何,它不能投機。