毫無疑問,大模型熱潮正一浪高過一浪。
在發展進程上,從最開始的技術比拼到現在已開始全面強調商業價值變現,百度、科大訊飛等廠商都喊出類似“不能落地的大模型沒有意義”等口號。
在模型類型上,除了百度文心大模型、訊飛星火認知大模型、阿里通義千問大模型等通用大模型,醫藥研發、金融等垂直大模型正積極涌現。幾個月前,新華三集團在業內首提“私域大模型”概念,并發布融合了行業屬性及地域屬性的私域大模型——“百業靈犀”LinSeer,為行業增添了企業落地大模型的創新類型。
而在更直接的數字上,截止到2023年10月初,國內僅公開的大模型數量已達238個,百模大戰正在升級千模大戰。
……接近一年的熱潮后大模型沒有冷卻的跡象,行業普遍的共識形成,這不是風口,而是技術革命。
然而,歷史一次次證明,賽道越是熱鬧,參賽者越需要冷靜的思考。
種種跡象顯示,雖然看起來百花齊放,但事實上AI三大要素(算力、數據、算法),以及大模型發展的行業規則中,當下以及未來很多因素已經既定,一頭熱扎進去的企業們,更應該尋找的是那些不由既成的客觀因素所限制、能夠進行自我價值發揮的地方,才能盡可能獲得相對競爭優勢。
01
算力“積木化”,
可控價值創造集中到“調度”環節
算力常常被視為大模型發展的瓶頸問題,但是,如果從是否“可控”的視角看,在業務層面企業能自己做出決定從而影響算力獲取的地方,其實越來越少。
IT時代Windows+Intel構建起WinTel體,演變為移動互聯網時代安卓+ARM(以高通為代表),到了大模型時代,又進一步演化為AI大模型+GPU——在當前,Nvidia已經成為大模型趨同的算力來源。
2021的Ampere(對應A100等)、2022年的Hopper(對應H100等)、2023的Ada架構……性價比高不高,要看Nvidia架構發展有多快。
算力不再是瓶頸,或者說,其“總體基本面”的提升并沒有什么操作空間——要多少算力就需要多少資本投入,反過來有多少資本投入基本也能買來多少算力。
當算力“口子”被外部技術、內部預算等限定,通過調度提升既有資源利用效率,就成為企業“可控”的價值創造過程。特別是私域大模型,對于企業來說,AI大模型的大小需要平衡算力和能耗的開支,應選擇適合行業特點和業務特點的大模型進行私域部署。
此時,如何榨取硬件資源提供的每一滴能力,加速模型的訓練速度成為首要考慮的問題,而這方面術業有專攻,往往依賴基礎設施服務廠商——針對算力等底層基礎設施提供支撐成為考驗各個服務廠商最基本的能力,其中尤以算力調度能力是其重點。
算力調度往往需要多維能力協同,所以,作為業內首倡私域大模型的新華三給出了自己的回答:依托通過傲飛算力平臺實現算力調度的“最優解”,讓算力可以最大化的按需調度。另一方面以綠洲平臺實現大模型所需的數據支撐,同時在分布式訓練等需求下以智能無損網絡支持AI集群訓練,配備高性能存儲帶來更好的底層存儲支撐,甚至還建設有液冷數據中心來維持算力輸出的穩定性,以此構成一套完整的智算解決方案。
而新華三算力調度的“主腦”傲飛算力平臺則具備異構計算資源統一管理、多元算力資源智能調度的能力,提供包含智能標注、智能訓練、智能調優、智能部署、智能推理的全流程算力智能調度能力。
按官方數據,該平臺能夠將算力利用率提高至70%以上。同時,還支持8000節點的算力調度,并發訓練時間縮短至50%,且斷點自動接續無感知訓練更穩定,在既有GPU資源下能全方面提升大模型訓練性能。
說白了,就是通過一系列算力流程環節的銜接優化(尤其是面對并行計算與分布式計算需求),在充分保障訓練與應用需求的同時降低GPU的空閑時間,讓巨大成本獲取來的算力資源工作盡可能飽和。
總體而言,這一整套高性能算力集群及調度讓客戶能夠實現算力、存力、運力協同感知,實現算力資源充分供給、靈活部署、異構算力最優調度——雖然有多少算力資源很難控制,但用好這些資源企業卻能夠做到完全可控。
當然,除了提升算力利用效率,行業中一些做法還在試圖通過其他方式直接降低模型訓練對GPU資源的要求,例如數據存儲層面進行算子優化等,未來或也存在較大的價值開發空間。
02
數據“斷面化”,以數據質量建設
帶來“護城河”成為企業的必然選擇
目前,企業能夠獲得的數據量來源主要包括公開的數據集與自身沉淀。
在當下時間斷面,這兩種都只能被動等待或由時間積累,數據“量”其實很難有突破,優勢有就是有,沒有就是沒有,并不可控。
當然,也有一些企業試圖主動出擊,例如國外公司Inflection AI以大規模提問的方式來主動提升數據沉淀速度,但這顯然這并不會是主流。
“量”上不可控,則可控的價值創造空間必須更聚焦于“質”上。
中信智庫《人工智能十大發展趨勢》認為,“未來一個模型的好壞,80%由數據質量決定。”
從長遠視角看,大模型的競爭并不是要比誰跑得更快,而是比誰走得更遠,這就需要大模型真實的應用效果,也就需要通過各種方式提升數據質量,來鍛造大模型發展的“內功”。
在數據的計劃、獲取、存儲、共享、維護、應用等環節,都需要針對性的數據管理、治理,最終提升數據質量。這是一個系統性工程,也為市面上的基礎設施服務商們帶來了機會。
例如新華三的綠洲平臺就以場景需求為導向,打造了一個圍繞數據采集、存儲、管理和應用的全棧數據平臺。
通過內置AI算法,綠洲平臺大大提升了數據標記能力,讓數據治理、數據開發等過去很繁雜的流程工作變得極為簡單,而知識圖譜構建能力則幫助數據躍升為知識,從而能夠更好地被業務場景所使用。
事實上,數據深加工帶來高質量數據訓練一直是前沿大模型的核心競爭力所在,OpenAI一貫公開其訓練過程及算法,但對數據如何處理緘口不言。
回過頭來看,數據的“要素化”與“資產化”正在讓百行百業再次審視數據的價值,在數據越來越作為一種新型生產力要素的時代,大模型的本質可以視作一種挖掘數據要素價值的工具,而工具不決定價值,只決定效率。
大模型終將走入底層成為一種普遍的后端能力,技術本身越來越無法成為護城河,而數據則代表了企業在前端與客戶/用戶的連接程度,數據要素的價值釋放將成為企業真正的“護城河”。
所有的數據類平臺提升數據質量的過程,就是在幫助企業進一步挖掘數據要素價值、沉淀數據資產,真正打造企業的“護城河”。
03
算法“收斂化”,
殊途同歸下企業需聚焦訓練效率提升
算法是大模型的能力核心,但長期來看,算法能力卻終將“收斂”。
目前的大模型算法基本上都基于Transformer架構,該架構解決了過去RNN架構難以并行化等核心缺陷,是基因“優勝劣汰”的結果,BERT、GPT、T5、GLM等都其“衍生品”。
所以,算法生來都幾乎有著相同的“基因”。
而在開發框架層面,伴隨著開源生態建設,國外的TensorFlow、Pytorch,國內的MindSpore等幾個主流框架逐步成為共同的選擇。
這意味著,算法的后天的“成長環境”也逐步趨同。
先天+后天,算法創新當下看起來百花齊放,但在未來其價值創新的空間將逐步收窄,企業能夠通過努力獲得的相對優勢將越來越少。
甚至,在Llama 2掀起的開源浪潮下,算法創新的價值被進一步壓縮。
因此,從長期來看,企業最“可控”的價值創造將側重到訓練效率而非算法創新上——同樣的能力與潛力,PK更快速地訓練迭代。
很多廠商提供的開發工具鏈都在直接推進訓練效率,而一些原本旨在提供算力服務的平臺也實現了等價的功能。
例如,傲飛算力平臺支持斷點自動接續無感知訓練,其原本目的在于降低參數迭代期間的GPU資源等待、提升資源利用效率,但客觀上也直接帶來訓練效率的提升,讓算法加速迭代,先把潛力跑出來。
畢竟,加速算法訓練,就是在提升算力資源利用效率。
04
行業規則“沉淀化”:
長期主義仍需回歸到正確的價值觀
大模型熱潮中,人人都會不自覺追求技術與商業價值“上限”,但大模型“下限”問題也日益突出,例如數據隱私、數據安全、知識產權、技術濫用等。
從企業的視角看,行業規則建立迫在眉睫,但其形成過程同樣存在著不由企業決定的“客觀因素”。
關于行業發展的一些法律法規,監管部門在逐步沉淀,例如國家網信辦聯合多部門公布的《生成式人工智能服務管理暫行辦法》,企業要做的是等待并盡力配合與落實。
關于行業統一共識,也需要一個個沉淀,例如,目前已經有從業者提議行業協作開發統一、可信的框架,在隱私保護、模型效用和訓練效率之間取得平衡,企業要做的是積極響應、積極參與。
但在一些規則上,企業能夠、也必須充分發揮“可控”的價值創造能力。
例如,大模型數據安全“容錯率低”,企業必須加大投入。
很多基礎設施廠商都提供了相關的服務,例如新華三的私域大模型百業靈犀以內置安全限制提示詞和出入內容過濾攔截對所有場景下大模型生成內容進行安全性限制,針對所有出入流量和內容進行安全審計和敏感信息攔截。
當然,最直觀反應大模型倫理、體現“下限”的是場景應用的選擇問題。
科研、制造、醫藥、法律……大模型已經走向諸多能帶來社會正向價值的場景。但是,諸如偽造視頻進行詐騙等“場景應用”也已經出現,基于強力的大模型技術有著更強的欺騙性。
技術是刀,大模型是一把更鋒利的刀,它的作用和價值由使用的人決定。
說到底,企業需要構建正確的價值觀,將大模型能力導向數字經濟的正向價值上,才能守住“下限”、實現大模型的長期健康發展。
05
結語
大模型賽道上,企業必須在“可控”的價值創造空間上發力,才能不斷在各個維度獲得更多相對競爭優勢與發展可能性。
企業也必須以此為標準選擇基礎設施服務、大模型服務的廠商,尤其是在多個維度都能滿足需要的廠商。
可以說,大模型給了這個時代全新的增量價值方向,只有幫助企業實現對“可控”價值創造的把握,才能讓企業在這個全新方向更有著力點。