一、生成式AI快速發(fā)展,技術奇點有望到來
1.1 發(fā)展歷程:算法模型持續(xù)迭代,AI 行業(yè)快速發(fā)展
基礎的生成算法模型是 驅動AI 的關鍵
2014年,伊恩·古德費洛(lan Goodfellow)提出的生成對抗網絡(Generative Adversarial Network, GAN)成為早期最為著名的生成模型。GAN使用合作的零和博弈框架來學習,被廣泛用于生成圖像、視頻、語音和三維物體模型。隨后,Transformer、基于流的生成模型(Flow-based models)、擴散模型(Diffusion Model)等深度學習的生成算法相繼涌現(xiàn)。
Transformer模型是一種采用自注意力機制的深度學習模型,這一機制可按輸入數(shù)據(jù)各部分的重要性分配權重,可用于自然語言處理(NLP)、計算機視覺(CV)領域應用,后來出現(xiàn)的BERT、GPT-3、laMDA等預訓練模型都是基于Transformer模型建立的。
預訓練模型引發(fā)了AI 技術能力的質變
預訓練模型是為了完成特定任務基于大型數(shù)據(jù)集訓練的深度學習模型,讓AI模型的開發(fā)從手工作坊走向工廠模式,加速AI技術落地。
2017年,Google顛覆性地提出了基于自注意力機制的神經網絡結構——Transformer架構,奠定了大模型預訓練算法架構的基礎。
2018年,OpenAI和Google分別發(fā)布了GPT-1與BERT大模型,意味著預訓練大模型成為自然語言處理領域的主流。
預訓練數(shù)據(jù)直接決定AI 大模型性能
Scaling Laws:模型容量、數(shù)據(jù)量、訓練成本共同構成了大模型訓練的不可能三角。大模型訓練的目標是最大化模型性能,模型訓練成本(GPU的數(shù)量和訓練時間等)是受限的,因此一般通過增加數(shù)據(jù)集大小和增加模型中的參數(shù)量兩種途徑來提升模型性能。
預訓練數(shù)據(jù)從數(shù)據(jù)來源多樣性、數(shù)據(jù)規(guī)模、數(shù)據(jù)質量三方面影響模型性能。以GPT模型為例,其架構從第1代到第4代均較為相似,而用來訓練數(shù)據(jù)的數(shù)據(jù)規(guī)模和質量卻有很大的提升,進而引發(fā)模型性能的飛躍。以吳恩達(Andrew Ng)為代表的學者觀點認為,人工智能是以數(shù)據(jù)為中心的,而不是以模型為中心?!坝袠俗⒌母哔|量數(shù)據(jù)才能釋放人工智能的價值,如果業(yè)界將更多精力放在數(shù)據(jù)質量上,人工智能的發(fā)展會更快”。
為了追求更好的模型性能,模型參數(shù)規(guī)模也與訓練數(shù)據(jù)量同步快速增長,模型參數(shù)量大約每18個月時間就會增長40倍。例如2016年 最好的大模型ResNet-50參數(shù)量約為2000萬,2020年的GPT-3模型參數(shù)量達1750億,2023年的GPT-4參數(shù)規(guī)模則更加龐大。
市場規(guī)模
隨著人工智能技術的不斷發(fā)展,其應用場景日益豐富,各行各業(yè)所匯聚的龐大數(shù)據(jù)資源為技術的實際應用和持續(xù)完善提供了堅實基礎。根據(jù)第三方咨詢機構格物致勝的統(tǒng)計數(shù)據(jù),2022年中國人工智能市場規(guī)模達到2058億元,預計2023-2027年市場規(guī)模將保持28.2%的 復合增長率,2027年中國人工智能市場規(guī)模將達到7119億元。根據(jù)statista的統(tǒng)計數(shù)據(jù),2023年全球人工智能市場規(guī)模達2079億美元, 預計2030年將增至18475億美元。
1.2 趨勢展望:從單一模態(tài)到多模態(tài),從AI邁向AGI
多模態(tài)技術成為大模型主戰(zhàn)場
多模態(tài)較單一模態(tài)更進一步,已經成為大模型主戰(zhàn)場。人類通過圖片、文字、語言等多種途徑來學習和理解,多模態(tài)技術也是通過整 合多種模態(tài)、對齊不同模態(tài)之間的關系,使信息在模態(tài)之間傳遞。2023年以來,OpenAI發(fā)布的GPT-4V、Google發(fā)布的Gemini、 Anthropic發(fā)布的Claude 3均為多模態(tài)模型,展現(xiàn)出了出色的多模態(tài)理解及生成能力。未來,多模態(tài)有望實現(xiàn)any to any模態(tài)的輸入和 輸出,包括文本、圖像、音頻、視頻、3D模型等多種模態(tài)。
多模態(tài)大型語言模型(MLLMs)的通用架構,由1) 視覺編碼器(Visual Encoder)、2) 語言模型(Language Model)和3) 適配器模塊 (Adapter Module)組成。1) 負責處理和理解輸入的視覺信息,通常使用預訓練的視覺模型,如Vision Transformer(ViT)或其他卷積神 經網絡(CNN)架構,來提取圖像特征;2) 負責處理文本輸入,理解和生成自然語言,語言模型基于Transformer架構,如BERT或GPT 系列模型;3) 負責在視覺和語言模態(tài)之間建立聯(lián)系。
3D生成:AI生成技術的下一個突破口
3D生成技術應用廣闊,但仍處在技術臨界點以前。3D生成技術可廣泛應用于3D虛擬人、3D人臉、3D場景等領域,目前3D生成的主 流技術路徑大致可分為:1) text-to-2D,再通過NeRF或Diffusion模型完成2D-to-3D,或直接通過2D素材完成3D建模;2) 直接text-to3D,該路徑直接使用3D數(shù)據(jù)進行訓練,從訓練到微調到推理都基于3D數(shù)據(jù)
具身智能:智能涌現(xiàn)從虛擬世界走向物理世界
當大模型遷移到機器人身上,大模型的智能和泛化能力有望點亮通用機器人的曙光。2023年7月,谷歌推出機器人模型Robotics Transformer 2(RT-2),這是一個全新的視覺-語言-動作(VLA)模型,從網絡和機器人數(shù)據(jù)中學習,并將這些知識轉化為機器人控制的 通用指令。2024年3月,機器人初創(chuàng)企業(yè)Figure展示了基于OpenAI模型的全尺寸人形機器人Figure 01,機器人動作流暢,所有行為都 是學到的(不是遠程操作),并以正常速度(1.0x)運行。
通用人工智能還有多遠
通用人工智能(Artificial General Intelligence, AGI)是一種可以執(zhí)行復雜任務的人工智能,能夠完全模仿人類智能的行為。DeepMind提出了 一個衡量“性能”和“通用性”的矩陣,涵蓋從無人工智能到超人類AGI(一個在所有任務上都優(yōu)于所有人的通用人工智能系統(tǒng))的五個 級別。性能是指人工智能系統(tǒng)的能力與人類相比如何,而通用性表示人工智能系統(tǒng)能力的廣度或其達到矩陣中指定性能水平的任務范圍。
通用人工智能還有多遠
2023年12月,黃仁勛表示,如果把通用人工智能(AGI)定義為能以“相當有競爭力”的方式完成人類智能測試的計算機,那么在未來五年 內,我們將看到AGI。? 2023年11月,DeepMind聯(lián)合創(chuàng)始人兼首席AGI科學家Shane Legg在訪談中表示,2028年,人類有50%的概率開發(fā)出第一個AGI,并且?guī)?領的DeepMind研究團隊在Arxiv上公布了一篇名為《AGI的水平:實現(xiàn)AGI道路上的操作進展》論文,具體闡述了AGI的路線圖和時間表。? 2020年,谷歌機器人團隊的軟件工程師Alex Irpan認為,到2035年我們有10%的概率實現(xiàn)AGI,但到了2024年,他認為在2028年就有10% 的概率接近AGI,到2035年則有25%的概率實現(xiàn)AGI。