數據處理全鏈路將被重塑
AI大模型是基于海量多源數據打造的模型,需要通過不斷地訓練從大量標記和未標記的數據中捕獲知識,并將知識存儲到大量的參數中,以建立對各種任務進行高效處理的技術架構。它具備通用、可規模化復制等諸多優勢,是實現AGI(通用人工智能)的重要方向。
“‘數據倉庫’‘數據平臺’和‘大模型’本質上都是為了更好地回答決策問題。從某種意義上講,它們之間是相輔相成的。”簡麗榮表示,一方面,數據倉庫成熟的數據管理、清洗、并行處理技術,可以有效提升訓練、微調大模型所需訓練數據的處理流程;另一方面,數倉作為天然的事實數據或知識管理平臺,可以為生成式AI提供正確答案所需的上下文,有效解決大模型普遍存在的“幻覺”問題。數倉和大模型的有機結合,可以更好地幫助企業實現輔助決策。
區別在于,大模型處理數據的方式明顯不同于現在主流的數據倉庫、數據平臺。數據倉庫、數據平臺往往會把原始數據編制成二維表格,然后進行數據清洗、規整、補全等處理,最終通過復雜的SQL實現商業智能。而大模型則需要不斷把原始文本信息用提示的方式進行投喂,讓其進行深度學習,從而實現對任務的高效處理,這與傳統的基于二維表格的形式存儲、管理數據完全不同。
簡麗榮分析稱:“傳統數據處理需要消耗大量人力、物力以及時間,而且有很多環節非常容易出錯,如數據清洗、數據血緣分析、主數據管理、數據質量、數據治理、ETL、數據分析、數據庫運維等。以ChatGPT為代表的通用人工智能模型的迅速應用,將會大幅提升數據處理全鏈路各個環節的自動化程度。”
比如,Text2SQL(即Text-to-SQL,指將自然語言文本轉換成結構化查詢語言的過程),就是借助大模型的能力,自動根據自然語言生成結構化查詢語言,完成BI(商業智能)任務,提升數據工程師工作效率。
簡麗榮表示:“大模型的出現,一方面,讓大家開始思考如何利用模型的能力去重構數據處理全鏈路的各個環節,以實現更高程度的智能化、自動化;另一方面,也促使大家開始思考如何將數據倉庫、數據平臺的數據處理規則與大模型進行適配,從而更好地支持大模型的訓練、調優、部署、推理及應用。”
云計算資源消費模式將被改變
眾所周知,大模型訓練的關鍵在于算力、數據和算法。簡麗榮認為,云計算平臺正是提供這三個要素最合適的平臺。首先,大模型需要大量算力,特別是高端GPU;其次,需要海量的數據,特別是一些高質量的數據;此外,大模型還需要算法的支持,Model as a Service將成為一種新的PaaS服務。這些都是新的需求,也是云平臺最擅長做的事。所以,大模型的出現將會非常有效地提振云計算市場。同時,擁有更強GPU算力的云廠商會更具競爭優勢。
簡麗榮指出,大模型的出現,將會對自然語言處理、計算機圖像,甚至自動駕駛造成顛覆性的影響,改變這些領域的整個軟件和硬件技術棧,從而給云計算市場帶來全新的資源消費模式。
以SaaS服務為例,大模型對低代碼的沖擊將會非常明顯。低代碼(或零代碼)核心價值是通過拖拉組合解決軟件開發慢、門檻高的問題。然而,大模型的出現顛覆了低代碼的整個開發模式。“低代碼能夠覆蓋的應用場景是有限的,未來后臺的技術棧會被大模型徹底顛覆。”簡麗榮表示。
像ChatGPT之類的大模型可以通過自然語言描述直接創建應用程序,AI生成代碼的速度遠超人工,甚至還可以通過對話持續提出改進建議。此前,曾經估值130億美元的AI寫作工具Grammarly在ChatGPT發布后就出現了網站用戶直線下降的情況。
簡麗榮認為,AI應用的大規模推廣實際上增加了IT行業的競爭維度,不同的企業在不同的維度上面的競爭力是不一樣的。IT層會更加多元化,這自然也會推動多云的普及程度。
未來,大部分普通的非科技企業用戶只需要調用云廠商提供的MaaS服務(模型即服務)來構建自己的垂類模型和應用,而一些大型企業用戶出于數據安全、行業監管要求、成本、自主可控等因素,可能會更傾向于建設自己的基礎平臺來完成專有模型訓練和推理任務。
大模型加速數據庫分布化和并行化
伴隨“模型熱”的興起,龐大的數據量帶來了存儲和計算資源的壓力,這要求數據庫本身緊密跟云計算技術結合,通過元數據、計算和存儲層解耦,從而充分發揮云平臺的彈性和擴展能力。
簡麗榮認為,在大模型爆發的背景下,數據庫需要提供可以橫向的并發訪問能力、多范式的數據處理分析能力(包括支持聲明式語言SQL,過程式語言Python/R,圖計算、全文檢索、流式計算、高性能計算、機器學習和人工智能)和海量異構數據(結構化數據、半結構化數據、非結構化數據以及實時數據)的存儲管理能力。
在這種趨勢下,基于云原生架構的數據倉庫將成為未來數據庫行業發展的重要方向,而大中型企業考慮到高可用以及議價能力等因素,通常會選擇多云部署的模式。
“這種趨勢對我們做多云數據庫的企業也有明顯影響,用我們的核心產品HashData云數倉為例,設計之初,我們對多云部署場景的考慮是通過將系統的不同組件解耦,降低對特定接口的依賴,方便對接各種開放的云平臺,滿足企業數據在不同云平臺流轉的需求。”簡麗榮說,“我們現在在開發增強HashData數據倉庫支持向量數據存儲和處理檢索能力的功能組件,再結合云數倉的高擴展性、高可用和高彈性,實現更好地支撐和擴展大模型的應用場景。”簡麗榮表示。
與此同時,分布式和并行化潮流將進一步加速。“大模型的應用將進一步加速數據庫行業的分布式和并行化潮流,而且在一個更深更廣的層面上進行分布式和并行化。”簡麗榮表示,“更深指的是更多異構的算力資源需要并行化,包括CPU、GPU、DPU等,更廣指的是類似‘東數西算’工程,這些都要求數據系統能夠更好地提供共享和協作能力。”
此外,除了類似ChatGPT一樣的To C的形態外,大模型在企業級市場將更多地以個性化、獨立部署的形態出現,也就是說各行各業甚至同一家企業不同的部門都會有各自的大模型實例,類似行業專家。在這樣的背景下,需要在數據庫內核集成深度學習和大模型的能力。
“無論是數據分析全鏈路的各個環節還是數據庫自身的運維工作,都非常耗時和依賴經驗,我們正在嘗試利用大模型訓練數據庫領域的專家系統,期望提升數據分析和數據庫智能運維能力,實現在數據庫范圍內有類似于‘自動駕駛’一樣的功能。”簡麗榮表示。