原標題:中文大模型讓AI更“接地氣”
目前成熟的生成式AI模型大多基于英文數據進行訓練,在國內各行各業的應用環境中,中文大模型顯然更“接地氣”。通過中文或英文數據訓練出來的大模型,差異比較大,中文的上下文理解和語義的多解性要大于英文。大模型首先要理解人類意圖,因此對于國內用戶來說,用中文去訓練的大模型比較適用。
“請訊飛星火認知大模型模仿梁曉聲先生筆下的小說《人世間》的風格,續寫一小段文章。”5月20日,在第七屆世界智能大會閉幕式上,主持人蔣昌建向訊飛星火認知大模型發問。短短幾秒鐘,續寫文字便“躍然紙上”。原作者梁曉聲認為,續寫內容簡練、文字有一定溫度,從傳達的情感和思想來看幾乎“無可挑剔”。
在本次世界智能大會上,生成式人工智能毫無疑問成為大家關注的焦點。近期,國內各大廠商紛紛加快開展生成式AI核心技術的研發,無論是訊飛星火認知大模型展現出的雄厚“中文功底”,還是國家超級計算天津中心發布的基于國產天河超級算力、智能算力和匯集構建中文大數據集研發訓練的天河天元大模型,都讓大眾對我國自主研發的中文生成式AI大模型充滿期待。
開發適合國人的中文大模型
“AI大模型是基于海量多源數據打造的預訓練模型,是對原有算法模型的技術升級和產品迭代。”國家超級計算天津中心數據智能部部長康波介紹,預訓練大模型在基于海量數據的自監督學習階段完成了“通識”教育,再借助“預訓練+精調”等模式,在共享參數的情況下,根據具體應用場景的特性,用少量數據進行相應微調,即可高水平完成任務。
AI大模型能夠理解人類的自然語言表達,并通過龐大的網絡結構實現具有針對性的內容輸出。
從效果上看,生成式AI表現為“無所不知、無所不能”,其具備了邏輯推理、上下文理解、文字創作、知識提取、代碼生成等非常多元化的強大能力。
不過,目前成熟的生成式AI大模型大多基于英文數據進行訓練。“通過中文或英文數據訓練出來的大模型,差異還是比較大的,中文的上下文理解和語義的多解性要大于英文。大模型首先要理解人類意圖,因此對于國內用戶來說,用中文去訓練的大模型比較適用。”康波說。
此外,生成式AI正一步步向生產工具方向發展,為產業深度賦能,或將成為人工智能與實體經濟深度融合的重要力量。那么作為數據驅動的AI大模型,其訓練數據來源的可靠性和安全性,便成為推動科技創新的關鍵。因此,自主研發中文大模型成為越來越多科技巨頭的首要選擇。
三月以來,國內大模型領域已進入“混戰”模式,各路玩家紛紛入局,其中有不少都“相中”了研發中文大模型。
“搶抓通用人工智能的發展機遇有幾個基本要素。”科大訊飛董事長劉慶峰認為,第一,必須要在自主可控的平臺上;第二,必須要同時做中文和英文,不只學習中國的“智慧”,還要向世界學習;第三,在“硬碰硬”的科技對比上,不僅要學習,還要想辦法趕超。
例如,阿里推出了首個中文AI模型社區,社區首批上架超300個模型,其中中文模型超過100個,覆蓋了視覺、語音、自然語言處理、多模態等AI主要領域,覆蓋主流任務超過60個,且均全面開源并開放使用。360公司推出的“360智腦”背后的360GPT大模型,在海量的中文文本數據上進行了預訓練和微調,從而具備了強大的語言理解和生成能力。據悉,該模型目前已經達到了100億參數規模,并且還在不斷擴展中。
中文大語言模型數據集稀缺
生成式人工智能是人工智能發展到一定階段的產物。就像ImageNet數據集推動了殘差網絡等計算機視覺算法的成熟,openslr等開源數據集的發布催生了長短期記憶神經網絡等自然語言神經網絡的發展,圖形處理器的大量使用使得模型參數從百萬級發展到千億級(ChatGPT使用了上萬塊A100顯卡開展訓練)。可以看出,生成式人工智能的快速成長,離不開算力和數據的支撐。
“大模型是大數據、大算力驅動的結果,兩者缺一不可。”超級計算天津中心首席科學家孟祥飛博士強調。
一方面,中文大模型的理解能力來自于數據,它需要用海量數據來學習,通過自注意力和多頭注意力機制來建立知識之間的聯系。這就意味著,更多、更高質量的數據供給,將會帶來模型網絡中知識之間關系的完善性和貫通性。當用戶提問到深層次或者冷門問題時,數據質量越高,AI大模型回答出正確答案的概率就越大。
“但目前中文大語言模型的數據集非常稀缺。”孟祥飛介紹,為了解決這個問題,天津超算中心搜集整理了全域的網頁數據,并從中提取處理高質量的中文數據做成數據集,同時采集納入各種開源訓練數據、中文小說數據、古文數據、百科數據、新聞數據以及專業領域的諸如醫學、法律等多種數據集,訓練數據集總token數達到3500億,訓練打造了中文語言大模型——天河天元大模型。
另一方面,算力的供應是大模型的基礎保障。大模型發端于自然語言處理領域,以谷歌的BERT、Open AI的ChatGPT和百度文心一言等大模型為代表,參數規模逐步提升至千億、萬億,同時用于訓練的數據量級也顯著提升,帶來了模型能力的提高,這也代表著算力需求的指數級上升。
“而超級計算可以說是算力中的戰斗機。”孟祥飛說,為了保證大模型的訓練順利,天津超算中心充分利用了天河新一代超級計算機的雙精度、單精度、半精度融合計算輸出能力,構建基于自主E級算力體系架構的智能計算引擎,建設人工智能大規模訓練與應用系統支撐環境,特別是在中文處理方面構建了中文大模型數據處理的工作流技術體系,從而保障了訓練任務的順利開展。
技術成果廣泛應用于多領域
在此次世界智能大會上,隨著訊飛星火認知大模型一起展示的還有多款搭載了大模型的行業應用成果。
康波認為,人工智能是驅動新一輪科技革命和產業變革的巨大力量,應將大模型作為產業智能化升級的基座,用專業數據集打造更貼合行業領域的智能化高水平“專家”。
以訊飛星火認知大模型為例,該大模型的整體布局為“1+N”體系。其中“1”是指通用認知智能大模型,“N”就是大模型在教育、辦公、汽車、人機交互等各個領域的應用。例如在教育領域,作為全球首款搭載認知大模型的學習機,科大訊飛推出的學習機可像真人教師一樣與3歲至18歲的學生進行互動式輔學;在辦公領域,基于大模型能力升級的產品具備語篇規整、會議紀要、一鍵成稿等功能。
康波認為,在各行各業的應用中,中文大模型顯然更“接地氣”。他舉例說,天津超算中心綜合實現了文本、語音、視頻等多模態的大模型生成能力,從而形成了“一平臺三能力”的基礎架構,實現了更廣泛的產業融合能力。基于其自然語言的理解和表達能力,與醫療結合,學習醫學指南等專業規范,可以迅速地掌握對應的專業知識。其中,中文大模型可以解決“同詞不同義”在醫療上的歧義性,實現精準的輸出,為醫療輔助診斷提供更為全面的支撐能力。
同樣,在工業檢測和流程控制方面,大模型基于多元化輸出能力,可以進行規范輔導、缺陷檢測、流程指令生成一系列操作,降低錯誤率,提升生產效率。其中,中文大模型可以更好地理解復雜的專業術語以及流程指令邏輯,讓輸出更準確、嚴謹。
“在大模型通用性、泛化性以及降低人工智能應用門檻的優勢推動下,人工智能也將會加快落地,形成新的機遇。”康波表示。
目前成熟的生成式AI模型大多基于英文數據進行訓練,在國內各行各業的應用環境中,中文大模型顯然更“接地氣”。通過中文或英文數據訓練出來的大模型,差異比較大,中文的上下文理解和語義的多解性要大于英文。大模型首先要理解人類意圖,因此對于國內用戶來說,用中文去訓練的大模型比較適用。
“請訊飛星火認知大模型模仿梁曉聲先生筆下的小說《人世間》的風格,續寫一小段文章。”5月20日,在第七屆世界智能大會閉幕式上,主持人蔣昌建向訊飛星火認知大模型發問。短短幾秒鐘,續寫文字便“躍然紙上”。原作者梁曉聲認為,續寫內容簡練、文字有一定溫度,從傳達的情感和思想來看幾乎“無可挑剔”。
在本次世界智能大會上,生成式人工智能毫無疑問成為大家關注的焦點。近期,國內各大廠商紛紛加快開展生成式AI核心技術的研發,無論是訊飛星火認知大模型展現出的雄厚“中文功底”,還是國家超級計算天津中心發布的基于國產天河超級算力、智能算力和匯集構建中文大數據集研發訓練的天河天元大模型,都讓大眾對我國自主研發的中文生成式AI大模型充滿期待。
開發適合國人的中文大模型
“AI大模型是基于海量多源數據打造的預訓練模型,是對原有算法模型的技術升級和產品迭代。”國家超級計算天津中心數據智能部部長康波介紹,預訓練大模型在基于海量數據的自監督學習階段完成了“通識”教育,再借助“預訓練+精調”等模式,在共享參數的情況下,根據具體應用場景的特性,用少量數據進行相應微調,即可高水平完成任務。
AI大模型能夠理解人類的自然語言表達,并通過龐大的網絡結構實現具有針對性的內容輸出。
從效果上看,生成式AI表現為“無所不知、無所不能”,其具備了邏輯推理、上下文理解、文字創作、知識提取、代碼生成等非常多元化的強大能力。
不過,目前成熟的生成式AI大模型大多基于英文數據進行訓練。“通過中文或英文數據訓練出來的大模型,差異還是比較大的,中文的上下文理解和語義的多解性要大于英文。大模型首先要理解人類意圖,因此對于國內用戶來說,用中文去訓練的大模型比較適用。”康波說。
此外,生成式AI正一步步向生產工具方向發展,為產業深度賦能,或將成為人工智能與實體經濟深度融合的重要力量。那么作為數據驅動的AI大模型,其訓練數據來源的可靠性和安全性,便成為推動科技創新的關鍵。因此,自主研發中文大模型成為越來越多科技巨頭的首要選擇。
三月以來,國內大模型領域已進入“混戰”模式,各路玩家紛紛入局,其中有不少都“相中”了研發中文大模型。
“搶抓通用人工智能的發展機遇有幾個基本要素。”科大訊飛董事長劉慶峰認為,第一,必須要在自主可控的平臺上;第二,必須要同時做中文和英文,不只學習中國的“智慧”,還要向世界學習;第三,在“硬碰硬”的科技對比上,不僅要學習,還要想辦法趕超。
例如,阿里推出了首個中文AI模型社區,社區首批上架超300個模型,其中中文模型超過100個,覆蓋了視覺、語音、自然語言處理、多模態等AI主要領域,覆蓋主流任務超過60個,且均全面開源并開放使用。360公司推出的“360智腦”背后的360GPT大模型,在海量的中文文本數據上進行了預訓練和微調,從而具備了強大的語言理解和生成能力。據悉,該模型目前已經達到了100億參數規模,并且還在不斷擴展中。
中文大語言模型數據集稀缺
生成式人工智能是人工智能發展到一定階段的產物。就像ImageNet數據集推動了殘差網絡等計算機視覺算法的成熟,openslr等開源數據集的發布催生了長短期記憶神經網絡等自然語言神經網絡的發展,圖形處理器的大量使用使得模型參數從百萬級發展到千億級(ChatGPT使用了上萬塊A100顯卡開展訓練)。可以看出,生成式人工智能的快速成長,離不開算力和數據的支撐。
“大模型是大數據、大算力驅動的結果,兩者缺一不可。”超級計算天津中心首席科學家孟祥飛博士強調。
一方面,中文大模型的理解能力來自于數據,它需要用海量數據來學習,通過自注意力和多頭注意力機制來建立知識之間的聯系。這就意味著,更多、更高質量的數據供給,將會帶來模型網絡中知識之間關系的完善性和貫通性。當用戶提問到深層次或者冷門問題時,數據質量越高,AI大模型回答出正確答案的概率就越大。
“但目前中文大語言模型的數據集非常稀缺。”孟祥飛介紹,為了解決這個問題,天津超算中心搜集整理了全域的網頁數據,并從中提取處理高質量的中文數據做成數據集,同時采集納入各種開源訓練數據、中文小說數據、古文數據、百科數據、新聞數據以及專業領域的諸如醫學、法律等多種數據集,訓練數據集總token數達到3500億,訓練打造了中文語言大模型——天河天元大模型。
另一方面,算力的供應是大模型的基礎保障。大模型發端于自然語言處理領域,以谷歌的BERT、Open AI的ChatGPT和百度文心一言等大模型為代表,參數規模逐步提升至千億、萬億,同時用于訓練的數據量級也顯著提升,帶來了模型能力的提高,這也代表著算力需求的指數級上升。
“而超級計算可以說是算力中的戰斗機。”孟祥飛說,為了保證大模型的訓練順利,天津超算中心充分利用了天河新一代超級計算機的雙精度、單精度、半精度融合計算輸出能力,構建基于自主E級算力體系架構的智能計算引擎,建設人工智能大規模訓練與應用系統支撐環境,特別是在中文處理方面構建了中文大模型數據處理的工作流技術體系,從而保障了訓練任務的順利開展。
技術成果廣泛應用于多領域
在此次世界智能大會上,隨著訊飛星火認知大模型一起展示的還有多款搭載了大模型的行業應用成果。
康波認為,人工智能是驅動新一輪科技革命和產業變革的巨大力量,應將大模型作為產業智能化升級的基座,用專業數據集打造更貼合行業領域的智能化高水平“專家”。
以訊飛星火認知大模型為例,該大模型的整體布局為“1+N”體系。其中“1”是指通用認知智能大模型,“N”就是大模型在教育、辦公、汽車、人機交互等各個領域的應用。例如在教育領域,作為全球首款搭載認知大模型的學習機,科大訊飛推出的學習機可像真人教師一樣與3歲至18歲的學生進行互動式輔學;在辦公領域,基于大模型能力升級的產品具備語篇規整、會議紀要、一鍵成稿等功能。
康波認為,在各行各業的應用中,中文大模型顯然更“接地氣”。他舉例說,天津超算中心綜合實現了文本、語音、視頻等多模態的大模型生成能力,從而形成了“一平臺三能力”的基礎架構,實現了更廣泛的產業融合能力。基于其自然語言的理解和表達能力,與醫療結合,學習醫學指南等專業規范,可以迅速地掌握對應的專業知識。其中,中文大模型可以解決“同詞不同義”在醫療上的歧義性,實現精準的輸出,為醫療輔助診斷提供更為全面的支撐能力。
同樣,在工業檢測和流程控制方面,大模型基于多元化輸出能力,可以進行規范輔導、缺陷檢測、流程指令生成一系列操作,降低錯誤率,提升生產效率。其中,中文大模型可以更好地理解復雜的專業術語以及流程指令邏輯,讓輸出更準確、嚴謹。
“在大模型通用性、泛化性以及降低人工智能應用門檻的優勢推動下,人工智能也將會加快落地,形成新的機遇。”康波表示。