可理解三維場景 處理多模態關聯應用需求……“紫東太初”全模態大模型發布
新華社北京6月16日電(記者宋晨、張泉)在三維場景里實現精準定位,通過圖像與聲音的結合完成場景分析……中科院自動化研究所發布“紫東太初”全模態大模型,并首次對外實時展示了該模型在音樂理解與生成、三維場景導航、信號理解、多模態對話等方面的全新功能。
這是記者6月16日在“人工智能框架生態峰會2023”上了解到的信息。
中科院自動化研究所所長徐波介紹,“紫東太初”全模態大模型是在多模態大模型“紫東太初”1.0基礎上升級打造的2.0版本,在語音、圖像和文本三模態的基礎上,加入視頻、信號、3D點云等模態數據,研究突破了認知增強的多模態關聯等關鍵技術,具備全模態理解能力、生成能力和關聯能力。
“紫東太初”2.0可以理解三維場景、信號等數字物聯時代的重要信息,完成了音樂、圖片和視頻等數據之間的跨模態對齊,能夠處理音樂視頻分析、三維導航等多模態關聯應用需求,并可實現音樂、視頻等多模態內容理解和生成。
“從1.0到2.0,‘紫東太初’大模型打通了感知、認知乃至決策的交互屏障,使人工智能進一步感知世界、認知世界,從而延伸出更加強大的通用能力。”徐波說。
目前,“紫東太初”大模型在神經外科手術導航、短視頻內容審核、法律咨詢、醫療多模態鑒別診斷、交通違規圖像研讀等領域展現出一定的產業應用前景。
比如,在醫療場景,“紫東太初”大模型部署于神經外科機器人MicroNeuro,可實現在術中實時融合視覺、觸覺等多模態信息,協助醫生對手術場景進行實時推理判斷。
新華社北京6月16日電(記者宋晨、張泉)在三維場景里實現精準定位,通過圖像與聲音的結合完成場景分析……中科院自動化研究所發布“紫東太初”全模態大模型,并首次對外實時展示了該模型在音樂理解與生成、三維場景導航、信號理解、多模態對話等方面的全新功能。
這是記者6月16日在“人工智能框架生態峰會2023”上了解到的信息。
“紫東太初”全模態大模型發布現場。(中科院自動化所供圖)
中科院自動化研究所所長徐波介紹,“紫東太初”全模態大模型是在多模態大模型“紫東太初”1.0基礎上升級打造的2.0版本,在語音、圖像和文本三模態的基礎上,加入視頻、信號、3D點云等模態數據,研究突破了認知增強的多模態關聯等關鍵技術,具備全模態理解能力、生成能力和關聯能力。
“紫東太初”2.0可以理解三維場景、信號等數字物聯時代的重要信息,完成了音樂、圖片和視頻等數據之間的跨模態對齊,能夠處理音樂視頻分析、三維導航等多模態關聯應用需求,并可實現音樂、視頻等多模態內容理解和生成。
“從1.0到2.0,‘紫東太初’大模型打通了感知、認知乃至決策的交互屏障,使人工智能進一步感知世界、認知世界,從而延伸出更加強大的通用能力。”徐波說。
目前,“紫東太初”大模型在神經外科手術導航、短視頻內容審核、法律咨詢、醫療多模態鑒別診斷、交通違規圖像研讀等領域展現出一定的產業應用前景。
比如,在醫療場景,“紫東太初”大模型部署于神經外科機器人MicroNeuro,可實現在術中實時融合視覺、觸覺等多模態信息,協助醫生對手術場景進行實時推理判斷。