ChatGPT 無(wú)疑是今年最出圈的科技熱點(diǎn),和之前我們認(rèn)知中的 AI 不太一樣,它擁有更為強(qiáng)大的語(yǔ)言理解和文本生成能力,更能“聽(tīng)懂”人話,做到與真正人類(lèi)幾乎無(wú)異的交流,甚至可以寫(xiě)論文、腳本、代碼。如此強(qiáng)大的人工智能,只讓它活在屏幕里未免有點(diǎn)大材小用,所以越疆工程師們?cè)谝环芯亢螅瑢?ChatGPT 與越疆協(xié)作機(jī)器人結(jié)合,在物理世界做出了應(yīng)用實(shí)踐。
機(jī)器人調(diào)酒師
一名優(yōu)秀的調(diào)酒師應(yīng)該具備什么樣的特質(zhì)?出色的調(diào)酒技能只是基礎(chǔ),他還應(yīng)該善于溝通,在適當(dāng)?shù)臅r(shí)候給予客人一定的心靈慰藉。在越疆機(jī)器人調(diào)酒項(xiàng)目中,工程師們將 ChatGPT 巧妙融入其中,一下讓冷冰冰的機(jī)器人,成為了一名懂酒懂心的優(yōu)秀調(diào)酒師。
我們前期對(duì) ChatGPT 進(jìn)行了訓(xùn)練,詳細(xì)告知它應(yīng)該扮演的角色(調(diào)酒師),各式雞尾酒的配方、口感等內(nèi)容。
經(jīng)過(guò)訓(xùn)練后,機(jī)器人調(diào)酒師變得可靠又貼心,擁有更多自主判斷能力。比如顧客提出不合理要求,故意要求在長(zhǎng)島冰茶雞尾酒中放茶時(shí),ChatGPT 會(huì)反饋長(zhǎng)島冰茶里并沒(méi)有茶,其實(shí)是各種烈酒和可口可樂(lè)混合而成。
當(dāng)顧客沒(méi)有明確的酒類(lèi)需求,只提出推薦一杯能讓心情好起來(lái)的雞尾酒時(shí),ChatGPT 則會(huì)根據(jù)對(duì)話者的當(dāng)下情緒狀況自行分析判斷,推薦【藍(lán)色夏威夷】雞尾酒,理由是酸酸甜甜的口感,有助于恢復(fù)心情。
當(dāng)顧客表示口味比較酸,卻沒(méi)有提任何要求時(shí),ChatGPT 會(huì)根據(jù)語(yǔ)境推測(cè)對(duì)話者需求是進(jìn)行口味調(diào)節(jié),并且知道用現(xiàn)有材料椰奶來(lái)中和酸味,而普通 AI 大概率會(huì)因?yàn)檫@種模糊需求不知所措,發(fā)出”我不明白您在說(shuō)什么“的感嘆。
更重要的是,在被授予越疆協(xié)作機(jī)器人控制接口信息后,ChatGPT 會(huì)根據(jù)不同雞尾酒的特點(diǎn),為機(jī)器人生成搖酒軌跡和代碼。然后機(jī)器人調(diào)酒師就能帥氣地制作各式各樣的雞尾酒。
智能物品分揀
調(diào)試機(jī)器人需要不低的技術(shù)門(mén)檻,以往工程師需要輸入大量代碼來(lái)引導(dǎo)機(jī)器人運(yùn)作,操控不同的機(jī)器人可能還會(huì)涉及不同的編程語(yǔ)言。而在 ChatGPT 的幫助下,工程師可以直接用口語(yǔ)描述想做什么,由 ChatGPT 自動(dòng)編譯成機(jī)器語(yǔ)言,充分調(diào)動(dòng)機(jī)器人的手、眼、腦指揮機(jī)器人行動(dòng)。
簡(jiǎn)單的抓取和任務(wù)步驟描述自然難不倒機(jī)器人和 ChatGPT,為了提升難度,我們要求它在各式物品中抓取一斤橘子,這時(shí) ChatGPT 會(huì)多線并行,自動(dòng)完成水果識(shí)別、水果抓取、重量計(jì)算等一系列工作并完成任務(wù)。
當(dāng)要求它對(duì)桌面物品進(jìn)行分類(lèi)時(shí),無(wú)需告知細(xì)節(jié)和步驟,ChatGPT 會(huì)自行借助相機(jī)識(shí)別桌面物品,并自動(dòng)做出類(lèi)別判斷,完成分類(lèi)任務(wù),相比以往依靠人工標(biāo)注分類(lèi)的機(jī)器人而言,運(yùn)作更為聰明。
從兩個(gè)方案實(shí)踐的情況來(lái)看,ChatGPT 確實(shí)能通過(guò)理解和學(xué)習(xí)人類(lèi)的語(yǔ)言,結(jié)合實(shí)際來(lái)進(jìn)行互動(dòng),還能快速生成符合不同場(chǎng)景的機(jī)器人代碼,匹配用戶需求,大大減少了開(kāi)發(fā)時(shí)間和成本。
從技術(shù)層面分析,ChatGPT 大模型學(xué)習(xí)人類(lèi)先驗(yàn)知識(shí),融入各類(lèi)物理感知,以協(xié)作機(jī)器人為載體,增強(qiáng)了人機(jī)交互、人機(jī)協(xié)作的體驗(yàn)感,讓機(jī)器人更加智能化、人性化。在此基礎(chǔ)上,越疆形成了自己的機(jī)器人大規(guī)模模型技術(shù)框架。
總體技術(shù)框架:人類(lèi)通過(guò)自然語(yǔ)言交互下達(dá)任務(wù)指令,通過(guò)語(yǔ)音識(shí)別技術(shù)轉(zhuǎn)換為文本輸入給ChatGPT,ChatGPT 大規(guī)模語(yǔ)言模型根據(jù)從海量數(shù)據(jù)中學(xué)習(xí)的大量人類(lèi)先驗(yàn)知識(shí)(包括語(yǔ)言類(lèi)知識(shí)和世界知識(shí)等),以及前期 Prompt 指令的微調(diào)訓(xùn)練后(使得 ChatGPT 更有效適應(yīng)下游任務(wù)),理解人類(lèi)任務(wù)指示,可融合視覺(jué)、力覺(jué)等物理感知信息,做出最終任務(wù)決策,并控制機(jī)器人執(zhí)行完成指定任務(wù)。
未來(lái),越疆將在“AI+機(jī)器人”領(lǐng)域不斷創(chuàng)新突破,與更多前沿技術(shù)融合碰撞,讓協(xié)作機(jī)器人真正具有自主感知、智能決策、精細(xì)操作等特性,并推動(dòng)大規(guī)模模型在機(jī)器人先進(jìn)制造和商業(yè)服務(wù)業(yè)的落地應(yīng)用。