科技日?qǐng)?bào)北京2月4日電 (記者張夢(mèng)然)日本沖繩科學(xué)技術(shù)研究所認(rèn)知神經(jīng)機(jī)器人團(tuán)隊(duì)開(kāi)發(fā)了一種具有新穎架構(gòu)的具身智能模型。它允許科學(xué)家訪(fǎng)問(wèn)神經(jīng)網(wǎng)絡(luò)的各種內(nèi)部狀態(tài),并且能夠以與人類(lèi)兒童相似的方式學(xué)習(xí)泛化,揭曉了神經(jīng)網(wǎng)絡(luò)中認(rèn)知發(fā)展和信息處理的關(guān)鍵信息。該成果發(fā)表在新一期《科學(xué)·機(jī)器人學(xué)》雜志上。
對(duì)人工智能(AI)至關(guān)重要的大型語(yǔ)言模型(LLM)主要依賴(lài)于大規(guī)模數(shù)據(jù)集,但其無(wú)法像人類(lèi)那樣有效地從有限信息中進(jìn)行泛化。而具身智能是一種基于物理實(shí)體進(jìn)行感知和行動(dòng)的智能系統(tǒng)。它可以通過(guò)智能體與環(huán)境的交互來(lái)獲取信息、理解問(wèn)題、做出決策并執(zhí)行行動(dòng)。
此次的具身智能模型基于預(yù)測(cè)編碼啟發(fā),變分遞歸神經(jīng)網(wǎng)絡(luò)框架,通過(guò)集成視覺(jué)、本體感覺(jué)和語(yǔ)言指令三種感官輸入進(jìn)行訓(xùn)練。具體來(lái)說(shuō),該模型處理了以下輸入:觀看機(jī)械臂移動(dòng)彩色塊的視頻;感知人體四肢運(yùn)動(dòng)的感覺(jué)及機(jī)械臂移動(dòng)時(shí)的關(guān)節(jié)角度;以及語(yǔ)言指令如“把紅色物體放在藍(lán)色物體上”。
該模型的靈感,是大腦不斷根據(jù)過(guò)去的經(jīng)驗(yàn)預(yù)測(cè)感官輸入,并采取行動(dòng)將預(yù)測(cè)與觀察之間的差異降至最低。因?yàn)榇竽X的工作記憶和注意力有限,所以必須按順序處理輸入并更新其預(yù)測(cè),而不是像LLM那樣一次性處理所有信息。
研究表明,新模型只需更小的訓(xùn)練集和更少的計(jì)算資源就可實(shí)現(xiàn)泛化學(xué)習(xí)。盡管它比LLM犯錯(cuò)更多,但這些錯(cuò)誤類(lèi)似于人類(lèi)的錯(cuò)誤。
這意味著,將語(yǔ)言與行為相結(jié)合可能是兒童快速語(yǔ)言學(xué)習(xí)的重要因素。這種具身智能不僅提高了透明度,還能更好地了解AI的行為效果,為未來(lái)更安全、更合乎道德的AI發(fā)展指明了方向。
這項(xiàng)研究為理解和模擬人類(lèi)認(rèn)知提供了一個(gè)新的視角,展示了如何通過(guò)整合多種感官輸入來(lái)實(shí)現(xiàn)高效的泛化能力。這不僅有助于開(kāi)發(fā)更加智能和靈活的AI系統(tǒng),也為認(rèn)知科學(xué)提供了寶貴見(jiàn)解。