香蕉国产精品偷在线观看_国产成人精品曰本亚洲77_性欧美xxxxx极品少妇_四虎永久在线精品免费网址


5國15所頂尖學(xué)府聯(lián)合綜述:人形機器人運動與操控的最新突破與挑戰(zhàn)

2025-2-6 9:14:51????點擊:



單位:喬治亞理工學(xué)院,南加州大學(xué),慕尼黑工業(yè)大學(xué),谷歌DeepMind,人工智能研究所,人機認(rèn)知研究所,杜克大學(xué),斯坦福大學(xué),法國國家科學(xué)研究中心-蒙彼利埃大學(xué),CNRS-AIST聯(lián)合機器人實驗室,西蒙弗雷澤大學(xué),德克薩斯大學(xué)奧斯汀分校,NVIDIA,卡內(nèi)基梅隆大學(xué),哈爾濱工業(yè)大學(xué)

論文標(biāo)題:Humanoid Locomotion and Manipulation: Current Progress and Challenges in Control, Planning, and Learning
論文鏈接:https://arxiv.org/pdf/2501.02116


▍核心亮點

本文對人形機器人領(lǐng)域進(jìn)行了系統(tǒng)性回顧。從技術(shù)路線來看,文章首先總結(jié)了傳統(tǒng)的基于模型的規(guī)劃控制方法在近三十年的發(fā)展歷程。繼而探討了強化學(xué)習(xí)和模仿學(xué)習(xí)等新興的學(xué)習(xí)方法在該領(lǐng)域的應(yīng)用。

文章特別關(guān)注了兩個具有重要潛力的研究方向:第一個是基礎(chǔ)模型在人形機器人領(lǐng)域的應(yīng)用。這種結(jié)合有望增強機器人的知識儲備和推理能力,朝著開發(fā)通用人形機器人智能體的目標(biāo)邁進(jìn)。第二個是全身觸覺感知技術(shù),這項技術(shù)對于實現(xiàn)復(fù)雜的物理交互至關(guān)重要,尤其在視覺系統(tǒng)受限的情況下,可以提供準(zhǔn)確的環(huán)境感知信息。

在分析未來發(fā)展趨勢時,文章指出了數(shù)值優(yōu)化方法的改進(jìn)需求、標(biāo)準(zhǔn)化測試基準(zhǔn)的缺失、高質(zhì)量數(shù)據(jù)獲取的困難,以及基礎(chǔ)模型在人形機器人中的具體應(yīng)用方式等主要挑戰(zhàn)。這些挑戰(zhàn)也構(gòu)成了未來研究的重點方向。

▍引言
人形機器人(Humanoid Robots),或稱仿人機器人,因其類人形態(tài),特別適合執(zhí)行需要類似人類動作的任務(wù),如全身運動和操作。它們在制造業(yè)和服務(wù)業(yè)中應(yīng)用廣泛,能夠與人類協(xié)作完成復(fù)雜任務(wù)。盡管仿人機器人潛力巨大,但同時實現(xiàn)復(fù)雜任務(wù)并應(yīng)對高度復(fù)雜的機器人動力學(xué)仍充滿挑戰(zhàn)。這些任務(wù)要求機器人在動態(tài)環(huán)境中安全地與人協(xié)作,并在非結(jié)構(gòu)化環(huán)境中進(jìn)行操作。為了快速獲取運動和認(rèn)知技能,仿人機器人可以利用人類數(shù)據(jù)進(jìn)行學(xué)習(xí)。借助人類知識,仿人機器人能夠?qū)崿F(xiàn)快速的具身智能,從而加速技能獲取。

感知算法能夠?qū)崟r檢測、分類和分割各種物體?;谀P偷姆椒ㄍㄟ^預(yù)測和反應(yīng)控制,實現(xiàn)了敏捷且可靠的運動和操作。深度學(xué)習(xí)策略則通過探索和模仿,在機器人硬件上展示了良好的控制效果。大型基礎(chǔ)模型的出現(xiàn),為自主仿人機器人的構(gòu)建提供了可能。這些模型經(jīng)大規(guī)模數(shù)據(jù)訓(xùn)練,具備開放世界推理能力,有力推動了仿人機器人領(lǐng)域的發(fā)展。本文全面回顧了仿人機器人運動和操作的最新進(jìn)展,以助力研究人員更好地把握該領(lǐng)域的最新動態(tài)和發(fā)展方向。


▍仿人機器人的運動控制與規(guī)劃


雙足行走與導(dǎo)航

雙足行走是仿人機器人的一個顯著特征,過去三十年中一直是研究的熱點領(lǐng)域。研究從被動行走發(fā)展到準(zhǔn)靜態(tài)行走,再到動態(tài)行走。研究還涉及在外部擾動和力負(fù)載下的雙足行走,為同時進(jìn)行行走和操作奠定了基礎(chǔ)?;谀P偷姆椒ǎㄈ绫粍有凶撸┖突趯W(xué)習(xí)的方法(如強化學(xué)習(xí)和模仿學(xué)習(xí))都取得了進(jìn)展。

導(dǎo)航方面,雙足機器人需要能夠在復(fù)雜環(huán)境中有效導(dǎo)航,包括室內(nèi)和室外環(huán)境。導(dǎo)航堆棧通常采用分層結(jié)構(gòu),包括全局路徑規(guī)劃器和局部步態(tài)規(guī)劃器。全局路徑規(guī)劃器負(fù)責(zé)生成從起點到終點的全局路徑,而局部步態(tài)規(guī)劃器則負(fù)責(zé)在局部環(huán)境中生成具體的步態(tài)和動作。這種分層結(jié)構(gòu)使得機器人能夠在復(fù)雜環(huán)境中實現(xiàn)高效的導(dǎo)航。

全身操作與觸覺傳感



全身操作是指利用機器人所有部位進(jìn)行交互的能力。這種能力在人類中很常見,例如使用肘部或臀部來保持門打開,或使用手掌提供更大的力量。在機器人中實現(xiàn)全身操作面臨多重挑戰(zhàn),包括系統(tǒng)層面的感知、估計、規(guī)劃和控制。機械設(shè)計、控制和規(guī)劃的突破已經(jīng)實現(xiàn)了全身操作,但仍需進(jìn)一步發(fā)展以應(yīng)對復(fù)雜的接觸動力學(xué)和高維自由度系統(tǒng)的計算成本。

觸覺傳感提供了一種直接且準(zhǔn)確的感知方式,使機器人能夠更好地理解和適應(yīng)復(fù)雜的環(huán)境和物體交互。觸覺傳感的優(yōu)勢在于它模仿了人類的觸覺,能夠在機器人皮膚的大面積上提供比本體感受傳感器更準(zhǔn)確的信息。它允許機器人在視覺被遮擋的情況下感知復(fù)雜環(huán)境并評估物體的屬性。觸覺傳感可以用于估計接觸力、粗糙度、紋理和重量等信息,補充傳統(tǒng)的視覺信息(如位置、形狀和顏色)。

手部的觸覺傳感器用于復(fù)雜的操作任務(wù),提供實時的接觸反饋。這些傳感器可以在力或阻抗控制回路中使用,以調(diào)節(jié)期望的物體行為。基于觸覺的強化學(xué)習(xí)(RL)方法可以直接將觸覺測量整合到狀態(tài)空間中,訓(xùn)練端到端的策略。然而,高維輸入空間和模擬接觸物理的困難是主要挑戰(zhàn)。

足部的觸覺傳感用于行走任務(wù),估計地面反作用力(GRFs)和地形屬性。現(xiàn)有的工作使用力矩傳感器或負(fù)載單元傳感器來測量GRFs,但這些方法缺乏對接觸區(qū)域、力分布和地形細(xì)節(jié)的準(zhǔn)確信息。未來的研究方向包括如何準(zhǔn)確估計更多的地形屬性(如硬度、阻尼、塑性、異質(zhì)性和多孔性),以及如何將這些傳感信息與其他傳感模塊融合以提高機器人的地形感知能力。

全身觸覺傳感擴(kuò)展了機器人的交互能力,使其不僅通過手或腳進(jìn)行交互,還可以通過手臂、腿部和軀干進(jìn)行交互。這種傳感方式增強了機器人的平衡能力和碰撞避免能力,并在非結(jié)構(gòu)化環(huán)境中提供了安全的物理人機交互。全身觸覺傳感在處理大物體和實現(xiàn)全身操作方面顯示出巨大潛力,但仍面臨動態(tài)感知和多模態(tài)傳感集成的挑戰(zhàn)。

▍多接觸規(guī)劃與模型預(yù)測控制


多接觸規(guī)劃

多接觸規(guī)劃是指機器人在執(zhí)行任務(wù)時與環(huán)境或物體進(jìn)行多種接觸的規(guī)劃過程?;谒阉鞯慕佑|規(guī)劃方法通過狀態(tài)擴(kuò)展來探索可能的配置,以創(chuàng)建和打破接觸。搜索過程中通常會檢查碰撞和運動可行性。為了提高效率,研究者引入了統(tǒng)計方差減少技術(shù)(如控制變量和重要性采樣)來加速解決方案的收斂。



基于優(yōu)化方法的接觸規(guī)劃通過將接觸動力學(xué)納入軌跡優(yōu)化公式,一次性確定接觸模式、接觸力、接觸位置和全身運動。由于問題的規(guī)模較大,通常依賴于速度提升策略,如使用初始猜測進(jìn)行快速收斂,或?qū)栴}分解為接觸規(guī)劃和全身運動規(guī)劃的子問題。為了實現(xiàn)實時應(yīng)用,研究人員還在探索混合方法,結(jié)合搜索和優(yōu)化方法的優(yōu)點。

基于學(xué)習(xí)的接觸規(guī)劃方法,特別是強化學(xué)習(xí)(RL),通過試錯來發(fā)現(xiàn)新的行為。這些方法通常以模塊化的方式與基于模型的規(guī)劃器結(jié)合,形成層次結(jié)構(gòu)。學(xué)習(xí)方法可以提高多接觸規(guī)劃的效率,例如通過預(yù)測質(zhì)心動力學(xué)演化來生成高效的接觸序列。未來研究方向包括開發(fā)更集成的方法,結(jié)合搜索、優(yōu)化和學(xué)習(xí)方法的優(yōu)點,以解決計算復(fù)雜性和實時性能的問題。

模型預(yù)測控制


模型預(yù)測控制(Model Predictive Control, MPC)是一種優(yōu)化方法,通過在線求解最優(yōu)控制問題來實現(xiàn)軌跡規(guī)劃和控制。MPC的目標(biāo)是在未來有限的時間范圍內(nèi)找到最優(yōu)的狀態(tài)軌跡和控制輸入。其優(yōu)化問題通常表示為一個最優(yōu)控制問題(OCP),包含狀態(tài)軌跡、控制輸入和約束力的軌跡。



為了實現(xiàn)高頻在線規(guī)劃,研究者常使用簡化動力學(xué)模型(如單剛體模型SRBM和線性倒立擺模型LIPM)。這些模型通過線性化或近似來減少計算復(fù)雜性,適用于高頻控制。例如,SRBM可以通過提供明確的足部位置序列參考來進(jìn)行線性化,并在MIT仿人機器人上實現(xiàn)動態(tài)特技動作。

全身模型(如質(zhì)心動力學(xué)CD和全身動力學(xué)WBD)提供了更準(zhǔn)確的機器人動力學(xué)表示,適用于規(guī)劃多樣化的運動和交互。WBD模型在MPC中的應(yīng)用需要處理高維度的非線性問題,計算復(fù)雜度較高,但能夠更好地捕捉機器人動力學(xué)特性。

混合保真度模型通過在MPC的不同時間范圍內(nèi)使用不同精度的模型來提高性能和效率。例如,可以使用高保真模型在近時間段內(nèi)進(jìn)行精確計算,而在遠(yuǎn)時間段內(nèi)使用低保真模型以簡化計算。

MPC加速方法包括結(jié)構(gòu)利用(Structure Exploitation)、線性化(Linearization)、預(yù)熱(Warm Start)和采樣(Sampling)。結(jié)構(gòu)利用通過提取問題中的結(jié)構(gòu)來提高求解效率和數(shù)值穩(wěn)定性。線性化通過逐時間步線性化來簡化問題,但可能會犧牲模型精度。預(yù)熱通過使用前一次迭代的解來初始化當(dāng)前迭代,以提高收斂速度。采樣方法通過隨機采樣來擴(kuò)大搜索空間,但需要有效的并行化技術(shù)。

環(huán)境和對象交互模型在行走與操作的MPC中,需要考慮與靜態(tài)環(huán)境、操縱對象和動態(tài)環(huán)境的交互。這些交互模型需要準(zhǔn)確地建模接觸力和對象的動態(tài)特性,以實現(xiàn)穩(wěn)定和可靠的機器人操作。

▍全身控制與技能學(xué)習(xí)

全身控制



全身控制(Whole-Body Control, WBC)旨在生成關(guān)節(jié)扭矩、約束力和廣義加速度,以實現(xiàn)給定的動態(tài)任務(wù)。全身控制器用于生成關(guān)節(jié)級的控制信號,以跟蹤期望的軌跡并發(fā)送扭矩命令到物理機器人。它適用于三種常見的情況:基于簡化模型的軌跡計算、基于全階模型的軌跡規(guī)劃但計算過于復(fù)雜、以及在環(huán)境不確定性和規(guī)劃不準(zhǔn)確性下需要魯棒的WBC。

WBC的動態(tài)任務(wù)向量可以用決策變量的線性方程表示,涵蓋各種任務(wù),如跟蹤參考關(guān)節(jié)空間加速度、操作空間加速度、質(zhì)心動量率等。MPC常用于為WBC提供操作空間的動態(tài)任務(wù)。

封閉式方法通過逆動力學(xué)控制器來解決WBC問題,通常用于單一動態(tài)任務(wù)。這些方法通過投影系統(tǒng)動力學(xué)來消除約束力,從而簡化計算。盡管計算效率高,但封閉式方法難以處理不等式任務(wù),如關(guān)節(jié)限制和障礙物避障。

優(yōu)化方法通過二次規(guī)劃(QP)或加權(quán)QP來增強WBC的靈活性,能夠處理多個動態(tài)任務(wù)和不等式任務(wù)。嚴(yán)格任務(wù)層次結(jié)構(gòu)通過順序求解多個QP子問題來確保任務(wù)優(yōu)先級,而加權(quán)QP則通過軟約束來調(diào)整任務(wù)的相對優(yōu)先級。

在行走與操作中,WBC需要同時實現(xiàn)期望的運動并保持瞬時平衡和接觸穩(wěn)定性。根據(jù)環(huán)境或?qū)ο蟮膭討B(tài)特性,WBC可以分為兩種情況:作為外部力矩的交互和作為統(tǒng)一機器人-對象模型的交互。

技能學(xué)習(xí)
仿人機器人通過學(xué)習(xí)方法來獲取行走與操作(loco-manipulation)技能,主要包括兩種學(xué)習(xí)方法:強化學(xué)習(xí)(Reinforcement Learning, RL)和模仿學(xué)習(xí)(Imitation Learning, IL),以及它們的組合應(yīng)用。

強化學(xué)習(xí)通過獎勵和懲罰機制來學(xué)習(xí)任務(wù),不需要示范數(shù)據(jù),適合于探索未知行為。它可以直接將原始感知輸入轉(zhuǎn)換為動作輸出,適用于實時應(yīng)用。挑戰(zhàn)在于RL通常需要精心設(shè)計的獎勵函數(shù)來引導(dǎo)策略的學(xué)習(xí),這在復(fù)雜任務(wù)中可能非常具有挑戰(zhàn)性。此外,RL策略在仿真環(huán)境中訓(xùn)練后,遷移到現(xiàn)實世界時可能會遇到"仿真到現(xiàn)實"(sim-to-real)遷移的問題。
  模仿學(xué)習(xí)主要關(guān)注如何利用機器人執(zhí)行的數(shù)據(jù)(如策略執(zhí)行和遙控操作)來訓(xùn)練機器人技能。數(shù)據(jù)獲取方法包括策略執(zhí)行和遙控操作。策略執(zhí)行通過執(zhí)行現(xiàn)有的專家策略來收集數(shù)據(jù),通常在模擬環(huán)境中進(jìn)行。遙控操作通過人類操作員遠(yuǎn)程控制機器人來直接捕獲數(shù)據(jù),適用于廣泛的任務(wù)。
學(xué)習(xí)方法包括行為克隆和逆強化學(xué)習(xí)。行為克隆將模仿學(xué)習(xí)視為監(jiān)督學(xué)習(xí)問題,通過訓(xùn)練一個模型來復(fù)制專家策略的行為。逆強化學(xué)習(xí)從數(shù)據(jù)中重建獎勵函數(shù),并結(jié)合強化學(xué)習(xí)來訓(xùn)練策略。
  多模態(tài)數(shù)據(jù)處理方法如Action Chunking Transformer(ACT)用于處理機器人執(zhí)行數(shù)據(jù)和遙控操作數(shù)據(jù)的不同特征。遙控操作數(shù)據(jù)可能包含多種可能的動作,而策略執(zhí)行數(shù)據(jù)通常是單峰的。

▍未來挑戰(zhàn)與機遇

數(shù)值優(yōu)化的挑戰(zhàn)

機器人規(guī)劃和控制技術(shù)通常被形式化為數(shù)值優(yōu)化問題,這些技術(shù)依賴于離散數(shù)學(xué)和優(yōu)化理論的進(jìn)步。盡管取得了進(jìn)展,但在處理非凸問題和確保數(shù)值魯棒性方面仍存在挑戰(zhàn),尤其是在大規(guī)模系統(tǒng)中。

接觸顯式優(yōu)化方法因其快速收斂和簡化公式而受到青睞,但面臨維度災(zāi)難問題,難以生成復(fù)雜的運動。接觸隱式優(yōu)化方法通過引入互補條件來避免對接觸模式序列的嚴(yán)格依賴,但其非光滑性帶來了嚴(yán)重的計算挑戰(zhàn)。

現(xiàn)有方法通常只能提供局部最優(yōu)解的保證,當(dāng)問題的結(jié)構(gòu)要求偏離局部候選接觸條件時,可能找不到可行解。需要結(jié)合搜索技術(shù)和傳統(tǒng)軌跡優(yōu)化方法來尋找全局最優(yōu)解。

計算效率和并行化是提高計算效率的關(guān)鍵,但在處理大規(guī)模系統(tǒng)時,優(yōu)化算法的計算復(fù)雜性仍然是一個挑戰(zhàn)。需要進(jìn)一步研究以提高優(yōu)化算法的效率和可擴(kuò)展性。

魯棒性和適應(yīng)性在處理復(fù)雜系統(tǒng)動態(tài)和不確定性時仍需改進(jìn)。需要開發(fā)新的方法來處理系統(tǒng)中的隨機性和不確定性。



數(shù)據(jù)稀缺性挑戰(zhàn)

機器人技能學(xué)習(xí)依賴于大量高質(zhì)量的數(shù)據(jù),特別是對于全身運動和操作任務(wù)。數(shù)據(jù)稀缺性是機器人技能學(xué)習(xí)中的一個主要瓶頸,限制了算法的泛化能力和適應(yīng)性。

數(shù)據(jù)規(guī)模與質(zhì)量的權(quán)衡是提高機器人技能學(xué)習(xí)效果的關(guān)鍵。過度追求數(shù)據(jù)規(guī)??赡軐?dǎo)致數(shù)據(jù)質(zhì)量下降,影響算法的學(xué)習(xí)效果。

人類數(shù)據(jù)的利用提供了豐富的運動和操作范例,但將其應(yīng)用于機器人時存在形態(tài)差異和周圍環(huán)境的差異。未來的研究需要開發(fā)更好的方法來縮小人類數(shù)據(jù)與機器人數(shù)據(jù)之間的差距。

多模態(tài)數(shù)據(jù)的整合是實現(xiàn)更廣泛和適應(yīng)性的機器人技能的關(guān)鍵。未來的研究應(yīng)關(guān)注整合多種傳感器數(shù)據(jù)(如力覺和視覺數(shù)據(jù)),以幫助機器人更好地理解和適應(yīng)復(fù)雜的環(huán)境和任務(wù)。

數(shù)據(jù)采集方法的創(chuàng)新包括從視頻和動畫中生成數(shù)據(jù)的方法,以擴(kuò)大數(shù)據(jù)集的多樣性和規(guī)模。這些方法需要解決數(shù)據(jù)質(zhì)量和真實性的問題,以確保其在機器人技能學(xué)習(xí)中的有效性。

基礎(chǔ)模型的機遇與挑戰(zhàn)


基礎(chǔ)模型通常是基于互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的,這些數(shù)據(jù)包含了大量的人類行為和知識。仿人機器人可以利用這些模型中嵌入的人類知識,從而更快地學(xué)習(xí)和適應(yīng)新任務(wù)。
  自然交互是基礎(chǔ)模型在自然語言處理和視覺理解方面的強大能力,使得仿人機器人能夠更好地理解和響應(yīng)人類指令。這為開發(fā)更自然和直觀的人機交互方式提供了可能。
  泛化能力通過在大規(guī)模數(shù)據(jù)上進(jìn)行訓(xùn)練,基礎(chǔ)模型具有強大的泛化能力,能夠處理多種任務(wù)和環(huán)境。這有助于仿人機器人在復(fù)雜和多變的環(huán)境中表現(xiàn)出色。
  控制和安全是仿人機器人由于其雙足平臺的固有不穩(wěn)定性,在控制和安全性方面面臨額外挑戰(zhàn)。基礎(chǔ)模型需要在不犧牲安全性的前提下,提供靈活和高效的決策支持。
  推理成本是運行大型基礎(chǔ)模型需要強大的計算資源,這對仿人機器人的實時性能提出了挑戰(zhàn)。需要開發(fā)高效的推理方法和硬件加速技術(shù),以支持基礎(chǔ)模型在機器人中的應(yīng)用。
  訓(xùn)練成本是基礎(chǔ)模型的訓(xùn)練成本高昂,消耗大量能源并產(chǎn)生二氧化碳排放。未來的研究需要探索更高效的訓(xùn)練方法和資源優(yōu)化策略。
  模型擴(kuò)展性是隨著基礎(chǔ)模型的規(guī)模不斷擴(kuò)大,如何有效地擴(kuò)展模型以適應(yīng)機器人應(yīng)用的需求是一個重要挑戰(zhàn)。需要開發(fā)新的模型架構(gòu)和算法,以支持更大規(guī)模和更高復(fù)雜度的機器人任務(wù)。

?


Copyright ? 2021 東莞市人工智能產(chǎn)業(yè)協(xié)會 互聯(lián)網(wǎng)ICP備案:粵ICP備2021014814號-1
地址: 廣東省東莞市虎門鎮(zhèn)大寧工業(yè)區(qū)寧江路15號

二維碼