kimodo: 一種用於可控 3D 人體與機器人動作生成的運動學擴散模型

kimodo: 一種用於可控 3D 人體與機器人動作生成的運動學擴散模型

它解決了什麼問題

Kimodo 解決了生成高品質、可控 3D 人體與機器人動作的困難。它允許使用者透過結合自然語言描述與精確的運動學約束，來建立複雜的動畫，彌補了高層次文本提示與低層次物理控制之間的差距。

運作原理

Kimodo 是一種運動學動作擴散模型，是在包含 700 小時光學動作捕捉的大型數據集上進行訓練的。它能根據文本提示和一組約束條件，為各種骨架（SOMA, G1, SMPL-X）生成 3D 動作。這些約束條件可以包括全身姿勢關鍵影格、末端執行器位置（手/腳）以及地面平面上的 2D 路徑或路徑點。

對象是誰

此工具是為機器人學、電腦動畫和物理 AI 領域的研究人員與開發者設計的，特別是那些需要生成合成動作數據以訓練基於物理的策略，或建立高保真 3D 動畫的人士。

重點亮點

多骨架支援：支援 SOMA, Unitree G1, 以及 SMPL-X 骨架。
互動式創作：包含一個帶有時間軸編輯器的網頁版 Demo，可用於混合文本提示與運動學控制。
機器人整合：與 MuJoCo 相容，可用於視覺化，並與 ProtoMotions 相容，可用於訓練基於物理的策略。
全面的基準測試：提供標準化的評估流程與測試套件，用以衡量動作品質與約束遵循度。
彈性的控制：支援多種約束條件，包括末端執行器控制與 2D 根部軌跡。

Sources

undefinednv-tlabs/kimodo