GWM-Roboticsでロボット評価が変わる!相関係数0.95は驚異的。
ロボット政策評価を加速する世界モデルの活用
原題: Runway Research | Accelerating Robot Policy Evaluation with General World Models
重要度の根拠: 新しいロボットポリシー評価手法の導入が多くの開発者に影響を与える。
要約
Runwayが開発したGWM-Roboticsを使用して、物理ハードウェアなしでロボットのマニピュレーションポリシーを評価することが可能になりました。シミュレーションと現実世界の結果を比較したところ、相関係数は0.95に達し、GWM-Roboticsがロボットポリシーの評価において信頼できる代理となることが示されました。これにより、従来のハードウェア評価に代わる実用的な手段が提供され、ロボティクスチームの政策評価プロセスが根本的に変わる可能性があります。
要点
- GWM-Roboticsでハードウェア不要の評価が可能
- シミュレーションと現実の結果が高相関
- リアルタイムで30秒のロールアウト生成
- ポリシー評価のプロセスを変革する可能性
- 従来手法よりも優れた性能を示す
開発者向け技術解説(API・実装詳細・破壊的変更)を見る
GWM-Roboticsは、物理ハードウェアを用いずにロボットのポリシー評価を可能にする世界モデルです。8つのロボットマニピュレーションポリシーをシミュレーションし、現実の結果と比較したところ、相関係数は0.95に達しました。このモデルは、従来のリアルからシミュレーションへのアプローチよりも優れており、最長30秒のリアルタイムロールアウトを生成できます。人間の評価者による評価により、GWM-Roboticsはポリシーのランク付けにおいても信頼性を示しました。
本文の日本語訳(全文)を見る
Runwayは、ロボティクスの一般世界モデル(GWM-Robotics)を用いて、8つのロボットマニピュレーションポリシーをシミュレーションし、現実世界の実績と比較しました。その初期結果は、世界モデルシミュレーションがハードウェア評価の実用的な代替手段であることを示しており、従来のリアルからシミュレーションへのアプローチと比較して好ましい結果を示しています。
現在のロボットポリシーのテストには物理ハードウェアへのデプロイが必要であり、このプロセスは遅く、高価でスケールが難しいものです。従来のシミュレーターは代替手段を提供しますが、現実世界への転送に失敗することが多く、変形可能な物体や柔らかい材料、標準的な物理仮定に反する非剛体ダイナミクスなど、実際の環境の視覚的および物理的な複雑さを捉えるのが難しいです。信頼性のある現実世界の結果を予測する世界モデルは、ロボティクスチームがポリシーを評価し反復する方法を根本的に変える可能性があります。
12月に発表したGWM-Roboticsは、物理ハードウェアなしで世界モデル内でポリシー評価を可能にします。ここではそれをテストしました。GWM-Robotics内で8つのロボットマニピュレーションポリシーをシミュレーションし、現実世界の実績と比較しました。8つのポリシー全体で、シミュレーションと現実世界のスコアは0.95で相関し、私たちの世界モデルがハードウェアデプロイメントにコミットする前にロボットポリシーを評価するための信頼できる代理として機能することを示しています。
私たちの初期結果は、世界モデルシミュレーションがハードウェア評価の実用的な代替手段であることを示しており、従来のリアルからシミュレーションへのアプローチと比較して好ましい結果を示しています。GWM-Roboticsは、特定の現実世界のシーンを3Dガウススプラッティングを使用して再構築する最近のリアルからシミュレーションへのフレームワークであるPolaRiSを上回ります。PolaRiSとは異なり、GWM-Roboticsは開始画像のみを入力として必要とします。さらに、GWM-Roboticsは、Veo Roboticsのような比較可能な世界モデルが8秒のロールアウトに制限されているのに対し、最大30秒のリアルタイムの長いロールアウトを生成できます。
私たちは、NVIDIAやBerkshire Greyなどのパートナーと協力してGWM-Roboticsを構築しており、物理AI用の世界モデルを拡張しています。この研究のために、RoboArenaベンチマークからのマニピュレーションタスクを取り上げ、8つの視覚-言語-アクションポリシーを網羅し、すべてのロールアウトはFranka Emika Pandaアームを使用しました。私たちは、最先端のGen-4.5ビデオ生成モデルのバリアントであるGWM-Roboticsモデルを使用して、同じ初期条件から各ポリシーをシミュレーションし、各ポリシーが世界モデルによって生成された観察に応じて独自のアクションを生成しました。その後、人間の評価者に対して、1,450のシミュレートされたロールアウト全体で各タスク指示に対するロボットの進捗を評価するよう依頼しました。すべてはRoboArenaデータセット内の以前のタスク評価から生成されました。合計で、16,000以上の個別評価を収集し、各ロールアウトは約10人の独立した評価者によって評価されました。各ポリシーがシミュレーションされたロールアウトと現実のロールアウト間で進捗の比較を行うことで、シミュレーションされた結果が現実世界の相対的な性能をどの程度反映しているかを測定しました。
GWM-Roboticsは、信頼性のあるポリシーランク付けを可能にするシミュレーションされたロールアウトを生成します。PolaRiSに続いて、私たちはピアソン相関係数を使用して、現実世界とシミュレーションされた進捗スコア間の一致を定量化し、平均最大ランク違反(MMRV)を使用して両者間のランクの一貫性を測定します。シミュレーションされたロールアウト全体で人間の評価者の進捗スコアを集計すると、得られたポリシーランキングは現実世界のランキングと一致し、ピアソン相関は0.95、平均最大ランク違反(MMRV)は0.033となり、ポリシー間の最悪のランク誤差は微小であることを意味します。PolaRiSでも評価されたRoboArenaポリシーアーキテクチャのサブセットに制限すると、GWM-Roboticsはピアソン相関0.986、MMRVゼロを提供し、PolaRiSの相関0.98を上回り、完璧なランク順序を一致させます。人間の評価者は、最も良い性能を示したポリシー(pi05_droid)を正しく特定しました。
出典: https://runwayml.com/research/accelerating-robot-policy-evaluation
媒体: Runway
※本記事は Anthropic / OpenAI / Google / Meta / Mistral / DeepSeek / Sakana 等各社の公開情報を基に AI (OpenAI GPT-4o-mini) が日本語で要約・分類した二次的著作物です。著作権法第32条の引用要件に基づき出典 URL を必ず併記しています。要約は AI 生成のため誤訳・誤解釈を含む可能性があります。詳細・正確な情報は必ず出典元の原文をご確認ください。