以下の論文を読んだので簡単にまとめます。

論文情報

タイトル：Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning
著者：Jianlan Luo, Charles Xu, Jeffrey Wu, Sergey Levine
所属：UC Berkeley, Department of Electrical Engineering and Computer Sciences (HIL-SERL)
公開日：2024/10/29（arXiv）(arXiv)
ジャーナル：Science Robotics, Vol.10, Issue 105 (2025) (DBLP)
システム名：HIL-SERL（Human-in-the-Loop Sample-Efficient Robotic Reinforcement Learning）
arXiv：2410.21845 (arXiv)
プロジェクトページ：hil-serl.github.io (HIL-SERL)

要点

論点：
「人間のデモ＋オンライン修正」をどう組み合わせれば、実機ロボットで複雑な器用操作を短時間のRL学習で獲得できるか。

この論文では、実世界の視覚ベース強化学習システム HIL-SERL を構築し、

RAM/SSD挿入、USBケーブル把持・配線、IKEA棚組み立て、車ダッシュボード組み立て、タイミングベルト装着、Jengaウィップ、フライパンでのオブジェクト反転など
11種類の複雑な操作タスク（片腕＋両腕、静的＋動的、剛体＋柔軟物）を対象に
1〜2.5時間程度の実機学習で、ほぼすべてのタスクで成功率100%
同じ人間データ量の模倣学習（HG-DAgger/BC）に対して、
- 成功率：平均で +101% 向上（49.7% → 100%）
- サイクルタイム：平均 1.8倍高速化（9.6s → 5.4s）

という結果を示している。

サブ論点としては：

オフポリシーRL（RLPD）に
- 少数の人間デモ（20〜30軌道）
- 学習中の人間による介入（修正行動）
  を組み合わせることで、サンプル効率と性能を両立できることを実証。
報酬はタスクごとに学習した画像ベース二値分類器のみ（スパース報酬）でも十分機能することを確認。
低レベル制御（インピーダンス制御＋フィードフォワードレンチ）、エゴセントリック表現、事前学習済み視覚特徴など、システム側の設計選択が安定学習に非常に効いていることを詳細に分析している。

背景

実機ロボットでのRLは、以下の観点から「難しい」「時間がかかる」とされてきた。
- サンプル効率
- 報酬設計
- 安全性
既存のアプローチ
- オフポリシーRL、モデルベースRL、オンポリシーRLなど、実機RLシステムは既に存在するが、多くは「単純なタスク」「短いホライズン」に限定されており、訓練時間も長い。
- SERLなど、デモを使う実機RLシステムもあるが、オンラインの人間修正は使わないため、より複雑なタスク・両腕協調・ダイナミックマニピュレーションには踏み込めていなかった。
- Diffusion Policy / Residual RL / IBRL / DAPG など、デモ活用型のRL/ILも提案されているが、多くは「デモ品質への依存」が強く、人間を超える性能を安定して出すのが難しい。
一方で、模倣学習＋人間の修正（DAgger/HG-DAgger）はエラー蓄積問題を緩和できるが、
- 報酬に基づく最適化を行わないため、人間より速く・上手くなる仕組みがないという限界がある。

この論文は、「DAgger的な人間介入」を強化学習側に取り込むことで、

同じ人間工数でも模倣学習より高性能
実機でも現実的な時間で学習可能
であることを示すのが狙いになっている。

手法

システムの全体像（HIL-SERL）

HIL-SERLは、以下の3要素からなる分散システムとして設計されている。

Actorプロセス
- ロボット上でポリシーを実行し、環境と相互作用
- 必要に応じて人間がSpaceMouseでテレオペ介入
- 収集したデータをリプレイバッファに送信
Learnerプロセス
- オフポリシーRLアルゴリズム（RLPD）でQ関数とポリシーを更新
- デモ用バッファとRLバッファから等確率でサンプリングして学習
- 定期的に最新パラメータをActor側に配信
リプレイバッファ
- Demo Buffer：事前に収集した人間デモ＋介入データ（20〜30軌道程度）
- RL Buffer：ロボットが自律実行したデータ＋介入前後の状態遷移

この構成で、「少量デモで初期性能を確保しつつ、オンラインRLで人間を超える性能まで伸ばす」流れを実現している。

強化学習アルゴリズム：RLPDベースのオフポリシーRL

基盤となるアルゴリズムは、RLPD（Reinforcement Learning with Prior Data）という「過去データとオンラインデータを混ぜて学習するオフポリシーRL」。

状態：画像＋プロプリオ（エンドエフェクタ姿勢・速度・力トルクなど）
行動：
- 連続：エンドエフェクタの6次元ツイスト or フィードフォワードレンチ
- 離散：グリッパの開閉（1 or 2グリッパ）
報酬：タスク成功/失敗のみを返す二値報酬（後述）

RLPDは、以下を同時に学習する：

状態価値を表すQ関数（ターゲットネットワーク付き）
エントロピー正則化付きのポリシー（ソフトアクタクリティック系の枠組み）

学習バッチは「デモデータ：RLデータ＝1:1」でサンプリングされ、
初期はデモ寄り、進むにつれてRLデータ主体で学習が進む、という挙動になる。

視覚表現と状態表現

事前学習済み視覚Backbone

複数カメラ画像（手首カメラ＋サイドカメラ）を、**ResNet-10（ImageNet事前学習）**で埋め込みに変換。
すべての画像を同じBackboneで処理し、その埋め込みを結合。
これにプロプリオ情報を連結し、ポリシーやQ関数に入力する。

事前学習モデルを使うことで、

最適化の安定化
サンプル効率の向上

が実機RLでも得られることを確認している。

エゴセントリックな状態表現

各エピソードの開始時に、エンドエフェクタ初期姿勢を基準座標として固定。
ロボット状態（姿勢・速度）をこの基準座標系で表現し、アクションもエンドエフェクタ座標系で与える。

これにより、

ターゲット側が動いても「相対的には同じ問題」として扱え、
RAM挿入などで「マザーボードが途中で動いても追従できる」ロバストな挙動が実現されている。

報酬関数：画像ベース二値分類器

タスクごとに、以下の手順で報酬を定義する。

テレオペでタスクを実行し、成功画像と失敗画像を収集
- 目安：成功200枚、失敗1000枚程度
ResNet-10ベースの2値分類器を学習（成功/非成功）
- 評価精度は概ね95%以上
RL学習時は、この分類器が「成功」と判定したときのみ報酬1、それ以外は0

結果として、

タスク固有の連続報酬設計（距離・向き・ペナルティ等）が不要
画像だけで「ゴール状態かどうか」を判定できる

というシンプルな枠組みで、多数のタスクを一貫して扱えている。

ローレベル制御とアクション設計

接触を伴う精密タスク：インピーダンス制御＋参照制限により、安全かつしなやかな接触挙動を実現。
動的タスク（Jengaウィップ、オブジェクト反転）：
- エンドエフェクタ座標系のフィードフォワードレンチを直接指令し、高加速度な動きも表現。

グリッパ制御は、連続行動から切り離して別のDQNベースのクリティックで学習：

グリッパ離散アクション：
- 単腕：Open / Close / Stay
- 両腕：両方のOpen/Close/Stayの組合せ
連続アクション（ツイスト or レンチ）＋離散アクション（グリッパ）を結合して実行。

これにより、連続制御の安定性を保ちつつ、グリッパの「離散決定」を明示的に最適化している。

Human-in-the-loop：デモとオンライン介入

人間の関与は2段階で行われる。

事前デモ収集
- 各タスクごとに20〜30軌道程度の成功デモをテレオペで収集
- Demo Bufferを初期化し、RLのウォームスタートに使用
学習中のオンライン介入
- RLポリシーを実機で走らせ、人間がSpaceMouseで必要に応じて介入
- 1エピソード中に複数回介入してもよい
- 介入中の行動列は「デモ」としてDemo Bufferにも保存
- 介入前後の遷移はRL Bufferに保存し、ポリシーの改善に活用

介入ポリシー：

学習初期：頻繁かつ長めの介入で、致命的な失敗を避けつつ探索をガイド
学習後期：短く局所的な修正に留め、できるだけ自律実行させる

この仕組みにより、

デモだけではカバーしきれない状態空間へも安全に探索
人間の修正がそのまま「価値の高い遷移」としてRLに取り込まれ、
結果的に人間を超える性能へ到達

というループを実現している。

トレーニングプロセス（1タスクあたり）

カメラ配置・クロッピング設定（手首カメラ＋必要ならサイドカメラ）。
報酬分類器用のデータ収集（数分〜十数分）。
20〜30軌道のデモを収集してDemo Bufferを初期化。
RL学習を開始し、人間が必要に応じて介入。
1〜2.5時間程度の実時間で収束させ、成功率100%を目指す。

実験

タスク概要

合計11タスク（＋複合タスク）が設定されている。

マザーボード組み立て（片腕）
- RAMカード挿入
- SSD挿入
- USBコネクタ把持＋挿入
- USBケーブルをクリップに固定
- 4タスクを順にチェインした「フル組み立て」
IKEA棚組み立て（片腕または両腕）
- サイドパネル組み立て（2種）
- トップパネル組み立て
- 3タスクをチェインした「棚フル組み立て」
車ダッシュボード組み立て（両腕協調）
物体ハンドオーバー（両腕協調）
タイミングベルト装着（両腕＋柔軟物）
- NISTベンチマークの一部タスク。
Jengaウィップ（片腕＋柔軟ツール＋動的タスク）
オブジェクト反転（フライパン上での反転）

これらは、

高精度挿入
両腕協調
柔軟物操作
高速・動的操作

を幅広くカバーするよう選定されている。

HG-DAgger/BC との比較

表1(a)の要約（各タスク100試行、IKEAフルは10試行）：

成功率（平均）：
- BC（HG-DAggerベースライン）：49.7%
- HIL-SERL：100%
サイクルタイム（平均）：
- BC：9.6秒
- HIL-SERL：5.4秒（平均1.8倍高速）

タスク別に見ると：

RAM挿入
- 成功率：29% → 100%
- サイクルタイム：8.3s → 4.8s（1.7倍高速）
SSD挿入
- 成功率：79% → 100%
- サイクルタイム：6.7s → 3.3s（2倍高速）
USB把持＋挿入
- 成功率：26% → 100%
- サイクルタイム：13.4s → 6.7s（2倍高速）
IKEAトップパネル挿入
- 成功率：35% → 100%
- サイクルタイム：8.9s → 2.4s（3.7倍高速）
IKEAフル組み立て（3サブタスク連結）
- BC：1/10成功
- HIL-SERL：10/10成功
タイミングベルト装着
- 成功率：2% → 100%
- サイクルタイム：9.1s → 7.2s
Jengaウィップ
- 成功率：8% → 100%

多くのタスクで、「BCではほぼできない」レベルのものを、HIL-SERLは100%成功まで引き上げている。

他手法（Diffusion Policy / Residual RL / IBRL / DAPG）との比較

代表タスク3つ（RAM挿入、ダッシュボード組み立て、オブジェクト反転）で比較：

Diffusion Policy（200デモ）
- RAM挿入：27%
- ダッシュボード：28%
- 反転：56%
Residual RL / IBRL / DAPG（いずれも200デモ）
- RAM挿入：最大でも75%（IBRL）、他はさらに低い
- ダッシュボード：多くの手法が0%
- 反転：95〜97%に届く手法もあるが、HIL-SERLも100%
HIL-SERL（オフラインデモは約20〜30軌道＋オンライン介入）
- 3タスクすべてで100%成功

特に、

デモ数を10倍（20→200）に増やしても、デモ依存が強い手法はHIL-SERLに届かない
「デモのみ」「オフラインのみ」のRLはどのタスクでも0%成功に近い

というアブレーションから、

少数デモ＋オンライン介入＋オフポリシーRL
の3点セットが重要

であると結論づけている。

ロバスト性評価

定量評価とは別に、外乱を加えたロバスト性テストも行っている：

RAM挿入
- 挿入中に人間がマザーボードを動かす
- ポリシーは動きを追従し、挿入を完了
ダッシュボード組み立て・ハンドオーバー
- 掴んだ後に人間がグリッパをこじ開ける
- ポリシーは自発的に再把持してタスク続行
タイミングベルト
- ベルト形状を外乱で変形させる
- ポリシーは形状変化に合わせて軌道を適応
USB把持＋挿入
- 初期ポーズが悪い場合に自発的に「掴み直し」を行ってから挿入

これらの挙動は、

スクリプトでハードコードしているわけではなく、
RL学習中の自律探索の結果として獲得されたもの

であり、模倣学習のみでは得にくいロバストな振る舞いだと主張している。

まとめと考察

この論文のポイントを整理すると：

実機・視覚ベース・複雑タスクでもRLは十分実用的になり得る
- 1〜2.5時間の訓練で11タスク中ほぼ全てで成功率100%
- 挿入・柔軟物・両腕協調・動的タスクまでカバー
同じ人間工数なら、模倣学習よりHuman-in-the-loop RLの方が有利
- HG-DAgger／BCと同等のデモ＋介入量でも、成功率・速度ともに大幅上回る
- 人間デモのサブ最適性をRLが補正し、「人間より速い」動作に到達している
デモ＋オンライン介入＋オフポリシーRLの組み合わせが本質的
- デモだけ増やしても性能は頭打ち
- オンライン介入を入れないと、難しいタスクは学習が破綻
- RLPDのような「過去データを適応的に再利用する」オフポリシーRLが重要
システムレベルの工夫が決定的
- 事前学習視覚Backbone
- エゴセントリック状態表現
- インピーダンス制御＋フィードフォワードレンチ
- グリッパを別クリティックで扱う設計
  などが全体として効いており、「アルゴリズムだけ」ではなくシステム全体の設計が鍵になっている。

一方で、課題・前提条件として：

報酬分類器の構築
- タスクごとに画像データ収集と教師付けが必要（数分〜十数分レベルとはいえ人手は要る）。
- ラベルノイズやドメインシフトに対する耐性は今後の検討余地。
人間介入の質と負荷
- 介入のタイミング・内容が学習効率に大きく影響する。
- 熟練オペレータを前提としているため、より自動化された「介入ポリシー」の設計が今後の論点になりそう。
汎化範囲
- 今回は「タスクごとに学習」しており、タスク間のゼロショット汎化や大規模な物体バリエーションへの対応は範囲外。
- 工場レベルの多品種少量生産や、未知環境での一般化には、さらなる抽象表現やメタ学習が必要。
安全性の形式的保証はない
- インピーダンス制御などで実務上の安全性は高めているが、
  形式的な安全保証・制約付きRLの観点は扱っていない。

一言メモ

「人間の介入を“教師”としてではなく、RLのサンプルとして取り込む」という設計が明確で、DAggerとの対比が分かりやすい。
少数デモ＋スパースな人間介入＋スパース報酬でも、適切なシステム設計があれば実機でここまで行ける、という実証としてかなり強い。
柔軟物やウィップ動作のような“直感物理”が必要なタスクまで同じ枠組みで扱えている点が興味深い。
研究としての次の論点は、
- 介入タイミング・内容の自動化（人間へのクエリ戦略）
- 報酬分類器を「より汎用的な視覚・言語モデル」に置き換える方向
- タスク間汎化（マルチタスク・メタRL・基盤モデルとの統合）
  あたりになりそう。

🐜の自習室

Explorer

Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning

要点

背景

手法