The Art of Scaling Reinforcement Learning Compute for LLMs
Devvrit Khatri, Lovish Madaan, Rishabh Tiwari, Rachit Bansal, Sai Surya Duvvuri, Manzil Zaheer, Inderjit S. Dhillon, David Brandfonbrener, Rishabh Agarwal
選定理由
LLMの強化学習における計算のスケーリング則を初研究。大規模学習の実務に直接貢献する重要な知見だ。
かんたん要約 (SNS向け)
大規模言語モデル(LLM)の強化学習計算のスケーリング方法が不明だったため、大規模な研究でその分析と予測のための枠組みを初めて提示しました。
詳細要約
背景: 大規模言語モデル(LLM)訓練における強化学習(RL)は不可欠ですが、RL計算のスケーリングに関する予測手法や、アルゴリズム改善の評価基準が確立されていません。計算予算が急増する中で、この理解の不足が課題となっています。
手法: 本研究は、40万GPU時間以上を費やした初の系統的調査です。LLMにおけるRL計算のスケーリングを分析・予測するための原理に基づいたフレームワークを提案します。このフレームワークは、計算リソースの増加がRLの性能にどのように影響するかを定量的に評価することを目的としています。
結果: この研究により、RL計算のスケーリングにおける課題を特定し、将来のLLM訓練における効率的なリソース配分とアルゴリズム開発のための道筋が示されました。
InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy
Xinyi Chen, Yilun Chen, Yanwei Fu, Ning Gao, Jiaya Jia, Weiyang Jin, Hao Li, Yao Mu, Jiangmiao Pang, Yu Qiao, Yang Tian, Bin Wang, Bolun Wang, Fangjing Wang, Hanqing Wang, Tai Wang, Ziqin Wang, Xueyuan Wei, Chao Wu, Shuai Yang, Jinhui Ye, Junqiu Yu, Jia Zeng, Jingjing Zhang, Jinyu Zhang, Shi Zhang, Feng Zheng, Bowen Zhou, Yangkun Zhu
選定理由
視覚・言語・行動を統合した汎用ロボットフレームワークを提案。空間的接地により指示追従性能を向上。
かんたん要約 (SNS向け)
ロボットが指示通りに動くための新しいAI「InternVLA-M1」を開発。空間を理解し、指示と行動を結びつけることで、汎用性の高いロボット実現を目指します。
詳細要約
背景: 指示に従うロボットの汎用性を高めるには、空間を理解し、言語指示とロボットの行動を正確に結びつける技術が不可欠です。しかし、既存のシステムではこの統合が課題でした。
手法: InternVLA-M1は、空間認識とロボット制御を統合したフレームワークです。核となるのは「空間ガイド型視覚-言語-行動訓練」で、空間接地が指示と行動の間の重要なリンクとなります。2段階のパイプラインを採用し、第一段階では230万件以上の空間推論データを用いて「どこで行動すべきか」を決定するための空間接地を事前学習します。これにより、言語指示を具体的な空間上の位置にマッピングします。
結果: このアプローチにより、ロボットは複雑な指示に対してより正確かつ汎用的に反応できるようになり、スケーラブルな汎用ロボット政策の実現に向けた重要な一歩となります。
PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning
Sihui Ji, Xi Chen, Xin Tao, Pengfei Wan, Hengshuang Zhao
選定理由
物理法則に従うリアルな動画生成を目指す研究。強化学習を用いて物理的知識を表現し、モデルを誘導する。
かんたん要約 (SNS向け)
物理法則を守らない動画生成の課題を解決するため、強化学習で物理知識を学び、よりリアルで自然な動画を作れるAI「PhysMaster」を開発しました。
詳細要約
背景: 現在の動画生成モデルは視覚的にリアルな動画を生成できますが、物理法則に準拠しないことが多く、「世界モデル」としての利用を妨げています。物理的に妥当な動画生成能力の向上が求められています。
手法: 本研究では、物理知識を表現として捉え、動画生成モデルの物理認識を高めるためのフレームワーク「PhysMaster」を提案します。具体的には、強化学習を用いて物理的表現を習得させ、これをガイドとして動画生成を行います。PhysMasterは画像から動画を生成するタスクをベースとし、モデルが物理的な動きや相互作用を予測するように設計されています。
結果: PhysMasterは、視覚的リアリティだけでなく、物理的妥当性も兼ね備えた動画生成を実現し、これにより、より信頼性の高い「世界モデル」構築への道を開くことが期待されます。