2025-09-12 の注目論文

AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning

Zhiheng Xi, Jixuan Huang, Chenyang Liao, Baodai Huang, Honglin Guo, Jiaqi Liu, Rui Zheng, Junjie Ye, Jiazheng Zhang, Wenxiang Chen, Wei He, Yiwen Ding, Guanyu Li, Zehui Chen, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Tao Gui, Zuxuan Wu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang

選定理由

LLMを活用した強化学習エージェント訓練フレームワークAgentGym-RLを提案。教師ありfine-tuningなしで多様な環境に対応可能。

かんたん要約 (SNS向け)

AIが自ら考え、複雑な問題を解決する能力を飛躍的に向上させる新技術「AgentGym-RL」が登場!まるで人間のように経験から学び、様々な現実世界の課題に挑みます。既存技術を凌駕する性能を実証済み!オープンソース化でAI進化を加速!

詳細要約

本論文は、教師あり微調整(SFT)を用いずに、複雑な現実世界タスクを解決する一連の知的な意思決定を行う自律型LLMエージェントを開発するための、統合的なインタラクティブ強化学習(RL)フレームワークAgentGym-RLを提案している。現状、このようなエージェントを多様な現実環境でゼロから訓練する統一的なフレームワークが不足しているという背景がある。 AgentGym-RLは、モジュール化された分離アーキテクチャを採用し、柔軟性と拡張性を確保している。多様な現実世界シナリオに対応し、主流のRLアルゴリズムをサポートする点が特徴である。さらに、探索と活用をバランス良く行い、RL最適化の安定性を高めるための訓練手法ScalingInter-RLを提案している。ScalingInter-RLは、初期段階では相互作用数を制限することで活用を重視し、徐々に探索範囲を広げることで多様な問題解決戦略を促進する。これにより、エージェントはより多様な行動を獲得し、長期的な視野下での崩壊を防ぐ。 27種類もの多様な環境におけるタスクを用いた広範な実験により、AgentGym-RLフレームワークとScalingInter-RL手法の安定性と有効性を検証した結果、開発したエージェントは商業モデルと同等以上の性能を示した。本研究は、コードとデータセットを含むAgentGym-RLフレームワークをオープンソース化することで、次世代の知能エージェント開発における研究コミュニティへの貢献を目指している。 AgentGym-RLは、SFTに依存しないLLMエージェントの訓練を可能にし、現実世界への応用を加速させる重要な一歩となる。

Calibrating MLLM-as-a-judge via Multimodal Bayesian Prompt Ensembles

Eric Slyman, Mehrab Tanjim, Kushal Kafle, Stefan Lee

選定理由

マルチモーダルLLMの評価バイアスを軽減するMultimodal Mixture-of-Bayesian Prompt Ensembles (MMB)を提案。画像分類に基づきプロンプトの重みを動的に調整。

かんたん要約 (SNS向け)

AIが描いた絵を自動で評価する最新技術が登場!従来の方法は偏りや不安定さが課題でしたが、画像の特徴を理解する新手法で、より正確で信頼性の高い評価を実現。人間に近い判断で、AIアートの進化を加速させます!

詳細要約

本論文は、テキストから画像を生成するシステム(TTI)の評価におけるマルチモーダル大規模言語モデル(MLLM)の限界と、その改善策として提案されたMultimodal Mixture-of-Bayesian Prompt Ensembles (MMB)について述べている。 背景として、MLLMを用いたTTIシステムの自動評価は普及しつつあるものの、既存のMLLMはドメイン依存性のバイアス、過剰な自信、評価の一貫性の欠如といった問題を抱えている。従来の単一モーダル(テキストのみ)に対するプロンプトアンサンブル手法はこれらの問題の軽減に有効性が示されているが、TTIタスクへの適用は困難である。 手法として、本研究では画像クラスタリングを統合したベイズ的プロンプトアンサンブル手法であるMMBを提案する。MMBは、複数のプロンプトを用いて生成されたMLLMの評価結果をベイズ推定を用いて統合する。重要な点は、画像の視覚的特徴に基づいて、各画像サンプルに対してプロンプトの重みを動的に調整する点にある。この動的な重み付けは、画像クラスタリングによって実現される。 結果として、2つのTTIベンチマーク(HPSv2とMJBench)を用いた評価において、MMBは既存手法を上回り、人間による評価との整合性が高く、キャリブレーション(モデルの予測信頼度と実際の精度の一致度)が大幅に向上した。これは、MLLMの出力における不確実性をより正確に把握できることを意味する。MMBは、ペアワイズ選好判断の精度を向上させ、多様な画像コンテンツにおいても高い信頼性を示した。 結論として、本研究は、MLLMを用いた信頼性の高い大規模TTI評価のためには、マルチモーダルな特性を考慮した戦略が不可欠であることを示し、MMBがそのための有望なアプローチであることを実証した。特に、画像クラスタリングによる動的なプロンプト重み付けが、キャリブレーションの向上に大きく貢献している点が重要な成果である。

Learning Turbulent Flows with Generative Models: Super-resolution, Forecasting, and Sparse Flow Reconstruction

Vivek Oommen, Siavash Khodakarami, Aniruddha Bora, Zhicheng Wang, George Em Karniadakis

選定理由

乱流の超解像、予測、スパース再構成に生成モデルと演算子学習を組み合わせたadv-NOを提案。従来手法の限界を克服し、計算コスト削減と高精度を実現。

かんたん要約 (SNS向け)

AIが乱流予測を劇的に進化!従来手法の限界を、生成モデルと組み合わせることで克服。高精度な超解像、予測、データ復元を実現し、計算コストを大幅削減。リアルタイム解析・制御へ道を開く画期的成果!

詳細要約

本論文は、標準的なL2損失で学習されたニューラルオペレータが微細スケールの乱流構造を過剰平滑化してしまう問題に対し、生成モデルとの組み合わせによる解決策を提案している。従来のニューラルオペレータが失敗する3つの乱流課題、すなわち時空間超解像、予測、疎な流れの再構成を対象に、生成モデルと組み合わせた手法の有効性を検証した。 手法としては、敵対的学習を用いたニューラルオペレータ(adv-NO)と条件付き生成モデルをそれぞれ用いている。adv-NOは、高解像度データと低解像度データを生成器と識別器で競わせることで、微細構造の再現性を向上させる。一方、疎な流れの再構成には、条件付き生成モデルを用いて、疎な粒子追跡流速測定(PTV)のような入力から完全な3次元速度場と圧力場を推定する。 結果として、シュリーレンジェットの超解像において、adv-NOはエネルギー・スペクトル誤差を15倍削減し、鋭い勾配を維持しつつ、ニューラルオペレータ並みの推論コストを実現した。3次元等方性乱流の予測では、160タイムステップの単一軌跡データのみを用いて、5渦回転時間まで正確に予測し、ベースラインとなる拡散ベースの予測器と比較して114倍の高速化を実現、ほぼリアルタイムの展開を可能にした。さらに、円柱後流の疎なデータからの再構成においては、条件付き生成モデルが正しい位相整合と統計量を持つ完全な3次元速度場と圧力場を推定した。 これらの成果は、低計算コストでの正確な再構成と予測を可能にし、実験流体力学と計算流体力学におけるほぼリアルタイムの解析と制御の実現に大きく貢献する。 特に、adv-NOによる高速化は、高解像度シミュレーションや実験データのリアルタイム処理を可能にする点で大きなインパクトを持つと言える。