Featured Papers for 2025-09-25

Reinforcement Learning on Pre-Training Data

Siheng Li, Kejiao Li, Zenan Xu, Guanhua Huang, Evander Yang, Kun Li, Haoyuan Wu, Jiajia Wu, Zihao Zheng, Chenchen Zhang, Kun Shi, Kyrierl Deng, Qi Yi, Ruibin Xiong, Tingqiang Xu, Yuhao Jiang, Jianfeng Yan, Yuyuan Zeng, Guanghui Xu, Jinbao Xue, Zhijiang Xu, Zheng Fang, Shuai Li, Qibin Liu, Xiaoxue Li, Zhuoyu Li, Yangyu Tao, Fei Gao, Cheng Jiang, Bo Chao Wang, Kai Liu, Jianchen Zhu, Wai Lam, Wayyt Wang, Bo Zhou, Di Wang

Reason for Selection

LLMのスケーリング問題に対し、事前学習データで強化学習を行うRLPTを提案。計算量の増加に対し有効。

Simple Summary (for Social Media)

巨大言語モデルの進化を阻むデータ不足を解決! 新たな学習法「RLPT」で、既存データから賢く学習し、驚きの精度向上を実現。少ないデータで、論理的思考力と問題解決能力を飛躍的に高めます! 様々なベンチマークで大幅なスコアアップを確認済み!

Detailed Summary

本論文は、大規模言語モデル(LLM)の訓練における計算資源の指数関数的増加と高品質テキストデータの有限な増加速度との乖離問題に対処するため、新たな訓練時スケーリングパラダイムである「Reinforcement Learning on Pre-Training data (RLPT)」を提案している。従来の教師あり学習によるスケーリングとは異なり、RLPTは強化学習(RL)を用いて、事前学習データから意味のある軌跡を自律的に探索し、モデルの能力を向上させる。 RLHFやRLVRなどの既存のRL手法は報酬設計に人手によるアノテーションを必要とするが、RLPTは事前学習データから直接報酬信号を導出することで、この依存性を排除している。具体的には、先行するコンテキストを条件とした後続テキストセグメントの正確な予測を報酬とする「次セグメント推論」目的関数を採用する。この定式化により、RLを事前学習データ上でスケール可能にし、より幅広いコンテキストにわたる豊富な軌跡の探索を促進し、汎化能力の高い推論能力を育成する。 複数のモデルを用いた一般ドメインと数学的推論ベンチマークにおける広範な実験により、RLPTの有効性が検証された。例えば、Qwen3-4B-Baseに適用した場合、MMLU、MMLU-Pro、GPQA-Diamond、KOR-Bench、AIME24、AIME25においてそれぞれ3.0、5.1、8.1、6.0、6.6、5.3の絶対的な性能向上を示した。さらに、良好なスケーリング挙動が示され、より多くの計算資源を用いることで更なる性能向上への可能性が示唆されている。加えて、RLPTはLLMの推論能力の限界を拡張し、RLVRの性能向上にも貢献する堅固な基盤を提供する。

Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions

Ioanna Ntinou, Alexandros Xenos, Yassine Ouali, Adrian Bulat, Georgios Tzimiropoulos

Reason for Selection

画像エンコーダを使わずテキストだけで画像検索を実現する手法を提案。LLMのテキスト記述能力を活用。

Simple Summary (for Social Media)

画像検索はもう古い!文章だけで高精度な画像検索を実現する新技術が登場!従来の複雑な手法とは異なり、文章で画像を記述するだけでOK。少ない計算量とデータで、高性能な検索を可能にしました。プライバシーも守れて、画期的!

Detailed Summary

本論文は、Contrastively-trained Vision-Language Model (VLM) の限界を克服する新たなテキスト-テキスト画像検索手法を提案している。CLIP等の既存VLMは、双方向エンコーダ構造と大規模ウェブデータ依存により、語彙レベルの浅い言語理解、モダリティギャップ、計算コスト・プライバシー問題を抱えている。 本研究では、画像検索においてビジョンエンコーダを不要とするシングルエンコーダ型検索パイプラインを提案する。従来のテキスト-画像検索ではなく、VLLMを用いて生成した構造化された画像記述を用いたテキスト-テキスト検索へパラダイムシフトを行う。これにより、モダリティギャップの縮小、構成性の向上、短長問わずキャプションクエリに対する性能向上を実現した。わずか数時間のGPU2台によるキャリブレーションで達成できる点が特筆される。また、画像データをテキスト記述に置き換えることで、プライバシー保護にも貢献する。 さらに、既存の構成性ベンチマークの欠点を補うため、Flickr30kとCOCOに基づく、多様な構成クエリを含む新たなベンチマーク(subFlickr, subCOCO)を作成した。提案手法は、0.3Bパラメータ程度の小型モデルにおいても、従来のマルチモーダルモデルと同等以上、多くのベンチマークで最先端のゼロショット性能を達成した。これは、ビジョンエンコーダを排除することで、計算コストを大幅に削減しつつ、言語理解の深化と検索性能の向上を実現したことを示している。本研究は、プライバシーに配慮した効率的な画像検索システム構築への新たな道を提示する。

Video Killed the Energy Budget: Characterizing the Latency and Power Regimes of Open Text-to-Video Models

Julien Delavande, Regis Pierrard, Sasha Luccioni

Reason for Selection

話題のText-to-Video生成の計算コストとエネルギー消費を分析。持続可能性を向上させる設計に貢献。

Simple Summary (for Social Media)

想像を超える高画質動画が、テキストだけで簡単に作れる時代!でも、その裏には莫大な電力消費が… 本研究では、動画生成AIの電力使用量を徹底調査。省エネ設計のヒントを発見し、環境にも優しい未来の動画生成を目指します!

Detailed Summary

本論文は、最新のテキストから動画生成(T2V)モデルの計算コスト、特にエネルギー消費量に関する系統的な研究である。近年、高精細で時間的に整合性のある動画を自然言語プロンプトから生成するT2Vモデルの進歩が目覚ましいものの、その計算コストとエネルギー消費量は十分に理解されていない。 本研究では、まず、空間解像度、時間長、ノイズ除去ステップ数に対するスケーリング則を予測する、計算量に依存した解析モデルを構築した。このモデルは、空間・時間次元に関して2乗、ノイズ除去ステップ数に関して線形に計算コストが増加することを予測する。 次に、オープンソースの最先端T2VモデルであるWAN2.1-T2Vを用いて、詳細な実験を行い、解析モデルの予測を検証した。実験結果では、空間解像度と時間長の増加に対して2乗に比例する計算コスト増加、ノイズ除去ステップ数に対して線形に比例する計算コスト増加が確認され、解析モデルの妥当性が示された。 最後に、6種類の異なるT2Vモデルについて、デフォルト設定下での実行時間とエネルギー消費プロファイルを比較分析した。これにより、様々なT2Vモデルの計算コストとエネルギー消費量のベンチマークデータを提供し、より持続可能な生成動画システムの設計と展開のための実際的な知見を得た。本研究は、T2Vモデルのスケーラビリティとエネルギー効率に関する重要な知見を提供し、今後のモデル開発やシステム設計における省エネルギー化への指針となる。

A decentralized future for the open-science databases

Gaurav Sharma, Viorel Munteanu, Nika Mansouri Ghiasi, Jineta Banerjee, Susheel Varma, Luca Foschini, Kyle Ellrott, Onur Mutlu, Dumitru Ciorbă, Roel A. Ophoff, Viorel Bostan, Christopher E Mason, Jason H. Moore, Despoina Sousoni, Arunkumar Krishnan, Christopher E. Mason, Mihai Dimian, Gustavo Stolovitzky, Fabio G. Liberante, Taras K. Oleksyk, Serghei Mangul

Reason for Selection

オープンサイエンスデータベースの分散化の必要性と利点を論じ、将来を見据えた重要な提言をしている。

Simple Summary (for Social Media)

科学データの集中管理はリスクが高い!サイバー攻撃や災害でデータ消失の危険性があるため、分散型管理が重要です。本論文では、安全で公平なデータ共有を実現する新しい枠組みを提案。未来の科学のために、データを守り、世界中の人々が使えるようにしましょう!

Detailed Summary

本論文は、生物学データレポジトリの集中化による脆弱性を指摘し、フェデレート・分散型アーキテクチャによる代替案を提案している。背景として、集中型レポジトリはサイバー攻撃、技術的故障、自然災害、資金・政治的不安定性など、単一障害点への脆弱性を抱え、データ消失や研究遅延といった深刻な問題を引き起こす可能性を強調している。これは、科学的進歩を阻害するだけでなく、特定の地理的・制度的拠点への集中は、グローバルな研究活動を麻痺させるリスクも孕む。 手法として、論文は集中型レポジトリの構造的限界を分析し、フェデレート型および分散型モデルを評価した。そして、レジリエントでFAIR(Findable, Accessible, Interoperable, Reusable)かつ持続可能な科学データ管理のためのハイブリッドフレームワークを提案している。このフレームワークは、複数のレポジトリを連携させ、データの分散保管とアクセス制御を実現することで、単一障害点への依存を軽減することを目指す。 結果として、提案されたハイブリッドフレームワークは、ガバナンスの不安定性、インフラの脆弱性、資金の変動性に対するリスクを大幅に低減し、公平性とグローバルなアクセシビリティを促進すると結論付けている。このアプローチは、オープンサイエンスの未来にとって重要であり、データの継続的なアクセス性、相互運用性、保存を将来世代にわたって保証する、グローバルに分散され、経済的に持続可能で、制度的に堅牢なインフラの構築に貢献すると主張している。 具体的には、集中型と分散型の利点を組み合わせることで、レジリエンスとデータの可用性を最大化することを目指している。