Featured Papers for 2025-09-23

RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation

Jane Luo, Xin Zhang, Steven Liu, Jie Wu, Yiming Huang, Yangyu Huang, Chengyu Yin, Ying Xin, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Qi Chen, Scarlett Li, Mao Yang

Reason for Selection

LLMを用いたコード生成は注目度が高く、リポジトリ全体の自動生成は実用性も高い。

Simple Summary (for Social Media)

AIがまるごとプログラムを自動生成!従来の手法を大幅に凌駕する新技術「ZeroRepo」が登場。複雑なプログラムも、独自の設計図「RPG」を使って効率的に作成。大規模なプロジェクトでも高精度、高効率なコード生成を実現し、開発を劇的にスピードアップします!

Detailed Summary

本論文は、大規模言語モデル(LLM)を用いたゼロからのリポジトリ生成という未解決問題に取り組む。既存のLLMは関数やファイルレベルのコード生成には優れるものの、複雑なソフトウェアプロジェクト全体を生成するには、計画段階における曖昧性と規模の壁に阻まれていた。 そこで提案されているのが、提案段階と実装段階の計画を統一的に表現するRepository Planning Graph (RPG)である。RPGは、機能、ファイル構造、データフロー、関数をグラフ構造で表現することで、曖昧な自然言語に頼らず、複雑なソフトウェア構造を明示的に記述する。この明確な設計図により、長期的な計画立案とスケーラブルなリポジトリ生成が可能となる。 ZeroRepoは、このRPGに基づくゼロからのリポジトリ生成フレームワークである。3段階の手順で動作する。(1)提案レベルの計画と実装レベルの洗練によるRPGの構築、(2)RPGをガイドとしたコード生成、(3)テストによる検証。 評価には、6つの現実世界のプロジェクト(1052タスク)からなるベンチマークRepoCraftを用いた。 結果、ZeroRepoは平均約36,000行のコードを生成し、最強のベースラインであるClaude Codeを約3.9倍、他のベースラインを約64倍上回った。機能カバレッジは81.5%、テスト合格率は69.7%に達し、Claude Codeと比較してそれぞれ27.3%ポイント、35.8%ポイントの向上を示した。 さらなる分析から、RPGは複雑な依存関係を適切にモデル化し、ほぼ線形スケーリングで計画の洗練度を高め、LLMによるリポジトリ理解を向上させ、エージェントの局在化を促進することが示された。 本研究は、LLMを用いた大規模ソフトウェア開発における重要な進歩を示している。

MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

Yanghao Li, Rui Qian, Bowen Pan, Haotian Zhang, Haoshuo Huang, Bowen Zhang, Jialing Tong, Haoxuan You, Xianzhi Du, Zhe Gan, Hyunjik Kim, Chao Jia, Zhenbang Wang, Yinfei Yang, Mingfei Gao, Zi-Yi Dou, Wenze Hu, Chang Gao, Dongxu Li, Philipp Dufter, Zirui Wang, Guoli Yin, Zhengdong Zhang, Chen Chen, Yang Zhao, Ruoming Pang, Zhifeng Chen

Reason for Selection

マルチモーダルLLMはトレンドであり、単一モデルで複数のタスクをこなせる点が実用的。

Simple Summary (for Social Media)

画像とテキストを自在に操るAI「Manzano」登場!理解と生成、両方の能力を高いレベルで両立。シンプルな設計でスケールも自在。画像認識から文章生成、画像作成までこなす驚異の性能で、AIの可能性を大きく広げます!

Detailed Summary

本論文は、視覚コンテンツの理解と生成の両方を可能とする統合型マルチモーダル大規模言語モデル(LLM)Manzanoを提案している。既存のオープンソースモデルは、理解と生成能力の間にトレードオフが存在する課題を抱えているが、Manzanoはハイブリッド画像トークナイザと洗練された訓練レシピを組み合わせることで、この課題を大幅に軽減する。 Manzanoの中核は、共有されたビジョンエンコーダから分岐する2つの軽量アダプタである。一つは画像からテキストへの理解のための連続埋め込みを、もう一つはテキストから画像への生成のための離散トークンを生成する。これらは共通のセマンティック空間で動作する。統合型自己回帰LLMは、テキストと画像トークンの形で高レベルのセマンティクスを予測し、補助的な拡散デコーダが画像トークンをピクセルに変換する。このアーキテクチャと、理解と生成の両方のデータを用いた統一的な訓練レシピにより、両能力のスケーラブルな同時学習が可能となる。 ハイブリッドトークナイザを採用した設計の有効性を検証するため、モデルサイズのスケーリング実験を実施した。その結果、最小限のタスク間の競合と、モデルサイズ拡大による一貫した性能向上を確認した。評価実験では、特にテキストリッチな評価において、統一型モデルの中で最先端の結果を達成し、専門化されたモデルにも匹敵する性能を示した。これは、提案手法が理解と生成能力の両方を効率的に学習できることを示唆している。全体として、Manzanoはシンプルかつスケーラブルな設計で、統合型マルチモーダルLLMの性能向上に大きく貢献する成果であると言える。

Latent learning: episodic memory complements parametric learning by enabling flexible reuse of experiences

Andrew Kyle Lampinen, Martin Engelcke, Yuxuan Li, Arslan Chaudhry, James L. McClelland

Reason for Selection

LLMの弱点である潜在学習に着目し、認知科学に基づいた解決策を探る点が興味深い。新たな研究方向を示唆する。

Simple Summary (for Social Media)

AIは必要な情報だけを学習し、応用が苦手? 人間の「潜在学習」能力をヒントに、過去の経験を柔軟に活用するAIを目指した研究が発表されました! 記憶をうまく活用することで、AIの学習効率と汎化能力が飛躍的に向上する可能性が見えてきました。

Detailed Summary

本論文は、機械学習システムの汎化能力の低下の原因の一つとして、潜在学習の欠如を指摘し、認知科学の知見に基づいた解決策を提案している。背景として、機械学習システムは、現在のタスクに直接関係のない情報(潜在情報)を学習しないため、将来的なタスクへの適応性に劣るという問題を提起する。この視点から、言語モデルにおける逆転の呪縛や、エージェントベースのナビゲーションにおける新たな知見といった、様々な汎化失敗を統一的に説明する。 手法としては、認知科学におけるエピソード記憶に着目し、オラクル検索機構を備えたシステムを提案する。このシステムは、過去の学習経験を柔軟に検索・利用することで、様々な汎化課題に対する性能向上を目指す。具体的には、過去の事例を検索し、その情報を現在のタスクに適用する機構を導入することで、パラメトリックな学習を補完することを目指す。 結果として、オラクル検索機構を持つシステムは、複数の汎化課題において、従来のシステムよりも優れた性能を示したことが示唆される。特に、事例内文脈学習(within-example in-context learning)が、検索された事例間で情報を効果的に活用する能力獲得に重要であることを明らかにしている。これは、検索機構の効果的な活用には、単なる事例の蓄積だけでなく、事例内での情報処理も重要であることを示している。 結論として、本研究は、現在の機械学習システムが自然知能と比較してデータ効率が低い原因の一つとして潜在学習の欠如を提示し、検索機構によるパラメトリック学習の補完が汎化能力向上に有効であることを示唆している。特に、事例内文脈学習の重要性を示した点は、今後の高効率な汎化能力を持つ機械学習システム開発への重要な示唆を与えている。