Featured Papers for 2025-09-16

GC-VLN: Instruction as Graph Constraints for Training-free Vision-and-Language Navigation

Hang Yin, Haoyu Wei, Xiuwei Xu, Wenxuan Guo, Jie Zhou, Jiwen Lu

Reason for Selection

LLMを用いない、移動指示をグラフ制約として扱うトレーニングフリーのVision-and-Language Navigation。実用性が高い。

Simple Summary (for Social Media)

指示を理解して、ロボットが場所を自在に移動する画期的新技術！学習不要で、複雑な環境でも迷わず目的地へ。指示を空間上の制約に変換し、最適な経路を計算。実世界での実験も成功し、自律移動の未来を切り開きます！

Detailed Summary

本論文は、訓練データを用いない視覚言語ナビゲーション（VLN）フレームワークを提案する。既存のゼロショットVLN手法は、離散環境に限定されたり、連続シミュレータ環境での教師なし学習を必要としたりするため、実世界への展開が困難であった。本研究では、連続環境における訓練不要なフレームワークとして、指示を明示的な空間制約に分解することで、ナビゲーションガイダンスをグラフ制約最適化問題として定式化する。この制約駆動型パラダイムは、制約ソルバーによる空間意味の解読を可能にし、未知環境へのゼロショット適応を実現する。具体的には、VLN指示に含まれるあらゆる種類の空間関係を網羅した空間制約ライブラリを構築する。人間の指示は、ウェイポイントノード、オブジェクトノード、エッジからなる有向非巡回グラフに分解され、これらのノードとエッジがライブラリ検索のクエリとして用いられ、グラフ制約が構築される。グラフ制約最適化は制約ソルバーによって解かれ、ウェイポイントの位置が決定され、ロボットのナビゲーション経路と最終目標が得られる。解なしや複数解の場合には、ナビゲーションツリーとバックトラッキング機構を用いて対処する。標準ベンチマークを用いた広範な実験により、最先端のゼロショットVLN手法と比較して、成功率とナビゲーション効率の大幅な向上が示された。さらに、実世界実験を通して、本フレームワークが新しい環境と指示セットに効果的に一般化できることを示し、より堅牢で自律的なナビゲーションフレームワークへの道を拓く。本手法は、空間制約ライブラリの構築とグラフ最適化に基づくことで、データ駆動型手法に比べて環境変化への適応性が高いことが示唆される。

View in App Open PDF

DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL

Rui Lu, Zhenyu Hou, Zihan Wang, Hanchen Zhang, Xiao Liu, Yujiang Li, Shi Feng, Jie Tang, Yuxiao Dong

Reason for Selection

知識グラフとマルチターンRLを用いてLLMを深層探索エージェントとして高度化するDeepDive。LLMの進化に貢献。

Simple Summary (for Social Media)

ネット検索で複雑な問題を解くAI「DeepDive」が登場！賢い検索で難問にも対応。独自の学習方法で、従来のAIを凌駕する検索能力を実現。誰でも使えるように公開中！

Detailed Summary

本論文は、大規模言語モデル（LLM）にブラウジングツールを統合することで、複雑な現実世界の問題解決能力を向上させる深層検索エージェントの開発を目的とする。既存のオープンソースLLMは、ブラウジングツールを用いた長期的な推論能力の不足と、十分に困難な教師データの欠如により、このタスクにおいて性能が低いという課題を抱えている。そこで本研究は、深層検索エージェントDeepDiveを提案する。まず、公開知識グラフから複雑で困難、かつ発見困難な質問を自動的に合成する手法を提案する。これは、既存のデータセットの限界を克服し、LLMの能力をより厳格に評価することを可能にする。次に、エンドツーエンドの多ターン強化学習（RL）を用いて、LLMのブラウジングツールを用いた長期的な推論能力を強化する。多ターンRLは、複数の検索ステップにわたる意思決定を最適化し、より効率的で効果的な検索戦略の獲得を促進する。 BrowseCompベンチマークを用いた実験結果において、DeepDive-32BはWebSailor、DeepSeek-R1-Browse、Search-o1などの既存手法を凌駕する、オープンソースモデルとして最先端の性能を示した。これは、提案手法である多ターンRL訓練が深層検索能力の向上に大きく寄与していることを示している。さらに、DeepDiveはテスト時におけるツール呼び出しのスケーリングと並列サンプリングを可能にすることも示された。全てのデータセット、モデル、コードは公開されている。本研究は、深層検索エージェントの性能向上に多ターンRLが効果的であることを示し、オープンソースコミュニティへの貢献に大きく寄与する。

View in App Open PDF

Data distribution impacts the performance and generalisability of contrastive learning-based foundation models of electrocardiograms

Gul Rukh Khattak, Konstantinos Patlatzoglou, Joseph Barker, Libor Pastika, Boroumand Zeidaabadi, Ahmed El-Medany, Hesham Aggour, Yixiu Liang, Antonio H. Ribeiro, Jeffrey Annis, Antonio Luiz Pinho Ribeiro, Junbo Ge, Daniel B. Kramer, Jonathan W. Waks, Evan Brittain, Nicholas Peters, Fu Siong Ng, Arunashis Sau

Reason for Selection

対照学習に基づく心電図基盤モデルにおけるデータ分布の影響評価。医療AIにおける公平性と汎用性への貢献。

Simple Summary (for Social Media)

心臓のデータでAIを学習させる新手法「CAPE」が登場！世界各地の膨大なデータで訓練することで、より正確な診断を目指します。しかし、データの偏りが精度に影響することも判明。そこで開発されたのが、偏りを抑える「IDB」戦略。公平で、様々な場所で使えるAI実現への一歩です！

Detailed Summary

本論文は、コントラスティブ学習を用いた心電図（ECG）基礎モデル「CAPE」の開発と、多様なコホートを用いた事前学習におけるコホート構成の影響に関する研究である。背景として、コントラスティブ学習は広く用いられるものの、事前学習コホートの構成が下流タスクの性能に及ぼす影響は十分に解明されていない点を指摘している。手法として、北米、南米、アジアの3大陸にわたる4つのコホート（合計5,203,352例）を用いてCAPEモデルを事前学習した。その後、欧州の2つの追加コホートを含む複数の下流タスクにおいて、事前学習コホートの人口統計学的特性、健康状態、多様性が性能に与える影響を系統的に評価した。結果として、下流タスクの性能は、事前学習コホートの分布特性（人口統計学的特性や健康状態を含む）に依存することが示された。多中心かつ人口統計学的に多様なコホートを用いた事前学習は、分布内精度を向上させる一方、コホート特有のアーティファクトをエンコードすることにより、分布外（OOD）汎化性能を低下させることが判明した。この問題に対処するため、事前学習中にコホート内の一貫性を維持し、OOD頑健性を向上させる「In-Distribution Batch (IDB)」戦略を提案している。本研究は、臨床的に公平で汎化性能の高い基礎モデル開発のための重要な知見を提供する。特に、多様なコホートを用いた事前学習におけるOOD汎化性能のトレードオフと、それを改善するためのIDB戦略の提案は、医療AIモデル開発における重要な貢献と言える。

View in App Open PDF

Is In-Context Learning Learning?

Adrian de Wynter

Reason for Selection

In-Context Learningの学習能力に関する大規模分析。LLMの学習メカニズムの理解を深める重要な研究。

Simple Summary (for Social Media)

巨大言語モデルは、少ない例題だけで新たな問題を解けるように見えるけど、本当に「学習」してるの？研究で徹底検証！実は暗記や既存知識の活用が大きく、新しいタスクへの汎化能力は限定的だと判明。例題を増やすと精度向上するものの、解法は課題の表面的なパターン認識に頼っていることも明らかに。

Detailed Summary

本論文は、大規模言語モデルにおけるインコンテキスト学習（ICL）の学習能力に関する限界を検証したものである。背景として、ICLは追加訓練なしにプロンプト内の少数の例示（few-shot）だけで未見のタスクを解けると主張されているが、そのメカニズムは既存知識と例示の活用に基づく推論であり、必ずしも真の学習を意味するとは限らない点が指摘されている。手法として、本研究ではICLにおける学習の数学的定義を提示しつつ、大規模な実験により、記憶、事前学習、分布シフト、プロンプトスタイル・表現の影響を系統的に分析した。具体的には、様々なモデル、タスク、プロンプトを用いてICLの精度を評価し、その要因を解明を試みている。結果として、ICLは有効な学習パラダイムであるものの、未見タスクへの学習と汎化能力には限界があることが示された。例示の数が多くなると、精度はその分布、モデル、プロンプトスタイル、入力の言語的特徴に鈍感になり、プロンプト内の規則性からのパターン推論に依存するようになることが明らかになった。特に、思考連鎖型プロンプトでは分布依存性が顕著であった。形式的に類似したタスク間で精度が大きく変動したことから、自己回帰モデルにおけるアドホックな符号化は堅牢なメカニズムではなく、汎用性の高い汎化能力は限定的であると結論付けている。すなわち、ICLは表面的なパターン認識に依存しており、真の概念理解に基づく学習とは異なるメカニズムで動作することを示唆している。

View in App Open PDF