Single-stream Policy Optimization
Zhongwen Xu, Zihan Ding
Reason for Selection
LLMに特化した強化学習アルゴリズムSPOを提案。既存手法の欠点を解消し、推論能力向上を達成。
Simple Summary (for Social Media)
巨大言語モデルの学習を劇的に効率化!従来法の欠点を克服した新手法SPOで、安定した学習と高精度を実現。複雑な工夫より基本原理重視で、数学問題解答精度を大幅向上!特に難しい問題で効果絶大です。
Detailed Summary
本論文は、大規模言語モデル(LLM)のポリシー勾配最適化において、従来のグループベース手法(例: GRPO)の欠点を克服するSingle-stream Policy Optimization (SPO)を提案する。GRPOはオンザフライのベースラインを用いて分散を低減するが、グループが縮退し学習信号が消失したり、同期障壁によりスケーラビリティが制限されるという問題を抱える。
SPOは、グループベースラインを永続的なKL適応型価値トラッカーに置き換え、バッチ全体で利点をグローバルに正規化することで、全てのサンプルに対して安定した低分散の学習信号を提供する。グループフリーであるため、生成時間にばらつきのある長期間のタスクやツール統合環境において、高いスループットとスケーラビリティを実現する。さらに、永続的な価値トラッカーは、優先サンプリングによる適応的カリキュラム学習を自然に実現する。
Qwen3-8Bを用いた実験では、SPOはGRPOよりも滑らかに収束し、高い精度を達成し、縮退グループへの無駄な計算を排除した。アブレーションスタディにより、SPOの性能向上は、ベースライン推定と利点正規化への原理的なアプローチによるものであることが確認された。
5つの困難な数学ベンチマークを用いた評価では、SPOはGRPOと比較して平均maj@32を+3.4パーセンテージポイント向上させた。これは、BRUMO 25 (+7.3 pp)、AIME 25 (+4.4 pp)、HMMT 25 (+3.3 pp)など、困難なデータセットにおいて大幅な絶対ポイント増加によるものである。評価した全てのk値において、pass@$k$において一貫した相対的な改善が見られた。
結論として、SPOは、RLアルゴリズムに付随的な複雑さを追加する従来の傾向に挑戦し、LLM推論における今後の進歩を推進する上で、アーキテクチャ上の回避策ではなく、基本原理が重要であることを示唆している。
Don't Forget the Nonlinearity: Unlocking Activation Functions in Efficient Fine-Tuning
Bo Yin, Xingyi Yang, Xinchao Wang
Reason for Selection
活性化関数を調整するPEFT手法NoRAを提案。従来手法と異なり、活性化関数の学習を通して効率的な微調整を実現。
Simple Summary (for Social Media)
AIモデルの精度を劇的に向上させる新手法「NoRA」登場!従来は重みを調整するだけでしたが、NoRAは活性化関数自体を学習可能に。わずか0.4%のパラメータ調整で、画像認識・言語モデル双方で驚異的な精度向上を実現!少ない計算量でAIを賢くする画期的な技術です。
Detailed Summary
本論文は、事前学習済みTransformerモデルにおけるパラメータ効率の良い微調整(PEFT)手法として、活性化関数を直接学習可能なものとする新たなフレームワーク「NoRA」を提案している。従来のPEFT手法は重み行列のみを調整するのに対し、NoRAは固定された活性化関数を、学習可能な有理関数に置き換える点が革新的である。
NoRAは、有理関数の分子と分母の係数に構造化された低ランク更新を適用することで、活性化関数の調整を行う。グループごとの設計により、調整範囲を局所化し、計算コストを最小限に抑えつつ安定性を向上させている。CIFAR-10およびCIFAR-100で訓練されたVision Transformerを用いた実験では、パラメータのわずか0.4%(0.02M)のみを更新しながら、フルファインチューニングと同等以上の精度を達成し、+0.17%から+0.27%の精度向上を実現した。
さらに、LoRAと組み合わせたNoRA++は、同等の訓練予算の下でLoRAやDoRAを上回る性能を示した。LLaMA3-8Bを用いた指示調整タスクにおいても、NoRA++は平均MMLUスコアを+0.3%~+0.8%向上させ、STEM(Alpaca)では+1.6%、OpenOrcaでは+1.3%の改善を示した。
NoRAは、活性化関数の調整を低次元関数空間に制限することで、更新の大きさや方向を暗黙的に正則化していることも示されている。これらの結果は、活性化空間の調整が、重みに基づくPEFT手法を補完する、きわめてパラメータ効率の良い手法であることを示唆しており、活性化関数をモデル適応のための第一級オブジェクトとして位置づけている。
ChartGaze: Enhancing Chart Understanding in LVLMs with Eye-Tracking Guided Attention Refinement
Ali Salamatian, Amirhossein Abaskohi, Wan-Cyuan Fan, Mir Rayat Imtiaz Hossain, Leonid Sigal, Giuseppe Carenini
Reason for Selection
人間の視線追跡データを用いて、LVLMsのチャート理解における注意機構を改善する手法を提案。解釈性と精度を向上させている。
Simple Summary (for Social Media)
AIはグラフから情報を理解できる?でも、人間とAIの「見る」視点が違うと、間違えることも。そこで、人間の視線データを使ってAIを訓練!すると、グラフ理解の精度が大幅アップ!より正確で分かりやすいAIを目指します!
Detailed Summary
本論文は、大規模視覚言語モデル(LVLMs)によるチャート質問応答(CQA)における課題を、人間の視線とモデルの注意機構の比較を通して明らかにし、視線情報を活用した改善手法を提案している。
背景として、チャートは情報伝達に不可欠な視覚媒体であり、LVLMsはCQAにおいて進歩を見せているものの、チャートの非関連領域に注意が向くことで精度が阻害される問題が指摘されている。従来手法では、この問題への直接的な対処が不足していた。
そこで本研究は、人間のチャート解釈過程における視線パターンを記録した新しいアイトラッキングデータセット「ChartGaze」を作成した。このデータセットを用いて、人間の視線とLVLMsの注意機構を比較分析した結果、LVLMsは人間の視線と大きく乖離し、解釈可能性と精度の低下につながることが示された。具体的には、LVLMsは人間が重要とみなす領域を無視したり、逆に非関連領域に過剰に注意を払ったりする傾向が観察された。
この問題に対処するため、本論文では、人間の注視点を反映した注意機構の改良手法を提案する。この手法は、画像-テキスト間の注意機構を人間の視線データでガイドすることで、モデルの注意を関連領域に集中させる。実験の結果、複数モデルにおいて最大2.56パーセントポイントの精度向上を確認し、同時に人間の視線との整合性も向上した。これは、人間の視線情報を活用することで、LVLMsの推論能力と解釈可能性の両方を向上できることを示唆する。本研究は、CQAにおけるLVLMsの限界を克服し、より人間らしい、信頼性の高いモデル開発に貢献する重要な一歩であると言える。