IPR: Intelligent Prompt Routing with User-Controlled Quality-Cost Trade-offs
Aosong Feng, Balasubramaniam Srinivasan, Yun Zhou, Zhichao Xu, Kang Zhou, Sheng Guan, Yueyan Chen, Xian Wu, Ninad Kulkarni, Yi Zhang, Zhengyuan Shen, Dmitriy Bespalov, Soumya Smruti Mishra, Yifei Teng, Darren Yow-Bang Wang, Haibo Ding, Lin Lee Cheong
選定理由
LLMのコストと品質のトレードオフを制御する実用的なフレームワークを提案。話題性が非常に高い。
かんたん要約 (SNS向け)
大規模AIシステムで、応答品質を保ちつつ最も費用対効果の高いAIモデルを選ぶ技術IPRを開発。コストと品質のバランスを最適化します。
詳細要約
背景: 大規模商用システムにおいて、応答品質を維持しつつ最も費用対効果の高い大規模言語モデル (LLM) にクエリをルーティングすることは、性能とコストのトレードオフを最適化する上で重要な課題です。手法: 本研究では、品質制約型インテリジェントプロンプトルーティング (IPR) フレームワークを提案します。IPRは、予測される応答品質とユーザー指定の許容レベルに基づいて最適なモデルを動的に選択します。このフレームワークは、モジュール型アーキテクチャなどの主要な技術革新を導入しています。結果: IPRは、クエリルーティングにおける品質とコストのトレードオフを効率的に管理し、システム全体の最適化に貢献します。