Vision-Language Modelの高速化技術「SparseVLM」がICMLに採択

AI・データ分析共通・その他 Panasonic×AI

パナソニックR＆Dカンパニーオブアメリカ（以下、PRDCA）およびパナソニックホールディングス株式会社（以下、パナソニックHD）は、北京大学、復旦大学、カリフォルニア大学バークレー校、上海交通大学の研究者らと共同で、視覚情報（画像や映像の情報）を言語で理解するAIモデルであるVision Language Model（以下、VLM）を軽量化する技術「SparseVLM」を開発しました。

今回開発した「SparseVLM」は、従来のVLM軽量化手法では考慮されていなかった入力プロンプトを考慮することで、質問応答精度を保ちながら処理速度を約2倍に高速化する技術です。ユーザの状態や周辺環境を視覚情報から高速に認識し、言語化することが求められる多くの分野での活用が期待できます。

本技術は、先進性が国際的に認められ、AI・機械学習技術のトップカンファレンスであるThe 42nd International Conference on Machine Learning（ICML 2025）に採択されました。2025年7月13日から2025年7月19日までカナダバンクーバーで開催される本会議で発表します。

論文リンク

“SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference” Yuan Zhang, Chun-Kai Fan, Junpeng Ma, Wenzhao Zheng, Tao Huang, Kuan Cheng, Denis Gudovskiy, Tomoyuki Okuno, Yohei Nakata, Kurt Keutzer, Shanghang Zhang: https://arxiv.org/abs/2410.04417; 本研究は、UC Berkeleyが主導する「BAIR オープンリサーチコモンズ（※）」の枠組みで開発したもので、北京大学のYuan Zhang、Chun-Kai Fan、Shanghang Zhang、復旦大学のJunpeng Maら、カリフォルニア大学バークレー校のWenzhao Zheng、Kurt Keutzer、PRDCAのDenis Gudovskiy、パナソニックHDの奥野智行、中田洋平による研究成果です。; ※産業界、学術界の垣根を越えて世界トップレベルの研究者がオープンにコラボレーションする場として設立されたAI研究機関で、2025年時点ではパナソニックHDのほか、Google、Metaなど10社が参画しています。

プレスリリース

パナソニックHD、視覚情報を言語で理解するAIモデル（Vision-Language Model）を約2倍高速化する技術「SparseVLM」を開発: https://news.panasonic.com/jp/press/jn250704-1

Vision-Language Modelの高速化技術「SparseVLM」がICMLに採択

論文リンク

プレスリリース

関連リンク