マルチモーダル生成AI "OmniFlow" がCVPR2025に採択

AI・データ分析共通・その他 Panasonic×AI

パナソニックホールディングス株式会社（以下、パナソニックHD）およびパナソニックR＆Dカンパニーオブアメリカ（以下、PRDCA）は、カリフォルニア大学ロサンゼルス校（以下、UCLA）の研究者らと共同で、テキスト、画像、音といった異なるデータ形式を自由に相互変換できる（以下、Any-to-Any）マルチモーダル生成AI「OmniFlow」を開発しました。

パナソニックHDとPRDCAでは、マルチモーダル生成AIに関する研究に取り組んでいます。昨今、テキスト、画像に加えて音声も取り入れたマルチモーダル生成AIが注目されていますが、テキスト、画像、音声が全て揃ったデータは入手方法が限られバリエーションを増やすにはコストがかかることが課題でした。これに対し、既存の画像生成フローマッチングの枠組みを拡張する形で、生成の過程で3つの異なるデータ特徴を連結して処理することで、平均するだけでは得られないデータ間の複雑な関係を学習することができるOmniFlowを開発しました。

本技術は、先進性が国際的に認められ、AI・Computer VisionのトップカンファレンスであるCVPR 2025に採択されました。2025年6月11日から2025年6月15日までアメリカナッシュビルで開催される本会議で発表します。

論文リンク

"OmniFlow: Any-to-Any Generation with Multi-Modal Rectified Flows" Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Zichun Liao, Yusuke Kato, Kazuki Kozuka, Aditya Grover: https://arxiv.org/abs/2412.01169; 本研究は、PRDCAのKonstantinos Kallidromitis、UCLAのShufan LiらとパナソニックHDの加藤祐介、小塚和紀による共同研究成果です。

プレスリリース

パナソニックHD、テキスト、画像、音を相互に変換可能なマルチモーダル生成AI「OmniFlow」を開発: https://news.panasonic.com/jp/press/jn250604-3

マルチモーダル生成AI "OmniFlow" がCVPR2025に採択

論文リンク

プレスリリース

関連リンク