2025.6.4
技術・研究開発

マルチモーダル生成AI "OmniFlow" がCVPR2025に採択

AI・データ分析 共通・その他 Panasonic×AI

パナソニック ホールディングス株式会社(以下、パナソニックHD)およびパナソニックR&Dカンパニーオブアメリカ(以下、PRDCA)は、カリフォルニア大学ロサンゼルス校(以下、UCLA)の研究者らと共同で、テキスト、画像、音といった異なるデータ形式を自由に相互変換できる(以下、Any-to-Any)マルチモーダル生成AI「OmniFlow」を開発しました。

パナソニックHDとPRDCAでは、マルチモーダル生成AIに関する研究に取り組んでいます。昨今、テキスト、画像に加えて音声も取り入れたマルチモーダル生成AIが注目されていますが、 テキスト、画像、音声が全て揃ったデータは入手方法が限られバリエーションを増やすにはコストがかかることが課題でした。 これに対し、既存の画像生成フローマッチングの枠組みを拡張する形で、生成の過程で3つの異なるデータ特徴を連結して処理することで、平均するだけでは得られないデータ間の複雑な関係を学習することができるOmniFlowを開発しました。

本技術は、先進性が国際的に認められ、AI・Computer VisionのトップカンファレンスであるCVPR 2025に採択されました。2025年6月11日から2025年6月15日までアメリカ ナッシュビルで開催される本会議で発表します。

論文リンク

"OmniFlow: Any-to-Any Generation with Multi-Modal Rectified Flows"
Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Zichun Liao, Yusuke Kato, Kazuki Kozuka, Aditya Grover
https://arxiv.org/abs/2412.01169
本研究は、PRDCAのKonstantinos Kallidromitis、UCLAのShufan LiらとパナソニックHDの加藤 祐介、小塚 和紀による共同研究成果です。

プレスリリース

パナソニックHD、テキスト、画像、音を相互に変換可能なマルチモーダル生成AI「OmniFlow」を開発
https://news.panasonic.com/jp/press/jn250604-3

関連リンク

Panasonic×AI WEBサイト
https://tech-ai.panasonic.com/jp/
Panasonic×AI X
https://twitter.com/panasonic_ai