2025.6.4
技術・研究開発
マルチモーダル生成AI "OmniFlow" がCVPR2025に採択
パナソニック ホールディングス株式会社(以下、パナソニックHD)およびパナソニックR&Dカンパニーオブアメリカ(以下、PRDCA)は、カリフォルニア大学ロサンゼルス校(以下、UCLA)の研究者らと共同で、テキスト、画像、音といった異なるデータ形式を自由に相互変換できる(以下、Any-to-Any)マルチモーダル生成AI「OmniFlow」を開発しました。
パナソニックHDとPRDCAでは、マルチモーダル生成AIに関する研究に取り組んでいます。昨今、テキスト、画像に加えて音声も取り入れたマルチモーダル生成AIが注目されていますが、 テキスト、画像、音声が全て揃ったデータは入手方法が限られバリエーションを増やすにはコストがかかることが課題でした。 これに対し、既存の画像生成フローマッチングの枠組みを拡張する形で、生成の過程で3つの異なるデータ特徴を連結して処理することで、平均するだけでは得られないデータ間の複雑な関係を学習することができるOmniFlowを開発しました。
本技術は、先進性が国際的に認められ、AI・Computer VisionのトップカンファレンスであるCVPR 2025に採択されました。2025年6月11日から2025年6月15日までアメリカ ナッシュビルで開催される本会議で発表します。
論文リンク
- "OmniFlow: Any-to-Any Generation with Multi-Modal Rectified Flows"
Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Zichun Liao, Yusuke Kato, Kazuki Kozuka, Aditya Grover - https://arxiv.org/abs/2412.01169
- 本研究は、PRDCAのKonstantinos Kallidromitis、UCLAのShufan LiらとパナソニックHDの加藤 祐介、小塚 和紀による共同研究成果です。
プレスリリース
- パナソニックHD、テキスト、画像、音を相互に変換可能なマルチモーダル生成AI「OmniFlow」を開発
- https://news.panasonic.com/jp/press/jn250604-3
関連リンク
- Panasonic×AI WEBサイト
- https://tech-ai.panasonic.com/jp/
- Panasonic×AI X
- https://twitter.com/panasonic_ai
