逆境からつかんだ最高精度の技術
世界が認めた話者識別への挑戦

板倉光佑

専門：音声・音響信号処理、機械学習、話者認識
テクノロジー本部　デジタル・AI技術センター

※所属・内容等は取材当時のものです。

学生時代から人工知能に関心を寄せ、大学院では「音源分離」を研究。2017年に入社、2年目から話者識別精度を競う国際コンペで性能改善の一翼を担う。共同開発で連携するアメリカの大学で最先端の深層学習を習得し、2021年国際コンペで当時世界最高レベルの話者識別精度を達成。現在は識別精度の性能向上と並行し、技術の実用化に尽力している。

たとえ道のりは険しくても、研究の第一線に立ち続けて、音声技術で世界トップレベルを達成する――。板倉さんの強い想いを支えたのは、パナソニックホールディングスの高度専門職制度*1の存在でした。話者識別の精度を競う国際コンペのメンバーに参加して以来、新技術の知見を自ら学び取り、性能改善を目指してきました。無我夢中で駆け抜けた挑戦で手に入れたのは、世界トップレベルの技術力と、揺るぎない信念。国際コンペで経験した挫折と成功、高度専門職の環境だからできる、研究の醍醐味について板倉さんに聞きました。

*1 高度専門職…パナソニックホールディングス株式会社では、高い専門性で活躍する技術者を対象に、専門性を評価し活躍を後押しすることで技術による価値創出強化を目指す「高度専門職制度」を2015年から導入。

Mind_01

過去の殻を破る

Q　国際コンペで競う合う話者識別とは、どんな技術ですか？

話者識別は音声データから話者固有の特徴を抽出し、「誰が」話をしているか正しく識別する技術です。当グループは、この識別精度を世界の研究者らと競う合う国際コンペに2018年から定期的に参加、私も当初から開発メンバーに加わっています。当時まだ入社2年目の私に声が掛かったのは、学生時代に識別精度の向上につながる人工知能を活用した音声分野を研究していたからでした。従来技術の信号処理と人工知能を組み合わせ、世界トップレベルを目指す。そんな目標を掲げながらも、2018年のコンペ結果は、まさかの平均レベルでした。

分析すると、コンペでトップレベルの結果を残したアメリカの大学研究グループは、当時注目を集め始めていた深層学習*2を話者識別にいち早く導入していましたが、当時のチームは深層学習の知見がほぼゼロ。「精度向上のために、より良い方法を学び取りたい」、その一心で、同大学の研究チームに連絡を取り、共同研究を打診。こちらの熱意を受け入れてくださり、私も現地の研究室に飛び込み、教えを請いながら、知見を蓄えていきました。2019年の国際コンペで上位に入り、2021年ついに世界トップレベルの精度を達成できたのは、過去の事例や手法にとらわれず、新しい知見を積極的に取り入れて挑戦したから。今までの保有技術にこだわり続けていたら、なしえなかったはずです。

*2 深層学習…ディープラーニングと言われる機械学習の一つ。人間の神経細胞の仕組みを再現したニュートラルネットワークを多層にして活用することで、データの特徴をより深めて学習させることができる。

技術を磨き、スペシャリストであり続けたい

Q　高度専門職に任命され、研究姿勢に変化はありましたか？

コンペを機にこの道のスペシャリストになりたい想いが強くなっていたので、高度専門職の打診は大変うれしかったです。任命されていなければ、年齢を積み重ねるにつれてマネジャーになり、第一線で研究する機会が徐々に減ってくるのではと思っていました。正直に申し上げると、私は人材の育成管理といったマネジメントに今はまだあまり自信がありません。苦手な分野は得意な人に助けてもらいつつ、自分にしかできない技術開発を徹底して磨き続けていける。ジェネラリストじゃなくて、スペシャリストに成長できるのが当社で働く醍醐味ではないでしょうか。

Q　現在はどんなミッションに取り組んでいますか？

性能向上と並行し、技術の実用化を進めています。例えば、複数の話者が同時に話す場面やほんの短い言葉だけの音声、また、大きな騒音や音声ゆがみなど収録環境の影響を受けたりしても正しく認識できるか。実用化には性能向上とはまた別の課題が出てきますので、一つ一つ解決策を見つけ出さなくてはなりません。私がパナソニックを選んだ理由の一つが、家電をはじめ、多様な商品を開発販売しているフィールドの広さでした。自ら開発した技術を商品に還元し、いつか世の中にお役立ちがしたいと、技術者の一歩を踏み出しました。実用化の道のりは、まだまだ途上ではありますが、私も微力ながら事業に貢献できる喜びをかみしめています。

Mind_02

手を動かし、学ぶ

Q　社内外のメンバーの中で、自身の成長を後押ししてくれた人物はいますか？

アメリカの大学研究チームの圧倒的なスピードは今も目に焼き付いています。私が常日頃意識しているのは「手を動かし続けること」。これは、彼らからの学びです。課題解決につながりそうな論文を手当たり次第見つけ出し、さまざまな条件下で検証し、可能性を考察する。このサイクルをいかに早く回し、積み重ねるかで、解決の糸口を発見するスピードが飛躍的に向上します。私の職場の大先輩も身近なお手本です。1人黙々と研究に励み、どんな疑問点にも答えてくださる姿を見るたび、尊敬と同時に負けてなるものかと刺激を受けています。

Q　世界一線級の研究チームを相手にするコンペ。どんなことを心掛けていますか？

私が最初にコンペに参加した時はチーム最年少でしたが、どんな小さな意見も尊重してもらえたことがうれしくて、年齢や立場に関係なく力を出し合えました。共通の目標を達成するために、必要なのは強固な信頼関係です。社内だけで解決できない問題があれば、アメリカの大学研究チームと意見交換。これまで築いてきた人脈のおかげで素早く的確なアドバイスが受けられ、さらに上を目指していける。バックグラウンドが違っても、心強いチームの一員です。

音声が導く可能性、自らの手で切り開く

Q　話者識別技術の可能性、今後の展望を教えてください。

話者識別技術は、さまざまな生活場面での応用化が期待されています。「誰が」話しているのかといった話者識別技術の研究領域から、「何を」話しているかという音声認識技術を組み合わせれば、利用者に応じた特別な行動提示も可能となるでしょう。最近当グループが共同で技術発表した、「マルチモーダル認証ソリューション」は、話者モデルと顔照合モデルを組み合わせた、世界最高高度の認証技術です。音声の領域を飛び越え、より安心安全で便利な社会の実現に貢献する。技術次第で限りなく事業が伸びると考えていますので、高度専門職としてしっかり研究成果で応えていきたいです。

収録音声の特徴分析に基づき話者の特徴を抽出・識別を行うディープラーニング学習手法・類似度計算手法により、使用環境や言語に堅牢な性能を実現しました。

To the Next

世界中に、伝えたいことがある。

私の技術者の原点は悔しさです。最初に国際コンペに参加した当時は要領がつかめないながらも、四六時中研究に明け暮れる日々。そこまで熱意を傾けられたのは、仲間がいたから。1度目で結果を残せたら、こんなにのめりこまなかったですし、私1人だけの功績じゃないから、勝った時の喜びや達成感もひとしお。逆境でこそ、人も技術も磨かれると、改めて実感しました。いつか商品化が実現したら、世界中に向けて胸を張り、声を大にして言いたいですね。「当グループの音声識別技術は世界トップレベルです！」と。

逆境からつかんだ最高精度の技術世界が認めた話者識別への挑戦