8月のギークサロンでは、20年以上に渡って音声処理技術の研究開発に従事され、現在はパロアルト市のAmazon Web Services (AWS)にて Principal Applied Scientisを務められている 戸上真人氏をお招きします。
戸上氏は2017年~2018年にスタンフォード大学にVisiting Scholarとして所属された後、Line株式会社に入社されAI開発室 室長を務められています。これまでに登録特許が20件以上、査読あり国際会議での採択論文数が60件以上、また各種の受賞歴をお持ちであり音声認識・音源分離分野での第一人者として活躍されています。
近年ではスマートスピーカーやスマホによる音声アシスタント、リアルタイム翻訳や文字起こし、リモート会議システムでの話者認識など様々な場面で音声認識・音声処理が使われていますが、これらは各種の信号処理技術やDNNを用いたAIによる音声認識・処理技術の飛躍的な発展によるものと言えると思います。例えばカクテルパーティーのような様々な人が話すザワザワとした環境でも人間は聞きたい人の声を聞き取ることができ、これは「カクテルパーティー効果」と呼ばれていますが、雑音などがある中でも聞きたい人の声のみを分離する音源分離技術の技術進化が進んでいます。
本講演では、この音源分離技術の中でも特に複数のマイクロホンを用いた技術開発の歴史を、戸上氏が執筆された「Pythonで学ぶ音源分離」の内容に準じた形で概要をお話し頂きます。特に、数学的に何故音源分離問題が解けるのか不思議な部分がありますが、そのエッセンスを簡略的にご解説頂く予定です。
また、音源分離と確率統計モデルに基づく信号処理技術の関係性はとても強く、戸上氏は確率統計モデルを用いた信号処理を他分野で応用する際にも参考となる要素があると考えられています。加えて深層学習(Deep Learning)を音源分離に応用する際の一つの考え方である、音源分離と確率統計モデルの統合的な学習法について、戸上氏のこれまでの研究内容を中心にお話しを伺います。
■ アジェンダ
・音声認識、音声処理、音響処理など関連分野での最近の動向
・「カクテルパーティー効果」:音源分離技術とは?
・音源分離と確率統計モデルの統合的な学習法