セミナー情報
【第47回AIセミナー】「AIによる音声解析の最先端 〜音声認識・音声合成・マルチモーダル処理を中心に〜」
終了しました。
2021年3月は「AIによる音声解析の最先端 〜音声認識・音声合成・マルチモーダル処理を中心に〜」と題して人工知能セミナーを開催します。 2月に引き続いて「音」がテーマですが、3月は人のコミュニケーションにおける重要メディアである「音声」の認識・理解に関する最新の研究動向・事例を共有していただく絶好の機会となっています。コンピュータ(AI)による音声解析の研究には長い歴史があり、時代によって様々な実用化が進められてきました。近年、スマートフォンやスマートスピーカーの普及に伴い、ユーザフレンドリーなインタフェースとして我々にとって非常に身近な存在となりました。深層学習の発展による大きな性能向上、計算能力やクラウド技術等による実運用性の向上も相俟って、成熟した完成された技術と思われがちですが、まだ達成されていない課題も多く、現在も世界中で音声解析に関する研究が精力的に行われています。本セミナーでは、音声研究において世界的にご活躍されている3名の講師をお招きして、音声認識、音声合成、マルチモーダル処理に関する最先端の研究事例についてご講演いただきます。<新型コロナウイルスの対応について>
※新型コロナウイルス感染拡大防止のため、今年度はZoomウェビナーによるオンライン開催となります。
※講演は全て日本語の予定です。
名称 | 【第47回AIセミナー】「AIによる音声解析の最先端 〜音声認識・音声合成・マルチモーダル処理を中心に〜」 |
---|---|
日時 | 2021年3月17日(水) 10:00 - 12:00 |
受付時間 | 接続可能時間:9:50-12:00 |
場所 | Zoomウェビナーによるオンライン開催 ※お申し込み後、Doorkeeper(申込ツール)より会場URLをご案内いたします。 |
定員 | 500名 |
参加登録 | https://airc.doorkeeper.jp/events/118788 |
参加費用 | 無料 |
主催 | 産業技術総合研究所人工知能研究センター |
連絡先 | 人工知能セミナー窓口 |
注意事項 ・他の方に参加の機会をお譲りするためにも、参加ができないと分かった場合は早めのキャンセルをお願いします。・産総研は、お送りいただいた情報をセミナー運営以外の目的には使用しません。 ・講演の録画やアップロードはご遠慮ください。 |

プログラム
10:00- 10:40 | 「Introduction of ESPnet, end-to-end speech processing toolkit: new features, broadened applications, performance improvements, and future challenges」 渡部晋治(Carnegie Mellon University Associate Professor) |
---|---|
概要 |
|
略歴
Shinji Watanabe is an Associate Professor at Carnegie Mellon University, Pittsburgh, PA. He received his B.S., M.S., and Ph.D. (Dr. Eng.) degrees from Waseda University, Tokyo, Japan. He was a research scientist at NTT Communication Science Laboratories, Kyoto, Japan, from 2001 to 2011, a visiting scholar in Georgia institute of technology, Atlanta, GA in 2009, and a senior principal research scientist at Mitsubishi Electric Research Laboratories (MERL), Cambridge, MA USA from 2012 to 2017, and an associate research professor at Johns Hopkins University, Baltimore, MD USA from 2017 to 2020. His research interests include automatic speech recognition, speech enhancement, spoken language understanding, and machine learning for speech and language processing. He has been published more than 200 papers in peer-reviewed journals and conferences and received several awards, including the best paper award from the IEEE ASRU in 2019. He served as an Associate Editor of the IEEE Transactions on Audio Speech and Language Processing. He was/has been a member of several technical committees, including the APSIPA Speech, Language, and Audio Technical Committee (SLA), IEEE Signal Processing Society Speech and Language Technical Committee (SLTC), and Machine Learning for Signal Processing Technical Committee (MLSP).講演資料
PDF:19,538KB |
|
10:40- 11:20 | 「ニューラルテキスト音声合成」 全 炳河 (Google Research Senior Staff Research Scientist) |
概要 |
|
略歴
1999.03 鈴鹿高専卒2006.03 名工大博士後期課程了 2008.07 - 2011.07 Toshiba Research Europe Cambridge Research Laboratory 2011.08 - 2018.11 Google UK 2018.12 - Google Japan |
|
11:20- 12:00 | 「種類の異なるメディア情報を対応付けるクロスモーダル情報処理」 大石康智 (NTT コミュニケーション科学基礎研究所 主任研究員) |
概要 |
|
略歴
2009年 名古屋大学大学院情報科学研究科メディア科学専攻博士後期課程修了。博士(情報科学)。同年、日本電信電話株式会社に入社。2014年 株式会社NTTデータに転籍。2017年 NTT コミュニケーション科学基礎研究所に戻り、現在に至る。音声や映像のメディア認識、生成、探索技術に関する研究開発に従事。 |