Microsoft Build 2019レポート〜【セッション】Cognitive Service における Speech Services と Speaker Recognition 、そして Form Recognizer 〜

はい、サイオステクノロジーの黒坂です。

Microsoft Build 2019 の 2日目は、個人的に気になった Cognitive Service における Speech Services と Speaker Recognition 、そして Form Recognizer、あとは WSL2（Windows Subsystem for Linux 2）の追加情報が無いかと、その周辺のセッションを選択。本記事では、WSL2 以外のところを記載しています。

ちなみに Microsoft イベントの朝と言えばこれ、ゆで卵。昨日は無かったので、強い思いが通じたのでしょう。

1 Form Recognizer（ Announcing Form Recognizer: Create real value in your business by automating extraction of text, key value pairs and tables from forms, and easily customizing state of the art AI ）
2 Speech Services と Speaker Recognition（ What’s new in Speech Services and how to utilize them to build speech0enabled scenarios and solutions ）

Form Recognizer（ Announcing Form Recognizer: Create real value in your business by automating extraction of text, key value pairs and tables from forms, and easily customizing state of the art AI ）

Form Recognizer は機械学習を使用し、読み取ったフォーム文書（例えば請求書やレシートなど）から、キーと値を抽出するサービスとなります。まあ、それだけと言えばそれだけなのですが。こんな感じです。

※Microsoft の form-recognizer ページから抜粋（左が元データで右が抽出したキーと値、かつ、JSON形式での表示も可能）

これが今時のRPAなどに対し、結構役に立ちそうです。社内にフォームが多すぎて困っているとか、システムへの手動入力が煩わしくてなど。JSON形式で扱えるので、連携自由。ちなみに元データはJPG、PNG、またはPDF形式で、4MB未満など、多少の制限はあったりします。

事例としてRPA のプロフェショナル企業の UiPath 社の方が、彼らのソリューション（ロボット）により自動的にフォームをディスカバリーさせ、Form Recognizer で分析、それをもって人間が改善（Human in the loop：人間が参加する形での機械学習）、大量に存在したフォームを5つまでに減らすことが出来た！というような話をしていました。

旧 Vision OCR （でした？）日本語の認識など微妙だった記憶がありますが、その辺りは改善されているものと信じ、お試ししてみようとしましたが、現時点では PREVIEW ということで、Web からの申込が必要なサービスとなっています。とりあえず、2週間以内には返事するから！というメールは来ました。待ってみましょう。

詳細というか、解説はこちらがわかりやすいのでご覧ください。
https://azure.microsoft.com/ja-jp/services/cognitive-services/form-recognizer/

Speech Services と Speaker Recognition（ What’s new in Speech Services and how to utilize them to build speech0enabled scenarios and solutions ）

こちらも旧来の Cognitive Service のころに同様なサービスとしてありましたが、機能を整理、リブランディングをしたという感じでしょうか。上の Form Recognizer 同様に、単独ではシンプルな機能しか提供できないようなものですが、何かしらのアプリケーションと連携させたり、拡張するための外部機能としては非常に面白いです。

機能的にはテキストを音声に、音声をテキストにといったものですが、音声合成に関しても機械学習により相当に高度化しており、「人間の自然な声」＞「今時の音声合成」＞「昔の音声合成」となるかと思いきや、「今時の音声合成」＞「人間の自然な声」＞「昔の音声合成」と、こんな感じにも感じました。（ここでの「今時の音声合成」とは、本サービスで提供される「機械学習等の成果により、Neural TTS として自然な抑揚と明瞭な発音を実現した音声」のことを意味しています）

セッション中も、会場に対し、どちらが人間の声で、どちらがNeural TTS の声か？のクイズが出されましたが、みな騙されてしまいました。個々の人間の発音といったものがどれだけ理想に程遠いのか思い知らされました(笑)

今後の AI、Bot との対話においては、単に求める会話を行えるというだけでなく、的確で話者にストレスをかけない発音を実現するという目的は重要となっていくとのこと。そのためのソフトウェアとしての進化も大きく進んでいきそうです。

ちなみに、現時点では英語（米）、中国語、ドイツ語、イタリア語まではこのNeural TTS が提供され、日本語はこれからとなります。通常（Standard）の音声合成は用意されていますが、やっぱりどう聞いても外国人が日本語をしゃべっている以下の発音と抑揚です。

基調講演でデモが行われた「Speaker Recognition（話者を認識して発言をテキストにおこす）」についても、各種説明あり。SDKも公開されており、こちらも AI を利用したアプリケーションの一部の機能としては重宝出来そうなものであります。詳しくは下記の解説がわかりやすいです。
https://azure.microsoft.com/ja-jp/services/cognitive-services/speaker-recognition/

現時点でプレビューですが、無料で利用可能なので Azure アカウントがある方は是非に。

ご覧いただきありがとうございます！この投稿はお役に立ちましたか？

役に立った役に立たなかった

1人がこの投稿は役に立ったと言っています。