[mbedbot] microsoftのBing Speech APIで音声認識させてみた

March 20, 2017

googleのAPIが今ひとつだったので、今度はMicrosoftのコグニティブサービスのSPEECH API(今回はFree Trialなので1ヶ月5,000リクエストまで)を試してみました。認識APIを利用するまでの手順をざっと書いておくと、下記のようになります(1、2は最初だけの手続きです。ちなみに、無料お試しの場合、googleの時のようなクレジットカードの登録作業は必要なし。)

  1. マイクロソフトのwebsite(上記のリンク)で会員登録する(verifyまで済ませる)
  2. Bing Speech APIのsubscription(Free)を登録する。これにより、subscription Keyが発行される。
  3. API(issueToken)を叩いてaccess tokenを発行する(おそらく、有効期限は短い(10分くらい?)。切れたら再度発行)
  4. 認識APIを叩く(access tokenはヘッダにセットする。wavファイルをそのままボディにセットしてPOSTできる。googleのようにbase64に変換する必要はない)
使ってみた感想ですが、googleよりレスポンスがかなり速いです(2秒の音声の認識が750ms。googleの場合は2.8sかかった。)。また、googleの時は音質が悪いためか、レスポンスが空のことが多かったのですが、microsoftの場合はとにかく何らかの結果を返してくれます。ただ、mbetbotで録音した驚異的に音質の悪いデータだとやはり認識率はかなり低いようです。