[mbedbot] microsoftのBing Speech APIで音声認識させてみた

March 20, 2017

googleのAPIが今ひとつだったので、今度はMicrosoftのコグニティブサービスのSPEECH API(今回はFree Trialなので１ヶ月5,000リクエストまで）を試してみました。認識APIを利用するまでの手順をざっと書いておくと、下記のようになります（１、２は最初だけの手続きです。ちなみに、無料お試しの場合、googleの時のようなクレジットカードの登録作業は必要なし。）

マイクロソフトのwebsite(上記のリンク）で会員登録する(verifyまで済ませる）
Bing Speech APIのsubscription（Free)を登録する。これにより、subscription Keyが発行される。
API(issueToken)を叩いてaccess tokenを発行する(おそらく、有効期限は短い（10分くらい？）。切れたら再度発行）
認識APIを叩く（access tokenはヘッダにセットする。wavファイルをそのままボディにセットしてPOSTできる。googleのようにbase64に変換する必要はない）

使ってみた感想ですが、googleよりレスポンスがかなり速いです(２秒の音声の認識が750ms。googleの場合は2.8sかかった。)。また、googleの時は音質が悪いためか、レスポンスが空のことが多かったのですが、microsoftの場合はとにかく何らかの結果を返してくれます。ただ、mbetbotで録音した驚異的に音質の悪いデータだとやはり認識率はかなり低いようです。