音声ファイルをテキストに変換！「Speech to Text」

Watson Speech to Text is an API that transcribes speech to text in a variety of languages. It’s available as SaaS or for self-hosting.

今回紹介するウェブツールは「Speech to Text」です。

マイクで話した音声、録音した音声ファイルを入力して、瞬時に画面にテキストを表示してくれる便利ツールです。

1 speech to text
- 1.1 マイクの音声をテキスト化してみた！
- 1.2 音声ファイルをテキストに変換してみた！
  - 1.2.1 他のソフトとの比較
2 使用制限
- - 2.0.1 まとめ

speech to text

英語のページですが操作が単純なので簡単に使用できます。

サイト内の説明をGoogle翻訳で翻訳させて頂きました。

音声をテキストに変換

IBM Watson Speech to Textサービスは、アラビア語、英語、スペイン語、フランス語、ブラジル・ポルトガル語、日本語および中国語の音声をテキストに変換する音声認識機能を使用します。

マイクを使用してオーディオを録音します。

事前録音されたオーディオをアップロードします（.wav、.flac、または.opusのみ）

翻訳した内容からもわかるとおり、マイク音声と音声ファイルのテキスト化ができます。

各ボタンの説明です。

まず、日本語に変換するためには、Voice ModelをJapanese broadband model(16KHz)に変更します。
遅い回線を使用している場合は、Japanese narrowband model(8KHz)を選択します。

Detect multiple speakersは声の出している人を判別して欲しい時にチェックを入れましょう。

Record Audioは、マイクからの音声をテキスト化します。

Upload Audio Fileは、録音したファイルを読み込ませてテキスト化することが可能です。

マイクの音声をテキスト化してみた！

Detect multiple speakersのチェックを外すと、かなり速いスピードで話してもテキスト化されます。しかも、文脈を理解したり、他に良くある言葉の並びを知っているかの様にテキスト化されます。

音声を拾い解析しながら、声を発したらすぐにテキストが出てきて、後に続く言葉を理解しながら、漢字を当てはめていくという、とても高度なツールです。

音声ファイルをテキストに変換してみた！

こちらのツールを使ってみた感想としてはかなり精度が高いものでした。

音声ファイルの種類は、（.wav、.flac、または.opus）のみです。これ以外の音声ファイルや動画などは、wavファイルに変換する必要があります。

YouTube

作成した動画を友だち、家族、世界中の人たちと共有

１分間だけ音声化してみました。

声を出している人の判別をしながら翻訳

Speaker 0:
では関東の天気は小野さんですはい亀山さんはいを朝から。
Speaker 1:
日本の情報が出されましたブーム。
Speaker 0:
関東では記録的な手法と。
Speaker 1:
なっているんです。
Speaker 0:
まだこの先は。
Speaker 1:
必見します。
Speaker 0:
目先書簡は雨が降る日が多くなりそうです。
Speaker 1:
返事かも。
Speaker 0:
花の雨じゃあ。
Speaker 1:
ないんですね。
Speaker 1:
この。
Speaker 0:
周辺タイプと思う…タイプ。
Speaker 1:
二つの振り方にばかりそうなんです。
Speaker 0:
の急変タイプというのは短い時間ではあるんですけれども。
Speaker 1:
売ればさっとライブに。
Speaker 0:
抗てんかん薬は。
Speaker 1:
大雨で強い風も伴いそうなんです。
Speaker 0:
ではこの先どうなるのかというとこの日付が上に行けば。
Speaker 1:
急変だいぶ下に行けば好転タイプということになります。
Speaker 0:
まず明日は。
Speaker 1:
問題なく晴れそうですね。
Speaker 0:
心配なのがその先で。
Speaker 1:
日本なってしまいそうなんです。
Speaker 0:
火曜日水曜日木曜日は。
Speaker 1:
急変タイプで。
Speaker 0:
金曜日は好転タイプとなってしまいそうなので。

一括テキスト化

では関東の天気は小野さんですはい亀山さんはいを朝から日本の情報が出されましたブーム関東では記録的な手法となっているんですまだこの先は必見します目先書簡は雨が降る日が多くなりそうです返事かも花の雨じゃあないんですね。この周辺タイプと思う…タイプ2つの振り方にばかりそうなんですの急変タイプというのは短い時間ではあるんですけれども売ればさっとライブに。抗てんかん薬は大雨で強い風も伴いそうなんです。ではこの先どうなるのかというとこの日付が上に行けば急変だいぶ下に行けば好転タイプということになります。まず明日は問題なく晴れそうですね心配なのがその先で日本なってしまいそうなんです。火曜日水曜日木曜日は急変タイプで金曜日は好転タイプとなってしまいそうなので。

そこそこ誤字はありますが、簡単な修正をするだけで結構使えるレベルのテキスト化能力があります。

他のソフトとの比較

マイクから音声に変換するツールは結構ありますが、音声ファイルをテキスト化させるツールは結構少ないです。

https://matome.naver.jp/odai/2149204812164038301

Naverまとめに前にまとめたものです。有料ツールを含めて

・ドラゴンスピーチ
・AmiVoice（体験版あり）
・Voice Rep PRO2

などがあります。体験版を使ってみた結果「Speecht to Text」の方が正確にテキスト化が出来ていました。

使用制限

デモ版なので１時間程使っていたらログインを求められました。これ以上使いたい方は、以下のサイトでメール登録をして利用する必要があります。

IBM Watson Speech to Text

Watson Speech to Text is an API that transcribes speech to text in a variety of languages. It’s available as SaaS or for self-hosting.

実際メール登録をしてみると使用制限が解除して使えるようになりました。

料金はページの下の方に書かれております。

毎月最初の1,000分は無料です。追加の時間は1分当たり$0.02です。

月に１０００分以上使うと課金する仕組みなのか、今の所１０００分も使えてないのでレビューできませんが、継続使用していくつもりなので今後詳細を書きます。

書いてある通りなら、無料メールでアカウント取得すれば毎月１０００分は無料使用できると思います。

まとめ

音声をテキスト化するツールがここまで正確に変換している事に驚きました。
文書を作るときや、議事録を作るときなどこれから様々な場面で利用できそうな感じがします。
本を綺麗に朗読して間違いなく変換される様に繰り返し練習すれば、発声練習にも使えそうな良いツールです。

大川　紀男より:

2018年5月31日 1:54 PM

ますますご隆昌のこととお喜び申し上げます。「音声ファイルのテキスト化」で検索するうちにこのサイトを拝見し、とても参考になりました。ご努力に感謝いたします。
ただ、肝心の「IBM Watson Speech to Text」をダウンロード＆インストールしたいと考え、このサイトからそれを試みましたが、どうやってもうまく行きません。
つきましては、①その手順を再度、ご教示いただけますようお願いいたします。
それと、②このサイトには「MP3もサポートしている」と書かれていますが、デモ版において実際にMP3のファイルをアップロードすると、「Sorry, that file does not appear to be compatible.」と表示されるのはなぜなのでしょうか。
それ以前に、③ファイルをアップロードしたら次はどのボタンを押せばよいのでしょうか。
以上、3点についてご助言いただければ幸甚です。ご多忙のなかまことに申し訳ありませんが、何とぞよろしくお願いいたします。
末筆ではございますが、貴サイトのますますのご発展をお祈り申し上げます。

返信