本Webサイトを使って、音声ファイルをテキスト化(文字起こし)した結果を載せています。 正確さ(精度)、変換スピードなどの参考にしてください。テキスト化の結果を見るには、「結果を見る」リンクボタンを押してください。 2020年時点の音声テキスト変換の結果です。AI(人工知能)の学習が進化すれば、より正確に認識できる場合があります。
WAVファイルのテキスト変換結果です。プロのアナウンサーによるはっきりした声で音質がクリア、かつ日本語が正確あるため、ほぼ正しく認識できています。単語の間違いはあります。 結果を見る
MP3ファイルのテキスト変換結果です。プロのアナウンサーによるはっきりした声で音質がクリア、かつ日本語が正確あるため、ほぼ正しく認識できています。 「コロナ」「ソーシャルディスタンス」など、最近のよく聞く言葉も正しく認識しています。 結果を見る
マイクに向かって喋っている音声は、比較的正確にテキスト化できます。 変換結果は、いわゆる「素起こし」状態であり、音声をそのまますべて文字にしています。 そのため、「あのー」「まあ」などフィラーと呼ばれる「場つなぎ音」もテキストに含まれます。 結果を見る
同時に喋ることが少ないインタビュー形式の2人の会話です。 片方が話しているときは、まずまずの変換結果ですが、同時に話したり笑い声が重なったりすると正しくテキスト化できていません。また、専門用語や固有名詞は、正しく変換できません。全体を通して、音声が少し反響しておりクリアでないため、語尾などが正しく認識されないところがあります。 結果を見る
声質の似ている男性芸能人4人の雑談の結果です。 同時に喋ったとき、AIは各個人の発話を聞き分けられていません。雑談であり文章が途切れ途切れの砕けた日本語であるため、変換も正確ではありません。精度は低くなります。 音声は1時間23分ありますが、変換時間は19分で完了しました。 結果を見る