音声→テキスト変換結果サンプル一覧

本Webサイトを使って、音声ファイルをテキスト化(文字起こし)した結果を載せています。 正確さ(精度)、変換スピードなどの参考にしてください。テキスト化の結果を見るには、「結果を見る」リンクボタンを押してください。 2020年時点の音声テキスト変換の結果です。AI(人工知能)の学習が進化すれば、より正確に認識できる場合があります。

アナウンス音声(WAV)の場合(ほぼ完璧です)

WAVファイルのテキスト変換結果です。プロのアナウンサーによるはっきりした声で音質がクリア、かつ日本語が正確あるため、ほぼ正しく認識できています。 結果を見る

アナウンス音声(MP3)の場合(ほぼ完璧です)

MP3ファイルのテキスト変換結果です。プロのアナウンサーによるはっきりした声で音質がクリア、かつ日本語が正確あるため、ほぼ正しく認識できています。 「コロナ」「ソーシャルディスタンス」など、最近のよく聞く言葉も正しく認識しています。 結果を見る

マイクに向かって話した音声の場合

マイクに向かって喋っている音声は、比較的正確にテキスト化できます。 変換結果は、いわゆる「素起こし」状態であり、音声をそのまますべて文字にしています。 そのため、「あのー」「まあ」などフィラーと呼ばれる「場つなぎ音」もテキストに含まれます。 結果を見る

交代で話すインタビュー形式の例

同時に喋ることが少ないインタビュー形式の2人の会話です。 片方が話しているときは、まずまずの変換結果ですが、同時に話したり笑い声が重なったりすると正しくテキスト化できていません。また、専門用語や固有名詞は、正しく変換できません。全体を通して、音声が少し反響しておりクリアでないため、語尾などが正しく認識されないところがあります。 結果を見る

複数人の雑談の例(精度は低くなります)

声質の似ている男性芸能人4人の雑談の結果です。 同時に喋ったとき、AIは各個人の発話を聞き分けられていません。雑談であるため文章が途切れ途切れであり日本語が正確でないため、変換も正確ではありません。精度は低くなります。 音声は1時間23分ありますが、変換時間は19分で完了しました。 結果を見る