本Webサイトを使って、音声ファイルをテキスト化(文字起こし)した結果を載せています。 正確さ(精度)、変換スピードなどの参考にしてください。テキスト化の結果を見るには、「結果を見る」リンクボタンを押してください。 2020年時点の文字起こしの結果です。AI(人工知能)の学習が進化すれば、より正確に認識できる場合があります。
WAVファイルのテキスト変換結果です。プロのアナウンサーによるはっきりした声で音質がクリア、かつ日本語が正確あるため、ほぼ正しく認識できています。単語の間違いはあります。 結果を見る
MP3ファイルのテキスト変換結果です。プロのアナウンサーによるはっきりした声で音質がクリア、かつ日本語が正確あるため、ほぼ正しく認識できています。 「コロナ」「ソーシャルディスタンス」など、最近のよく聞く言葉も正しく認識しています。 結果を見る
天気予報やニュースのような正しい日本語で話す音声は、ほぼ正確にテキスト化できます。人工知能は文脈や内容を理解していませんので、誤字に変換することがあります。 結果を見る
マイクに向かって喋っている音声は、概ねそのままテキスト化できます。 変換結果は、文法的にケバと判断できる場合は、ケバ取りを行なっています。 完璧ではありませんので、「あのー」「まあ」などフィラーと呼ばれる「場つなぎ音」もテキストに含まれることがあります。 結果を見る
同時に喋ることが少ないインタビュー形式の2人の会話です。 片方が話しているときは、まずまずの変換結果ですが、同時に話したり笑い声が重なったりすると正しくテキスト化できていません。 また、専門用語や固有名詞は、正しく変換できません。 全体を通して、音声が少し反響しておりクリアでないため、語尾などが正しく認識されないところがあります。 結果を見る
音声はほぼ文字に起こしていますが、文法的に必ずしも正しくない会話の日本語であるため誤字になる部分があります。 結果を見る
ビジネスライクなZoom会議の録音を本サイトサービスで文字起こしした結果です。 雑談やオンライン飲み会のワイワイ、ガヤガヤとした音声はではなく、同時に複数の人がしゃべることが少なく、人に説明する会話の多い音声の文字起こしサンプルです。 一般的な打ち合わせや会議、ミーティングに近い例です。 音声が不確かな部分は、正しく変換されていませんが、概ね意味はわかりますし、会議に出席している人ならば、このテキストを補って理解できるのではないでしょうか。 このテキストを元に、議事録を作成することもできると思います。 文字起こしの結果は、素起こしになりますので、「あのー」「えー」「まあ」などのフィラーや含みます。 音声の長さは55分ありますが、変換処理にかかった時間はわずか19分でした。 結果を見る