本サイトの 文字起こし(音声→テキスト変換) サービス は、音声認識AIによる変換です。文字起こし作業が「テープ起こし」とも呼ばれるように、従来は人がカセットテープを再生、巻き戻しを繰り返し、人力によって文章を作成していました。現在、カセットテープは、ICレコーダーによって置き換わりましたが、人力作業による文字起こし作業は健在です。
本ページでは、人力による文字起こしと当サイトの文字起こしについて、価格・納期・品質(正確さ)について定量的にどれくらいの差があるか比較しました。当サイトで文字起こし時間を購入する際に、判断の参考にしてください。
2020年12月現在で、人力作業による文字起こし作業を請け負っている業者のホームページを参照すると、価格は1分あたり200円ぐらいが相場のようです。 下表は、標準価格であり通常納期より早い納期を要求する場合は、1.5倍~2倍になるようです。
料金 | 1分あたり | |
---|---|---|
A社 | ¥18,000(税別)/時間 | 300円 |
B社 | 1文字1円≒16,000~18,000文字/時間 | 300円 |
C社 | 200円~250円 |
一方、本サイトの1分あたりの価格は、8円です。文字数の制限はありません。25倍以上の価格差があります。
人力作業による文字起こし作業を請け負っている業者のホームページを参照すると、下表のような納期が標準でした。 マンパワーによる作業であるため、依頼した音声データの録音時間が長ければ、納期はさらに遅くなります。
納期 | |
---|---|
A社 | 4営業日 |
B社 | データ受け取り後2日 |
C社 | 7日~3日 |
一方、本サイトの納期は、録音時間のおよそ8分の1の時間です。60分の音声データならば、7~8分程度です。もはや、納期という言葉が当てはまりませんが、コーヒーでも飲んで休憩したら終わっている感覚です。納期2日=7200分とすると、1000倍程度早い計算となります。
人力作業による文字起こしは、発言の中の「えー」や「まあ」などの無駄な部分も省略した文章になり(ケバ取り)、人が意味を理解し文章を組み立てるため、意味が通じる正しい文章(整文)になります。
一方、本サイトの文字起こし結果は、「素起こし」状態であり、音声をそのまますべて文字にしています。よって、相づちや言い間違いも含みます。 2020年12月現在のAIは、人間のように意味を汲み取って文章を補ったり、無駄な部分を省略したりできません。また、入力された音声ファイルの音質、発話の正確さ、専門用語の量などによって精度が変わります。 本サイトで変換した結果の サンプルページを用意していますので、そちらを参考にしてください。
2020年12月現在、精度(正確さ)においては、音声認識AIは、まだまだ人間には及ばないということになります。
音声認識AIの価格と納期(スピード)は、人間より圧倒的に有利ですので、それを活かして不得手な精度のみを人間系で補うハイブリッド方式が、現時点の最も有効な使い方だと考えます。 以下のような使い方が、賢い使い方だと思います。
人力の文字起こし作業で時間がかかる部分のひとつは、音声を聞いて文字を起こす前半作業です。 人間ならば、60分の音声を文字に書き起こすのに60分では完了しません。何度も聞き直し、打ち込む作業が必要となりますので、軽く2時間以上はかかるのではないでしょうか。 これを音声認識AIに肩代わりさせることで、大幅な効率アップが期待できます。
上記と同様に、議事録を作成するときの元ネタ作成を音声認識AIにやってもらいます。
一般的な、日時、場所、参加者、議題、決定事項などが、決められたフォーマットで記載された議事録を作成するのには、手間と時間がかかります。 しかし、音声認識AIならば、音声や動画データを素早くテキスト化できます。 音声をパソコンで検索することは容易ではありませんが、テキストになっていれば簡単に検索できます。 とりあえず、打ち合わせ内容などを文章として記録を残せば、いつでも内容を検索できる軽い議事メモとして利用できます。 関係者さえ分かれば良い内容で、議事録をイチイチ作るのは時間がない場合、当サイトの文字起こしの結果が役に立つのではないでしょうか。
ブログ記事を継続的に書き続けるのは、苦労が多いと聞きます。ネタ集めもその一つですが、動画やテレビの内容を元に記事を書く際に、当サイトを使って動画の内容をいったん文章にすれば、短時間に多くのヒントが得られるのではないでしょうか。他人の記事を盗用したら罪ですが、当サイトのテキスト変換結果を元に文章を作れば、オリジナルの文章ができあがると思います。