OCR処理とは?そのメリットとデメリット

このエントリーをはてなブックマークに追加

スキャナ

電子ブックが普及してから『OCR』という言葉を頻繁に聞くようになりました。
自炊代行業者も「オプション料金 OCR処理1冊100円」のような料金体系の所が多いです。

このページでは、OCR処理とは一体何なのか?
そして、OCRを使った活用法などをご紹介していきたいと思います。

OCRとは?

電子書籍で使われる『OCR』の意味には2つあります。

簡単に言うと「パソコンで文字を認識する技術、またはパソコンで文字を読み取るソフトウェア」という意味になります。
少し技術的な説明をしておくと、OCRはPDFファイルの文字の上や、写真(画像)に描かれている文字の上に透明なテキストを埋め込む技術です。

つまり、私達がPDFファイルや画像を見る分には何も変化はありませんが、OCRによって透明テキストが埋め込まれていることで、パソコンで「文字の検索」ができるようになります。

コンピューターでは通常、PDFファイル内の文字や写真の中の文字は認識できません。
これをパソコンに認識させ、検索対象にするのがOCR処理なのです。

OCRを使ってできること

ファイルにOCR処理をするとこんなことができます。

OCR処理の方法

OCR処理を行うためには、専用のソフトを買うか、業者に委託する方法があります。

自分でやる場合

市販のOCRソフトを買ってきて、自分で処理を行います。
ソフトの相場はおよそ1万円前後ですが、Scansnapなどのスキャナを買うと、OCRソフトのLite版が無料で付属してくる場合もあります。

業界で有名なOCRソフトはパナソニックの「読取革命」です。
エプソン社の「読んde!!ココ」も有名なOCRソフトでしたが、開発終了に伴い、廃盤となってしまいました。

「読取革命」は、日本語解析および英語解析に優れているので、高度なOCR処理が簡単に実現できます。
私は「読取革命」を使っていますが、「テキスト認識 → 透明テキスト埋め込み」の流れで1冊あたり約5分程度でOCR処理が完了します。

読取革命は、ドキュメントスキャナのScansnapとの連携ができるので、最初に設定すると、スキャン終了後、自動的にソフトが立ち上がってOCR作業をやってくれるので、自炊作業がはかどりますよ。
自分で自炊をやってみたい方はこちらをご参考にしてください。

自炊をはじめるのに必要な3つの道具と初期費用

自炊代行業者にやってもらう

自炊代行業者(スキャン代行業者)の多くは、オプションサービスとして「OCR処理」をおこなってくれます。
相場はおよそ1冊あたり100円程度のようですが、中には無料でやってくれる所や、50円でやってくれる業者もあります。

ただし、スキャン代行の基本料金が1冊あたり100円の場合、いろいろなオプションを付けていくと、1冊の電子書籍を作るのに300円とか400円もかかってしまうので要注意です。

無料で使えるサービスも

自らがOCR処理をしなくても、自動的にそれをおこなってくれるサービスがあります。
それが最近流行っている「オンラインストレージ」です。

エバーノート

Evernote(エバーノート)

クラウドを使ったメモ帳ソフト。
通常のメモ帳としてはもちろん、画像やPDFファイルなど、あらゆるファイルを入れられます。
Evernote内に入れたPDFファイルや写真は、自動的にOCR処理が行われ、Evernoteでの検索する時に、ファイルの中身の文字列がヒットします。

しかし、まだまだ発展途上なので、認識精度が甘く実用的ではありません。
最も一般的な使い方は、いただいた名刺をカメラで撮影し、Evernoteにアップロード。

すると名刺に書かれた名前や住所が自動的にOCR処理されるので、Evernote内で検索にヒットします。これで簡単に名刺管理ができるようになるというわけです。

Googleドライブ

Googleドライブ

グーグルが提供しているオンラインストレージサービス。
こちらも先ほどのEvernoteと同様に、Googleドライブの中に放り込んだPDFファイルや画像に自動的にOCR処理が施されます。

処理が施されたファイルは、Googleドライブ内の検索でヒットするようになります。
ただし、日本語のOCR処理にはまだ未対応となっているので、将来に期待です。

私は自分でOCR処理をした電子書籍をGoogleドライブに入れて管理しています。
「ダイエット」と検索すると、ダイエットについて書かれた書籍だけがピックアップされて検索にヒットするので大変便利です。

OCRのデメリット

OCRのデメリットは、ファイルサイズが重くなることです。
透明なテキストを埋め込むわけですから、その分ファイルサイズが大きくなってしまいます。

ですので、自分で自炊するときや、スキャン代行業者に電子書籍化を依頼するときは、『その電子書籍の中身を検索することがあるか?』を考えながらOCR処理をするかどうかを考えるようにしましょう。

個人的な意見としては、検索頻度が多い「辞書」や「実用書」はOCR処理をすると大変便利です。逆に、あまり本の中身まで検索をすることがなさそうな「マンガ」や「小説」はOCR処理をせず、少しでもファイルサイズが小さくなるようにします。

まとめると

読取革命Ver.15 製品版

Amazon.co.jpで最安値を探す

楽天で最安値をさがす

Yahoo!ショッピングで最安値を探す

注:新しく買う場合は「製品版」をお選びください

Kindle Fire HDX
人気4機種の徹底比較
電子書籍横断検索 - イーブックサーチ
Amazon Kindle人気ランキング
株式会社クートン