AI OCRとは?サービスや注意点を紹介
「AI OCR」という言葉をメディアで目にしたことや聞いたことはありますか?書籍や書類を電子化した際にテキストデータが読めるように行うOCRにAIを組み合わせたものがAI OCRと呼ばれています。
本記事ではこのAI OCRの概要から代表的なサービス、AI OCRを使用する上で注意しなければならないことを中心に説明します。
目次
AI OCRとは
AI OCRとは具体的にどのような製品なのでしょうか?この章では既存のOCRとの違いや使用されている技術、AI OCRを使用するメリットについて説明します。
OCRのおさらい
AI OCRを知る前にまずOCRについておさらいしましょう。 OCRとは「Optical Character Recognition(光学文字認識)」の略称であり、紙媒体から取り込んだ情報をコンピュータが使うことのできる文字コードに変換して出力する技術を指します。
OCRは100年近く前から研究されている分野で、日本でも1968年に手書きの郵便番号読み取りに活用されるなど50年以上前から使用されています。OCRというと最近の技術のように感じてしまいますが、実は古い歴史を持つ技術なのです。
2019年現在では電子書籍界隈やビジネスの場だけではなく、EvernoteやGoogleドライブといった多くの人が利用するオンラインノートアプリやオンラインストレージの機能としても搭載されるほどOCRは身近な存在になっています。意図せずとも触ったことがある方もいるのではないでしょうか。OCRは特別な存在ではないのです。
以上、従来の一般的なOCR処理についてはこちらのページで詳しく解説しています。
OCRとAI OCRの違い
OCRとAI OCRの違いで一番大きな点は人工知能を使われているかどうか。AI OCRはその名前の通り、AI(人工知能)が機能に組み込まれています。
2019年現在のOCRは優秀な識字率を誇りますが、日本語はひらがな・カタカナ・漢字と文字の種類も多いため100%にはならず、必ず誤認識を起こします。
識字の精度は辞書となるOCRエンジンの性能に依存するため、識字率を向上させるにはOCRエンジン自体のバージョンアップが必要です。当然、バージョンアップには金銭や労力などのコストがかかります。AIを搭載することでこの問題を解決したものがAI OCRです。
AI OCRは後述するディープラーニング技術により、書籍や資料などドキュメントから文字の読み取り処理を実行するたびに学習するため、OCRサービスを提供しているメーカーが意図的にOCRエンジンをバージョンアップすることなく識字率を向上させることができます。文字を読み取れば読み取るほどデータが集約されて識字精度が高まるという特長を持ったAI OCRは、OCRの研究が開始された100年以上前から今日まで続く識字率の問題を大きく改善する可能性を秘めたプロダクトなのです。
AI OCRは能力の全てにおいてOCRの上位互換版と考えて問題はないでしょう。ただ、高性能な分、利用料が100万円台になるなど非常に高額になっています。
AI OCRで使用されているディープラーニング技術とは
AI OCRではディープラーニングという技術が使用されています。ディープラーニングとは深層学習とも呼ばれる機械学習の一つで、人の脳神経回路を真似ることにより実現されたニューラルネットワークによってコンピュータ自体が与えられたデータに含まれる特徴をとらえて自動的に学習する方法。
ディープラーニングは2012年頃から活発になった研究分野で2019年現在ではOCRだけではなく、自動運転やヘルスケア、セキュリティなど非常に広い範囲で利用されています。また、Facebookがユーザーによりアップされた画像の判別にディープラーニングを使用していることは有名です。
OCRは手書き文字の識字が特に苦手とされていましたが、ディープラーニングによってその常識を覆されました。かねてよりディープラーニングに基づく手書き文字(日本語)認識技術の開発プロジェクトを進めていた株式会社EduLabは、2016年に認識率98.66%を達成したことについて報告しています。
2019年現在、リリースされているAI OCRサービスには手書き文字の読み取りに対応している製品は多く、どれもが株式会社EduLabが発表した認識率に近い値を示しています。
AI OCRのメリット
AI OCRはAIを搭載することにより旧来のOCRにあった弱点を克服しています。この章ではAI OCRを使用するメリットを紹介します。
識字精度を継続的に向上させることができる
AI OCRは書籍や書類などのドキュメントから文字情報を読み取っているだけで、搭載されているAIがディープラーニングを通して識字学習を継続的に行い、精度を向上させることが可能です。特殊なデータも必要なく、日常的な業務にAI OCRを使用するだけでAIが自分の力でレベルアップしてくれるため非常に使い勝手が良く、業務効率の改善に役立ちます。
手書き文字に対応
従来のOCRだと伝票のように1文字ずつ枠が区切られている用紙に書かないと手書き文字を認識することが難しいという点がありましたが、AI OCRではAIが自己学習を行うため、特に枠などを用意していないフリーフォーマットに書いても認識することが可能です。
特に難しいとされていた文字と文字によるつなぎ目や乱筆文字などに対してもきちんと読み取ることができるようになっています。
非定型帳票に対応
OCRソフトで帳票を読み取る場合は、各フィールドにあらかじめ氏名や住所といった「ここに記載されている情報が何なのか」という情報を設定しておく必要がありましたが、AI OCRではAIが自動で読み取って解釈してくれます。そのため、注文書や見積書、請求書といったさまざまな帳票に対して自動的に対応することが可能になりました。
RPAと連携することで作業効率を向上
RPAとは「Robotic Process Automation/ロボティック・プロセス・オートメーション」の略でデスクワークの定型作業などに対してAIを使用して自動化することを指します。
具体的にはRPAツールにキーワードを与えてGoogle MAPを検索させ、表示された結果を撮影して書類に貼り付けるといった作業や、帳票を読み込ませて特定の文字が入っていたらアラートを上げさせるといったオペレーションが実際に実行されています。
AI OCRはRPAと強い連携力を持っているため、OCR処理を施してデータ化した内容をRPAツールに渡して機械的にCSV化するなど業務を効率的に進めることが可能になります。
AI OCRの代表的なサービス
前章まで読んでいただくことでAI OCRのすごさや有能さが理解できたと思います。では、AI OCRを使用したサービスにはどのようなものがあるのでしょうか?
AI inside社/DX Suite
DX SuiteはOCRの設定は難しいという概念を覆した、誰でも簡単に使えるAI OCRソリューションとして有名な製品です。AIの特長であるディープラーニングを使用した学習機能による継続的な識字精度向上はもちろん、帳票の仕分けもAIが担当してくれるため、業務工数を削減することができます。
DX Suiteは大量のデータを処理することに長けており、自動でスケーリングしつつ次々とOCR処理をかけることが可能としています。RPAツールである「WinActor」と連携しての運用を考えられて作られたため、オフィスの作業効率化に役立つと評判です。
金融法人やBPO業界といった高いセキュリティや高品質さを求められる領域で多数運用されているため、実績も十分。安心して導入することができます。
インフォディオ社/スマートOCR
スマートOCRはAI OCRとRPAの両方の機能を併せ持っている製品。AI OCR面ではディープラーニングを使用した文字認識エンジンとノイズ除去エンジンを搭載している点が特長。特にノイズ除去エンジンが強力で文書画像の影や歪み、網掛け文字処理、反転文字処理、塗りつぶし文字処理、罫線処理文字など識字を行う上でノイズとなるこれらの障害を学習して自動で除去することを可能にしています。
また、スマートOCRは特定のPCにインストールする必要がなく、ブラウザで操作できるように作られているため、誰でも簡単に扱えます。
インフォディオ社は親会社に保険代理店であるアイリックコーポレーションを持っているため、保険代理店業界の業務フローに精通していることで評判。保険関連を扱う会社でAI OCRの導入を検討している場合はベストマッチと言われています。
ネットスマイル社/AIスキャンロボ
従来のOCRは読み取れる範囲が座標で決まっていて範囲外の文字は読み取ることができませんでしたが、AIスキャンロボは「オートセグメンテーション機能」によって読み取り範囲を自動で調整して読み取ることが可能。
また、読み取りたいドキュメントを選ぶだけで最適なテンプレートをAIが自動で選んでくれる「テンプレート自動識別機能」を搭載しているため、取引先から送られてきた見積書や請求書などをスキャンしていくだけでOCR処理を行うことができます。
3枚綴りで構築されている請求書など2ページ以上にわたる帳票もAIが判別して読み取ってくれるため、WinActorなどRPAソフトとの連携機能もバッチリです。
コージェントラボ社/Tegaki
AI OCRだからこそできる手書きの読み取りに特化した性能を持っているのがTegaki。手書き文字の認識率99.22%を記録した研究を元に作られているため、データ入力を効率化してコストの削減を実現しています。
Tegaki独自のアルゴリズムを搭載したAIによってひらがなやカタカナ、漢字、数字、アルファベット、記号など多くの手書き文字を認識できるように設計されており、オーダーがあればトレーニングデータを用意して多言語や業界専門用語にも対応可能。
フリーフォームや非定型とも呼ばれるマルチラインに対応しているため、様々なフォーマットに対して柔軟に対応することができます。
日本たばこ産業株式会社(JT)が導入していることで有名で、同社はTegakiのことを「1時間くらいで操作を覚えられるように作られていて嬉しい」とコメントしています。
ABBYY社/FlexiCapture
FlexiCaptureはグローバルに活動しているABBYY社が開発したAI OCR。日本ではなく海外製ということもあって198の言語に対応しており、複数言語が混在している場合でも高精度で文章を読み取ることができます。
多言語と大量のドキュメントを扱う業務に向けて作られていて、1日に100万以上の文書を処理することを可能としています。
最先端テクノロジーが使われているため文書分析機能に長けており、読み取り難易度の高いテキストや複雑なレイアウトでもしっかりテキストへ変換することができます。
NTT東日本/AIよみと~る
NTT東日本が提供しているAIよみと?るは、AI OCRの中でも手書き帳票の読み取りに特化したサービスです。
社内でITに詳しい人材がいなくても使いこなせることを念頭に開発されており、読み取る範囲はマウスドラッグで選択するだけという直感的でわかりやすい操作性を実現しています。
2万文字を超える実験で評価された読取精度は96.71%と驚きの高さを誇り、くせ字や枠はみだし、訂正印、複数行、黒く塗りつぶされた手書き訂正など読み取りづらい環境下にある文字でもしっかりと識字可能であることを実証済み。
また、AIよみと?るをRPAと連携して使うことで稼働時間を61.69%削減できるとトライアル結果をアナウンスしています。
ユニメディア社/LAQOOT(ラクート)
LAQOOTは申込書や注文書、アンケート用紙といった紙媒体による帳票のデータ化に特化してあるサービスです。LAQOOTはAI OCRサービスと異なり、AIによるデータ化を行ってからユニメディア社作業員(クラウドワーカー)が目視確認をしてくれるところまでセットでサービスを提供しています。
ブラウザベースのサービスのため、システムに強いエンジニアがいなくても簡単で操作できるように作られているところもポイントです。
AI OCRの注意点
AI OCRの精度は従来のOCRに比べて高精度ですが、それでも100%正確なテキストデータを作成するのは至難の業です。『精度』の観点ではまだ人の目による校正が必要で、特に書籍の損傷が激しく文字のかすれや日焼けによる痛みがある場合や癖の激しい手書き文字で書かれているケースは目視による修正が絶対に必要となります。
株式会社誠勝が提供している資料をテキスト化するサービス「そのままテキスト化」では、一つの案件に作業者3名と効率化されたベリファイシステムを併用することにより、OCR処理後に精度99.96%以上のテキスト化を実現。。最高精度のプランでは、何と99.99%までテキストの精度を高めることができます。
業務システムと人間の作業を組み合わせることによって徹底的な効率化を実現しており、多くの作業者が同時作業することによって短納期・低価格でテキスト化サービスを提供しています。
詳しくはこちらのページをご覧ください。
まとめ
OCRの歴史は古く、2019年現在から約100年以上前に研究がスタートし、約50年前には日本でも郵便業務の一環で使用されていました。今ではビジネスだけではなく、スマホアプリにもOCR機能が搭載されているため非常に身近な存在です。
AI OCRを簡単に表現するとOCRにAIを搭載した強化型であり、その最大の魅力はディープラーニングを使用した自己学習機能と言えるでしょう。文字を読み込ませるだけで自動的に学習して識字精度を向上させてくれるため、業務でAI OCRを使用しているだけで効率化に貢献できます。
また、AI OCRとRPAの親和性の高さも注目すべき点です。この二つが連携することにより、業務を自動化させて効率性を上げることが可能になるところは忘れてはいけないでしょう。
2019年現在のAI OCRでは、残念ながらまだ機械の力だけで完全なテキストデータを作成することはできず、必ず人の目による修正が求められます。しかし、AIに関する研究は盛んに行われているため、よりAIが高度に発達していくことは想像に難くありません。OCRの分野でもAIだけで100%の識字を達成する将来はそう遠くもないでしょう。AI OCRは電子書籍に関連するテクノロジーの中でも非常に今後が楽しみな分野と言えるのではないでしょうか。
コストパフォーマンスで選ばれる高精度OCR処理サービス
- 本を裁断せずにスキャニング
- 精度99.96%のテキスト化処理を1ページ150円から
- 国立研究機関や大学様からの実績多数
- 効率化された作業フローで短納期のご相談にも対応可能