【年金入力ミス】テキスト化は誤認識が出る。だから人の手を

2018.03.27

思わぬ形でテキスト化が話題になっていますね。

●ニフティニュース:「まさかスキャナーで…」年金機構甘いチェック

今回日本年金機構が管理するデータで100万人近い情報にミスが発生したのは、テキストを読み取る機械の誤認識が原因でした。この『機械』は当ブログでもお馴染み、OCRソフトのことを指していると思われます。

<そのままスキャンHP
そのままスキャンへ

電子書籍化やテキスト化に関わっている者からすると、これはあまりにいい加減でため息が出る事件です。

OCRについて

OCRについて

今回年金機構がデータ入力を委託したSAY企画は本来の方法(2人で手入力)ではなく、OCRで紙のテキストを読み取るという手法を取っていました。人件費も時間もかからない安上がりな方法ではありますが、そもそもこの方法は大変危険です。

改めてOCRの仕組みを説明すると、通常スキャナーで読み取った書籍や紙などに掲載されたコンテンツは『画像』として機械に認識されており、どれだけ高い解像度で読み取ったとしてもそこに写る文章や情報をコピペしたり編集したりすることは出来ません。あくまで画像に写る『モノ』の一つです。

この不便さを解決したのが光学的文字認識、通称OCRと呼ばれる技術で、基本的にOCRを搭載したソフトウェアを使うことで画像に載っているテキスト部分を読み取り、私たちが普段Wordやメールで使っているような文字情報としてデバイスに認識させることが可能となるのです。

なんとも素晴らしい技術ですが、完ぺきではないという点は以前お話した通り。

関連: OCRってなに?ペーパーレス時代の主役とは

つまり、読み取るテキスト情報は100%正確ではないということです。

OCRの精度は?

OCRは便利だけど…

機械が読み取るんだから相当正確なんだろうと思われがちですが、そのままスキャンでは最大95%程度の精度だと説明させていただいております(書籍の状態やコンテンツによって大きく変動します)。

つまり10万文字あったら5,000字間違える計算です。もっとも、用途によってはこれで十分な時もあります。

例えば、スキャンした電子書籍に検索機能を付けたい際はこの95%でも大きな問題はありません。通常何かを検索する時はキーワードを入力することが多いと思いますが、単にOCRソフトが読み取っただけのデータでも単語そのものは正常に認識されている事が多く、仮に精度が100%でなくとも検索用途に大きな影響は出ないからです。

そのままスキャンではこの『ソフトで読み取るだけ』のOCRサービスを『自動認識OCR』と呼んでおり、4つあるOCRサービスのうち最も精度が低く、但しお手頃な価格でテキスト化出来るコンテンツとして提供させていただいております。

しかしこの精度では困るという方の為に、残り三つでは同じく誤認識のありがちな文章レイアウトの調整、レイアウトやテキストの誤認識の校正・修正、さらにWチェックの段階を設けるといった人の手を入れることで99.9%以上の完璧に近い精度のデータを実現しています。
※詳しくは弊社OCRサービスのページをご覧ください。

ちょっと話が逸れましたが、とにかくOCRソフトの認識精度は完ぺきではなく、どうしても間違えられないなら何重にもチェッカー、すなわち人の手を入れるべきなのです。まして個人情報や支払いに関わる絶対に正確なデータが必要なら機械任せなど考えられません。これはそのままスキャンに限らず、スキャニング業界の者にとっては当たり前過ぎる認識です。

恐らくSAY企画の担当者もこの点は認識していたと思いますが、契約や情報の正確さよりも利益率を優先したのでしょう。

確実性を求めるならテキスト化に人の手を

校正作業

多くのスキャニング業者がしっかりとOCRのメリット・デメリットをお客様に説明している中、本当に残念な事件です。

OCRソフト自体は先にも述べた通り素晴らしい技術で、精度が完璧ではないとはいえ開発したエンジニアの方々には敬服するばかりです。

今回問題となった業者はOCRに頼り切ってしまいましたが、大事なのは上手く使うこと。OCRの長短を知り尽くした者、OCRの誤認識をしっかり修正できる人の手が入ることで初めて『スキャニングサービス』と呼ぶことが出来るんじゃないでしょうか。

他人事と思わず、そのままスキャンも安易な方法に走らないよう十分気を付けていきたいと思います。