OCRでデータ入力を自動化!業務システム開発実績のご紹介

公開 : 2022.09.22  最終更新 : 2022.09.28
カテゴリー
タグ

NCDCのマーケティング担当、播磨です。
当社が支援させていただいた研究開発(R&D)プロジェクトの資料がお客様のWEBサイトで公開されています(ありがたいことに資料内に「開発パートナー:NCDC株式会社」とご記載いただいています)。
R&Dなのでまだ本格的な現場導入は先になるようですが、業務システムへのデータ入力の自動化・省力化の仕組みとして興味深い取り組みなので、この記事でも概要を紹介させていただきます。

JR東日本様のWEBサイトで公開されている資料
諸元登録支援システムの開発(PDF)
研究開発(R&D):JR東日本より)

OCRによるデータ入力の自動化とは?

タイトルのとおり、JR東日本様で行われたのはOCRを用いて業務システムへのデータ入力を自動化する研究開発です。もう少し詳しく説明すると、データ入力に手間がかかる従来システムの課題をOCR等の活用で解決できないか検証するプロジェクトです。

  • 従来のシステム
    作業現場に記載されている情報をメモして、事務所に戻ってからメモの内容を手作業で業務システムに登録している
  • 新システム(R&D段階)
    作業現場に記載されている情報をモバイル端末で写真に撮ると、専用アプリがOCRで写真内の文字を認識して、ある程度入力を自動化できる

業務記録のデータ化が進み、紙での管理は減っている企業が多いと思いますが、意外とデータ化する部分は人の手で(結局紙を見て入力するという作業によって)行っているケースも多いようです。

日々のデータ入力量が多い業務に携わっている方なら、こうしたデータ入力の自動化・省力化というテーマへの関心は高いのではないでしょうか。

OCRとは?

そもそもOCRとは何かがわからないと、どんなシステムなのかイメージしにくいと思うので、ここで一旦簡単なOCRの説明に移ります。(不要の方は飛ばして次の項に進んでください)

OCR(Optical Character Recognition = 光学的文字認識)とは、手書きや印刷された文字をスキャナやカメラで読みとって、コンピュータが文字として認識する(デジタルの文字コードに変換する)技術です。
OCR自体は以前から使われている技術なので触れたことがある人も多いと思いますが、近年、OCRの精度向上や書類のデジタル化・業務効率化という潮流に乗って、再び注目を集めています。

ちなみに、OCRの精度が向上している背景には、AI(人工知能)技術を取り入れた「AI-OCR」の登場などの技術の進化があります。「AI-OCR」はその名の通りAIを利用するOCRで、OCRで文字を読み取らせるたびに自動的にAIが学習を行い、OCRの文字認識精度が上がっていくような仕組みです。

OCRのメリット

OCRを利用すれば、従来、紙の伝票を見ながらシステムに手作業でデータ入力していたような業務をある程度自動化できます。このように人が読んで入力する作業を代わりに機械で行う(人の作業が楽になる)ことは、導入のメリットとしてイメージしやすいのではないでしょうか。

もうひとつのOCRの大きなメリットとしてミスの削減が考えられます。文字入力のような単純作業を人が長時間やり続けると疲労によって誤入力などのミスが起きがちですが、機械に任せれば人よりも早く一定のクオリティで処理してくれます(機械に読み取りミスがないとは言いませんが)。

OCRのデメリット

先ほどOCRの精度が向上していると書きましたが、決してどんな文字でも間違いなくデータ化できるほど現代のOCRが万能なわけではありません。

たとえば、一定フォーマットの書類にきれいに印刷された文字はかなりの精度で読み取れるとしても、書類のフォーマットが少し変わってしまう(従来読み取っていたものとは異なるレイアウトになる)だけでOCRでは正しく読み取れなくなる可能性があります。
また、スキャナやカメラで読みとる際に影が付いたり歪みが生じたりしていると文字認識精度が下がる場合があります。
これらの点は、多少フォーマットが変わったり文字に歪みがあったりしても臨機応変に解釈できる人による作業より劣る点だといえます。

簡単にOCRの概要と、メリット・デメリットを説明してきましたが、これを踏まえて再び本題の「OCR でデータ入力を自動化する業務システム」の話に戻ります。

プロジェクトの概要(開発の概要)

この「諸元登録支援システム」開発プロジェクトの背景と目的をJR東日本様の資料ではこのように紹介されています。

背景と目的 機器新設・更新時における諸元データの登録作業は手入力する項目が多い。そのため、諸元データの登録作業が煩雑で時間を要するうえ、入力誤りの可能性がある。そこで、機器の銘板をOCRで読取った結果を用いて、諸元データの登録を簡単に行うための諸元登録支援システムの開発を行う。

資料を元にもう少し詳しく説明します。

諸元登録支援システムの開発(PDF)の一部を抜粋

文字を撮影→OCRで文字認識→データ入力一部自動的化

現在は、工事現場で作業する方が諸元データ(機器の用途、形式、製造番号、製造年月等)を手元でメモするなどして一旦記録しておき、作業終了後に事務所へ移動。事務所でメモを参照しながらPCでまとめてシステムへの登録作業を行うというフローになっているそうです。

資料によると、踏切1箇所で50個以上の機器があるそうなので、複数箇所の諸元データをまとめてシステムに登録するとかなりの手間がかかり、ミスのリスクも大きくなってしまうことが想像できます。

そこで、JR東日本(研究開発部門)様では、この諸元データ登録にかかる手間とミスのリスクを軽減するための仕組みとして、OCRを用いた諸元データ登録支援システムを企画されました。
具体的には、従来は現場でメモをとっていた銘板上の文字などをタブレットで撮影すると、OCRによる文字認識などの処理が行われ、設備管理システムへのデータ入力が一部自動的化されるというものです。

正解との類似度を判定し、誤入力を防止

もちろんOCRだけで完璧な文字の自動入力はできてはないので、誤入力を防ぐ仕組みは必要です。
その点について、JR東日本様の資料ではこのように紹介されています。

設備管理システムに登録するべき正解の文字列を用意しておき、銘板のOCR結果との類似度を判定して適用

この「正解との類似度を判定する」機能がこのシステムの大きな特徴ではないかと思います。
「正解との類似度を判定する」とはどういうことか、資料を元にもう少し詳しく説明します。

諸元登録支援システムの開発(PDF)の一部を抜粋

JR東日本(研究開発部門)様の資料ではで次のように説明されています。

  • OCRで文字列を読むだけでは解決できない
  • OCR自体は世の中の進歩に期待して、OCR周辺の処理を構築

どういうことかというと、OCRで得た結果の文字列は100%そのままシステムに登録するわけではなく、必要な部分だけを抜き出して該当する入力項目に割り当てたり、システムへの記録ルールに従って変換したりする必要があります。

そもそもOCR結果の文字列は文字化けする可能性もあります。
そのため「OCRで文字列を読むだけ」では「登録作業が煩雑で時間を要するうえ、入力誤りの可能性がある」という現行システムの課題を解決することはできません。

そこで考えられたのが「正解との類似度を判定する」という機能です。
このシステムは「OCRで読んだ文字列を、ある入力項目に割り当てるデータとする」という処理が正しいのかどうか、他のデータベースと照合することで確認し、誤入力のリスクを抑えています。
(一方で、OCRの読み取り精度そのものは、世の中にあるさまざまなOCRのサービスが日々進歩していくので、それらの利用で解決できるという考え方です。この研究開発においては、OCRの機能はマイクロソフトが提供するクラウドサービスであるAzureのCognitive Servicesを利用しています)

誤入力防止しつつ、結果の学習で判定精度も向上

JR東日本(研究開発部門)様の資料にはこのシステムのUIの例も載っており、「正解との類似度を判定する」機能についても画面イメージ付きで解説されています。 資料では処理のフローをこのように紹介しています。

  1. 銘板から文字列を抽出(OCR)
  2. あらかじめ用意した銘板の記載リストと類似度判定
  3. あらかじめ用意した記載リストと入力項目の紐づけにより諸元登録内容を決定

また、OCRした文字列があらかじめ用意した銘板の記載リストになかった場合はそれを学習していくので、さまざまな銘板をOCRにかければ徐々に判定精度も向上していきます。

諸元登録支援システムの開発(PDF)の一部を抜粋

下図のように類似度順5位までが選択肢として表示されるので、人の目視チェックで5つの候補内に正解があれば「適用」ボタンを押すだけでデータ入力できるという仕組みです。
完全自動入力ではありませんが、すべて手入力するより遥かに効率的だといえます。

諸元登録支援システムの開発(PDF)の一部を抜粋

年間で約2600時間の時短が可能

これもJR東日本(研究開発部門)様の資料による情報ですが、推定に成功して正しい入力候補が表示されたケースでは、銘板の登録時間はすべて手入力で行うのに対して約2分短縮されたそうです。
2020年度の諸元の手入力の回数は推定8万回らしいので、すべての手入力をこの方法に置き換えることができたら、年間で16万分(約2600時間)の作業時間短縮が可能です。
とても大きな効果ですね。

業務システムへのデータ入力の自動化・省力化の仕組みとしてなかなか面白い取り組みではないでしょうか。
まだR&Dなので、本格的な現場導入までにはさまざまな改善も施されていくのだと思います。NCDCも引き続きこのプロジェクトに参画させていただく予定です。

以上、JR東日本(研究開発部門)様のWEBサイトで紹介されている資料をもとに、少し補足説明を加えて紹介させていただきました。

JR東日本様のWEBサイトで公開されている資料
諸元登録支援システムの開発(PDF)
研究開発(R&D):JR東日本より)

R&DはNCDCにご相談ください

NCDCは、新しい技術をユーザーにとって便利なかたちでシステムに活用できるかどうかを検証する段階(R&D)からのご支援も得意としています。
OCRに限らず、さまざまな先進的なIT技術に関しても技術検証から商用のシステム開発までご支援しておりますので、R&Dのパートナーをお探しの方は、ぜひお問い合わせください

ページトップへ

お問い合わせ

NCDCのサービスやセミナー依頼などのお問い合わせは
下記のお電話 また、お問い合わせフォームよりお気軽にご連絡ください。

050-3852-6483