AI導入、ホントのとこ ~失敗しないための心構えと実践ノウハウ~

第2回:画像認識・文字認識

概要

あらゆるところで目にするようになったAI。しかしAIの恩恵を受けるにはテクノロジーへの理解と、正しいアプローチが必要不可欠です。 そこで数々のAI関連プロジェクト・サービスを経験してきた筆者が、AI関連技術に対する基本的な知識と、ビジョンの描き方、導入時のポイントを具体的な事例を交えて各月でお届けします。

目次
画像認識 〜それ、AIじゃなくて良くない?〜
文字認識 〜人間ってやっぱりすごいのです〜
まとめ

前回は、AI導入について心構え的な「概論」を述べさせていただいたが、今回からは個別テーマについてのお話となる。
最初のテーマとして選んだのは、おそらく「AI導入」という話題になったときに、その用途としてよく挙げられる「画像認識」「文字認識」である。
そして、筆者が一番オススメしないのもまた「画像認識」「文字認識」だ。
この「AI導入」が先行して後から用途を考えるようじゃダメですよ。というのは前回の「概論」にて述べたが、
そういったそもそもレベルのお話はもちろんのこと、それ以上に厄介なのが、
アルゴリズムやシステム面での難易度だけでなく、実際の業務に適用するに当たっての難易度も含め、ただただ単純に難しいということだ。

 

画像認識 〜それ、AIじゃなくて良くない?〜

さて、まずは「画像認識」について、よく聞く適用パターンを基に説明をしていこう。
目をキラキラさせた担当者が口にする要件はこうだ。

「お客さんに気になっている商品をスマホで撮影してもらい、その写真をAIが解析して説明やリコメンドを行うことで売り上げ向上につなげたい!」

筆者はこういった話を聞くと「なるほど。とりあえず、AIを使うのは止めましょう」と答えるようにしている。

まず、どう考えても費用対効果が出ない。
「時系列データ」の解析や「自然言語処理」と比べて、「画像認識」に必要となるマシンパワーはエゲツない。
ちょっとした動作確認レベルでも油断すると一瞬で数十万円が吹っ飛ぶ。それに全体で見るとシステム規模もかなりのものになる。
AI解析処理部分以外にも、アプリやWebサーバー、それに商品説明やリコメンド処理を行うための管理機能や処理ロジック等々。
果たして一体、これを作りあげるためにどれほどの工数がかかるだろう。想像するに恐ろしい。
しかも、MB級の画像ファイルを扱うので非機能面での要件も何かと厳しいものになるのは必至である。
ゆえに、AI利用を前提にした場合、技術検証やPoC、その他何やかんや含めて、余裕で数千万円はかかるだろう。
さて、ここで冷静になって考えてほしいのだが、たかだか商品のリコメンドぐらいで、どれだけの売り上げ効果が見込めるだろう?
きっと、はるかに高い効果を生み出す施策がもっと他にある。

そして、何より(最初から)AIである必要性がない。
大事なのは「写真を元に説明やリコメンドをする」ことであって、「AIが解析する」ことではないだろう。
裏側でAIが動いてようが、いまいが、エンドユーザには全く関係のない話だ。
いや、もしかしてそのサービスが数千、数万の人に利用されるのであれば、AIを用いた自動化が必要かもしれない。
でも、そうなるかどうかなんて、誰にもわからないだろう。まずはそこを検証することが大事だ。
そしてその検証を行うためのMVP(ミニマムバリュープロダクト)は、スマホ対応アプリと簡単なWebサービスだけで十分だ。
「画像認識」は「人」がやればいいのだ。アルバイトを何人か雇って、画像を目視させ、マニュアルに従い返信させればいいのだ。
それなら数百万円、下手したら数十万円で済む。

では、どういったケースであれば「画像認識」は導入効果を期待できるのか。
まず、対象とする画像のバリエーションや、見なければならない箇所が限られていること。
制約は多ければ多いほど良い。その分、前処理工程にて対応が可能となり、AI処理工程が軽くなる。
加えて、1日当たりの処理数が数千〜数万以上のオーダーであることも挙げられる。
先述の通り、費用対効果を出すためにはそれぐらいの規模でないとお話にならない。
正直、この条件を満たさない場合は手を出さないのが吉だと筆者は考える。
特に、エンドユーザが絡む用途への適用は、費用に対してのリスクがあまりにも大きすぎる。

 

文字認識 〜人間ってやっぱりすごいのです〜

では文字認識はどうだろうか。
文字認識は画像認識と比べると、費用対効果やAIである必要性、実現可能性など、比較的わかりやすい。
ただ、注意が必要となるポイントはある。「伝票処理の自動化」に当てはめて説明してみよう。

おおよそ、伝票の処理フローは以下のような形になっているはずだ。

1. 伝票を収集する
2. 伝票をスキャンし、画像ファイル化する
3. 画像ファイルを目視して、Excelファイルに内容を転記する
4. Excelファイルに転記された各伝票結果を集計してチェックする

AIによる自動化を図る場合、処理(3)をAIが担うことになるわけだが、ここで注目したいのは、

・処理(3)は、処理(2)の出力がいかなるものであろうと全て対応しなければならない
・処理(4)は、処理(3)の出力が100%の精度であることが前提

ということであるが、これは人間だからできる話であって、AIには荷が重すぎる。
まず、処理(2)の出力がいかなるものであろうと対応するために、処理(3)には「文字の識別」以外に、
「画像補正」「認識対象箇所の特定・抽出」「識別結果の補正・補完」「結果の整形・出力」等々の要素が含まれており、非常に難易度が高く、複雑なものになる。
特に「画像補正」「認識対象箇所の特定・抽出」については、職人芸的な画像処理の知識と経験が必要であり、いわゆるITスキルとは一線を画す。
また、AIに100%はないので、処理(3)の精度を補完するために、人手によるチェック作業が必要になる。
間違っても、「文字の識別」だけを検証して、Goを出すような事はしてはいけない。

一方で、もともとOCRを導入している場合には、人手による補完業務が既に存在しているので、上記した点について問題はないと思われる。
従来型のOCRでは認識不可能であった文字が、深層学習を用いた場合に認識可能となりえるので、効果も見いだしやすいだろう。
しかしながら、それでも「AIだったらできるでしょ」的なノリで、その責務が不用心に拡大されてしまうことのないよう注意が必要である。

 

まとめ

正直なところ、AI関連サービスの開発を生業としている会社以外が、「画像認識」「文字認識」の開発に手を出すのは、筆者は控えるべきだと考えている。
「画像認識」は金がかかって難しすぎるし、「文字認識」は業務個別の要素が少なく一企業が独自に作る理由がない。
つまり、この記事の読者諸兄姉におかれては、避けて通るが吉ということだ。
素晴らしいサービスが世の中に出てきたら、それを使ってどうしようかを考えるスタンスがオススメである。

連載一覧

コメント

筆者紹介

高田 和弥(たかた かずや)
ブレインズコンサルティング株式会社
AI&RPAサービスグループ こらろぼチーム 統括マネージャー

大手ITコンサルティング会社およびIoTスタートアップでの経験を活かし、プロジェクトマネジメント、新規サービス立ち上げ、多数のプロジェクトへの技術支援、社内開発標準化、等に従事し、現在は同社が展開するAIチャットボットサービス「こらろぼ」のサービス統括を務める。

バックナンバー