OCRソフトウェアに頼り切るのはよくないです。

OCR (光学文字認識装置)ソフトウェアは、紙媒体の資料をテキストファイル等に簡単に返還できて大変ありがたいわけですが、どうしても一定数、別の文字に認識されてしまうことがあります。

OCRソフトウェアに頼り切る方も世の中にはいらっしゃいますが、普通は、二度・三度読みなおしてみて、別の文字に認識をされていないかを確認するものですが、三度・四度・五度と読みなおしてみても、OCRソフトウェアの誤認識を見破れないことがあります。原子力なんとか委員会がホームページに掲載された資料の中には、

ストロンチウム (すとろんちうむ)

ス卜口ンチウム (す・「ぼく」・「くち」・ん・ち・う・む)

東京電力 (とうきょうでんりょく)

東京電カ (とう・きょう・でん・「か」)

原子力 (げんしりょく)

原子カ (げん・し・「か」)

など、普通に紙の上や読むだけではまず誤認識だと見破れない、別の文字が混ざっていたようです。

インターネットの意義の1つはそれ自体が「巨大なデータベース」であることです。データベースである以上、検索性は重要です。人の目には見破るのが難しい上記のような誤認識をどうやって防ぐのか、技術的な面で興味があります。

検索にわざと引っかかりにくくするためにわざとやったんだろという見方もあるようですが、それはさておき、「巨大なデータベース」に「官公庁」が(当然まじめに)情報をアップロード(登録)する以上、正確な情報でお願いしたいものであります。

コメント

タイトルとURLをコピーしました