第79夜:読んDE!!ココ Ver.5(その2)

そう思って、僕はWindowsの英和翻訳ソフトとしては結構高価な部類に属するLogoVistaというソフトの正規ユーザーになっています。しかし一時結構試したんですが、最近はほこりをかぶっています。一方OCRソフトの方はずいぶん使用しています。結局、日本語の書類であっても手でタイピングするよりもずいぶん速くデジタル化できるようになってきたからです。大量の文書であればあるほど、手入力との差は広がります。見逃せないのはプリンタ性能の向上です。つまり昔はドットインパクトプリンタや熱転写プリンタが主流であり、インクジェットプリンタの性能も低くて文字品質がずいぶん悪かったです。これがレーザープリンタの台頭、OSによるトゥルータイプフォントサポート、インクジェットプリンタの性能向上などが一気にやってきたことにより、一般に手にする書類の文字であっても印刷された文字と品質的に差がなくなってきました。つまりOCRしやすい状況になってきたわけです。こういう周囲のインフラストラクチャーが昔は欠けていたわけです。ところで平成11年9月3日静岡新聞において、清水市立病院脳神経外科の入谷先生の記事が載りました。そこでこの記事を当HPに載せようと思いました。そこで新聞紙をGT-9000に載せて、読んDE!!ココ Ver.5で認識させてみました。Ver.4までは線画モードの画像(つまり白黒2値画像)でしか認識処理をできなかったんですが、Ver.5からはグレースケールでも認識処理ができると書かれていました。しかし実際には試していませんでした。昨日初めてグレースケールで画像を取り込み、そのまま(白黒2値に変換せずに)認識させてみました。するとあっさり文字を読みとれるではありませんか!しかもおせじにも印字品質が良いとはいえない新聞の小さな文字です。2値画像からよりも精度良く読みとれるようです。すっかり感心してしまいました。結局、新聞記事の文字データを取り込むのに15分くらいですみました。これが手入力だと、1時間位はかかったと思います。新聞からのOCR精度もここまで来たか、という気持ちです。


INDEXへ戻る 1つ戻る 1つ進む ホームへ戻る