第219夜:PDFファイルからのテキストデータ抽出(pdf2txt.exe)

Adobe Acrobat というソフトは大変便利で、愛用していますが、使いにくいところもあります。それは、セキュリティ機能です。これは大変重要な機能で、もちろんあって当然なのですが、時に不便なことがあります。具体的には、オンラインに置かれている論文をダウンロードした時、そこからテキストデータを抽出して、自動翻訳ソフトにかけたいことが時々あります。しかし、ロックがかけられていて、テキストデータを抽出できないことがあります。通常は、ファイル→名前を付けて保存→テキストデータを選択すれば良いのですが、ロックをかけられていると、下記のようなメッセージが出て、実行できません。

そこで、いろいろと、オンライン上のツールを探しました。日本製のツールには適当なものはありませんでした。しかし、別に日本語の文献を読みたいわけではありません。英語の論文だけ読めれば良いので、Yahoo(英語版)で探しました。すると、"pdf2txt.exe"という英語のシェアウェアソフトを見つけました。これは29米ドルくらいで、カードで決済できるシェアウェアです。(日本円換算で3000円くらいです。)これはお試し版も置いてあって、購入する前に、試すことができます。(ただし、お試し版では、ところどころアスタリスク、*のこと)が文中に入って、完全なテキストデータは入手できなくなっています。これを買って使ってみました。すると、先ほど、エラーメッセージが出てテキストデータを抽出できなかったPDFファイルから、うまくテキストデータを抽出できました。これを翻訳ソフトにかけて、めでたく論文の概略を掴むことができました。それでは、このソフトは日本語のPDFファイルから日本語テキストデータを抽出できるでしょうか?ちょっと試してみました。 結果としては、日本語のPDFファイルから日本語のテキストデータを抽出することはできませんでした。一見、うまく抽出したみたいに、テキストデータができあがるのですが、中を開くと文字は入っていませんでした。やはり日本語非対応みたいです。でも、僕の目的にはぴったりです。外国産のオンラインソフトにお金を振り込んだのは初めてですが、サポートも結構しっかりしているみたいです。


ホームへ戻る INDEXへ戻る 1つ戻る 1つ進む