投稿者 スレッド: pdf、画像で表にされた数字、文字をテキストを抽出してセルに挿入  (参照数 41 回)

admin

  • Administrator
  • Hero Member
  • *****
  • 投稿: 58829
    • プロフィールを見る
pdf、画像で表にされた数字、文字をテキストを抽出してセルに挿入
https://3yokohama.hatenablog.jp/entry/2023/07/08/204611

PDFの数字、テキストをChatGptのAPIを使って抽出することが出来るという記
事があって、そのやり方などを調査していたのですが、Excelに、**画像から
データ** という機能というものを見つけました。これは画像データをEXCELに
読み込んでセルに挿入することが出来るという機能です。そこでPDFをJPGに変
換して、それをEXCELで読み込んでみました。

見本は令和5年情報通信白書の1ページをjpgにして試してみました。これは成
功しました。Excelの説明によると旨くいく場合と駄目な場合があるというこ
とだったのでラッキーかな?画像になったテキストを抽出するにはOCRソフト
ウェアの機能が付いているのだと思います。またOffice365のExcelの最新版で
は出来ます。

2022年9月Excelに、**画像からデータ** という機能がつきました。これは、
画像に含まれるテキストや表データを分析して、Excel のセルに挿入できる機
能です

この機能を使うには、次の手順を実行します。
1. [データ] タブの [画像から] をクリックします。
2. [ファイルからの画像] か [クリップボードからの画像] を選択します。
3. ファイルの場合はファイルダイアログが開き、クリップボードの場合はそ
のまま分析に進みます。
4. 分析の完了を待ちます。
5. データを挿入をクリックします。
この時、分析内容の確認を求められますが、ここで確認するよりもセルに展開
してからの方が確認と訂正が容易です。
この機能は、英語や日本語などの多くの言語に対応していますが、完全に正確
に読み取れるとは限りません。特にカンマ付きの数字や半濁点などは間違えや
すいので注意が必要です。また、画像はインポートするデータのみを示し、角
度やパースペクティブが正しいものである必要があります。

画像になったテキスト文字を入力するには手作業で打ち込む、OCRソフトウェ
ア等を使う方法がありますが、手作業は手間暇が掛かる。OCRソフトも間違う
こと多い。等があって今まであまり使わなかったのです、このExcelに、**画
像からデータ** という機能は正確に変換することが出来ました。もう少し使
ってみたいと思います。