Pythonのライブラリの紹介です。それぞれの説明と使用例は以下になります。
L 136. PyPDF2(PDF操作)
PyPDF2 は PDF ファイルの結合、分割、回転、抽出などの基本操作を行うためのライブラリです。読み込み専用です(PDFへの書き込みや注釈の追加は制限があります)。
▼主な機能
ページの抽出、結合、回転
テキストの簡易抽出
メタデータの取得
暗号化PDFの復号(パスワード必要)
▼インストール
pip install PyPDF2
▼使い方(例:PDFの全ページからテキスト抽出)
from PyPDF2 import PdfReader
reader = PdfReader(“example.pdf”)
for page in reader.pages:
print(page.extract_text())
L 137. pdfplumber(PDFの正確なテキスト&表抽出)
pdfplumber は、PDF ファイルから レイアウトを保持したテキストや表(テーブル)を抽出できるライブラリです。PyPDF2 より精度が高く、主にOCRを伴わないPDFで力を発揮します。
▼主な機能
ページ単位の正確なテキスト抽出
表の抽出(セルや列として認識)
座標ベースのレイアウトアクセス(画像や位置指定も可能)
▼インストール
pip install pdfplumber
▼使い方(例:表の抽出)
import pdfplumber
with pdfplumber.open(“example.pdf”) as pdf:
first_page = pdf.pages[0]
table = first_page.extract_table()
for row in table:
print(row)
L 138. openpyxl(Excelファイル操作)
openpyxl は Excel 2007以降の .xlsx 形式のファイルを 読み書きできる主要ライブラリです。フォーマットの保持や図表・数式の操作も可能です。
▼主な機能
Excelシートの作成・編集・保存
セルへの書き込み・読み込み
スタイル・色・罫線の設定
数式やチャートの操作
画像の埋め込み
▼インストール
pip install openpyxl
▼使い方(例:新しいExcelを作成し書き込み)
from openpyxl import Workbook
wb = Workbook()
ws = wb.active
ws.title = “Sheet1”
ws[‘A1’] = “Hello”
ws[‘B1’] = 123
wb.save(“example.xlsx”)



コメント