🔍 OCR 模块使用指南
OCR 模块调用百度智能云 API,提供增值税发票识别 → Excel 等功能。
核心场景
识别单张发票
import office
office.ocr.VatInvoiceOCR2Excel(
input_path='./invoice_001.jpg',
output_path='./output/'
)
批量识别文件夹
office.ocr.VatInvoiceOCR2Excel(
input_path='./所有发票/',
output_path='./output/',
output_excel='本月所有发票汇总.xlsx',
file_name=True
)
识别网络图片
office.ocr.VatInvoiceOCR2Excel(
img_url='https://example.com/invoice.jpg',
output_path='./output/'
)
识别结果
Excel 中自动包含以下字段:
- 发票代码、发票号码、开票日期
- 销售方/购买方信息(名称、纳税人识别号)
- 金额、税额、不含税金额、税率
配置百度 OCR API
- 访问 百度智能云 注册账号
- 创建「文字识别 OCR」应用
- 获取 API Key 和 Secret Key
- 配置:
office.ocr.VatInvoiceOCR2Excel(
input_path='./invoices/',
id='your_api_id',
key='your_api_secret'
)
完整 API 见 OCR API 参考