求助Python操作pdf读取数据输入excel中

查看 118|回复 9

作者：980041382 发布时间：2023-3-23 18:07:20

需要处理的eg pdf在这里：https://wwwc.lanzoub.com/iEaI20qu3n9c
[color=]这是我目前写的代码
[Python] 纯文本查看复制代码import fitz
import re
import os
import pandas as pd
from tqdm import tqdm
def extract_text_from_pdf(pdf_file):
try:
      doc = fitz.open(pdf_file)
except fitz.EmptyFileError:
      print(f"跳过空文件: {pdf_file}")
      return ""
text = ''
for page_num in range(doc.page_count):
      page = doc.load_page(page_num)
      text += page.get_text()
return text
def extract_data_from_text(text, pattern, table_pattern):
matches = list(re.finditer(pattern, text))
table_matches = list(re.finditer(table_pattern, text))
if not matches:
      return 0
for match in matches:
      for table_match in table_matches:
         if table_match.start()

[color=]我想要pdf里面的本期增加添加到excel表格中，但是它可能识别到关键词在文中出现了两次就填了2

[color=]这个住房公积金同样没有读取到

[color=]这个更是明明pdf里面有的都没有搜到
求求大佬帮我实现帮我抓取pdf中表格栏里面，本期增加对应的值
费用, 微软

相关帖子

• 我们失去了收入来源，业务直接或间接依附百度的公司太多了

• cloudflare真是活菩萨 R2存储10G免费用

• 百度搜索狂揽自家流量，站长流失，不怕影响到自己智能云业务吗

• 个体工商户均须在2023年1月1日至6月30日，报送...

• 宝塔面板网站SSL证书到期如何自动续签Let’s Encrypt

• 宝塔Nginx防火墙HTTP请求过滤

• Windows息屏控制

• 一款丑不拉几的文件夹快捷方式管理器

• 中小学生心理健康筛查评估系统

• 图片无损放大,无需AI模型一个脚本搞定

 980041382
OP
  2023-3-23 18:07:52

@Ryan_XQ @柒點 @枫MapleLCG 帮我审核一下贴子

 980041382
OP
  2023-3-23 18:08:43

我选的图床好垃圾啊。。图片都显示不了。。。三个图片链接分别是https://www.imagehub.cc/image/pU617
https://www.imagehub.cc/image/pU0p6
https://www.imagehub.cc/image/pUlsk

pzx521521   2023-3-23 18:09:36

你是先将所有的转换为文字再提取, 这样表格的数据就很难提取出对应的格式,
特别是你的 extract_data_from_text 并不适合所有的方法
1.要么对所有不适合的做特殊处理
2.要么换一种提取方式,不要用文字提取
以表格  提取社会保险费的本期增加  为例:
[Python] 纯文本查看复制代码import pdfplumber
def getFieldVal(table, findField, findVal, getField):
ans = ''
if findField in table[0] and getField in table[0]:
      iField = table[0].index(findField)
      iGetField = table[0].index(getField)
      for i in range(1, len(table)):
         if table[i][iField] == findVal:
            ans = table[i][iGetField]
return ans
if __name__ == '__main__':
pdf = pdfplumber.open("./data1/2015GQY视讯.PDF")
page = pdf.pages[129]
tables = page.extract_tables()
for table in tables:
      val = getFieldVal(table,'项目','3、社会保险费', '本期增加')
      if val != '':
         print(val)
         break
更精确的找法应该是
先找到表标题找到表,  然后在用行列定位:
如  以  提取社会保险费的本期增加为例:
通过  短期薪酬列示找到表
通过  "项目" "3、社会保险费" "本期增加"
获取到值

 980041382
OP
  2023-3-23 18:10:22

pzx521521 发表于 2023-3-23 10:16
你是先将所有的转换为文字再提取, 这样表格的数据就很难提取出对应的格式,
特别是你的 extract_data_from ...
哎主要我有两万多份财报。pdf肯定格式千奇百怪。但是转换成文字再提取的话就比较万金油，老哥能写个完整版的看看吗

 980041382
OP
  2023-3-23 18:11:01

pzx521521 发表于 2023-3-23 10:16
你是先将所有的转换为文字再提取, 这样表格的数据就很难提取出对应的格式,
特别是你的 extract_data_from ...
[Asm] 纯文本查看复制代码import os
import pandas as pd
import pdfplumber
from tqdm import tqdm
def extract_tables_from_pdf(pdf_file):
with pdfplumber.open(pdf_file) as pdf:
      tables = []
      for page in pdf.pages:
         tables += page.extract_tables()
      return tables
def get_field_value(table, find_field, find_val, get_field):
if find_field in table[0] and get_field in table[0]:
      field_index = table[0].index(find_field)
      get_field_index = table[0].index(get_field)
      for row in table[1:]:
         if row[field_index] == find_val:
            return row[get_field_index]
return None
def parse_filename(filename):
year = filename[:4]
company = filename[4:].replace(".PDF", "")
return year, company
keywords = [
"温室气体减排费用",
"减排费用",
"减排设备",
"环保装备折旧",
"污染物减排费用",
"环境污染责任保险投保费用",
"节水费用",
"节水设备",
"节水装备折旧",
"节能费用",
"节能设备",
"节能设备折旧",
"绿色生产超额费用",
"绿色办公超额费用",
"绿色采购费用",
"绿色建设费用",
"非财务报告鉴证费用",
"审计费用",
"营业收入",
"社会保险费",
"住房公积金",
"基本养老保险",
"失业保险费",
"离职后福利-设定提存计划",
"辞退福利",
"短期带薪缺勤",
"工会经费和职工教育经费",
"职工福利费",
"产品质量保证",
"售后服务费",
"对外捐赠",
"捐赠支出",
# ... 在此处添加其余的关键字
]
folder_path = "D:\data1"
pdf_files = [file for file in os.listdir(folder_path) if file.endswith(".PDF")]
data = pd.DataFrame(columns=["公司名称", "年份"] + keywords)
for pdf_file in tqdm(pdf_files, desc="处理 PDF 文件"):
year, company = parse_filename(pdf_file)
tables = extract_tables_from_pdf(os.path.join(folder_path, pdf_file))
extracted_data = []
for keyword in keywords:
      value = None
      for table in tables:
         value = get_field_value(table, "项目", keyword, "本期增加")
         if value:
            break
      extracted_data.append(float(value.replace(',', '')) if value else 0)
data = data.append(
      pd.Series([company, year] + extracted_data, index=data.columns), ignore_index=True
)
data.to_csv("financial_report_data1.csv", index=False, encoding="utf-8-sig")
按照你的思路我写了版可获取到的数据值是空的

 980041382
OP
  2023-3-23 18:12:01

有没有具有方法通用性高一点的呢

 pzx521521   2023-3-23 18:12:49

980041382 发表于 2023-3-23 10:48
哎主要我有两万多份财报。pdf肯定格式千奇百怪。但是转换成文字再提取的话就比较万金油，老哥能写个完整 ...
千奇百怪没有办法的
或许你需要自己训练一个ai...

980041382
OP
  2023-3-23 18:13:46

pzx521521 发表于 2023-3-23 11:17
千奇百怪没有办法的
或许你需要自己训练一个ai...
那具体到这个表格该怎么实现呀

 980041382
OP
  2023-3-23 18:14:45

pzx521521 发表于 2023-3-23 11:17
千奇百怪没有办法的
或许你需要自己训练一个ai...
我上面回复你的那个代码也是提取出表格来，然后处理最后还是为0

求助Python操作pdf读取数据输入excel中

相关帖子

浏览过的版块

热门主题

ioio事件是什么鬼？

养老贷又来了，贷贷相传啊

今天要撸2次

好评有礼给的是红包还是优惠卷

现在干啥都太难了，珍惜吧

淘宝现在也好难搞啊

现在的ai能生产图文结合的内容吗

周固固突然发飙了，谁惹他了呢？吃光群众等

怎么吵架了啊

老坛们看过来，周固固同志狂撒金币。折射一

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

求助Python操作pdf读取数据输入excel中

相关帖子

浏览过的版块

热门主题

ioio事件是什么鬼？

养老贷又来了，贷贷相传啊

今天要撸2次

好评有礼给的是红包还是优惠卷

现在干啥都太难了，珍惜吧

淘宝现在也好难搞啊

现在的ai能生产图文结合的内容吗

周固固突然发飙了，谁惹他了呢？吃光群众等

怎么吵架了啊

老坛们看过来，周固固同志狂撒金币。折射一

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

在 Yoo趣儿投放广告