对大段文本进行预处理 并保存EXCEL表格

查看 64|回复 6
作者:jcwoai   
由于该网站考试页面需要每月一次登录考试时才能出现,自己不太会爬取,所以直接复制处理后,
再用python进行题库对比 答案也就几分钟就出来了。本人新手 如有不足请包含!
在网页上直接复制下来内容如图:


1 (2).png (40.53 KB, 下载次数: 0)
下载附件
复制的内容
2023-4-1 15:05 上传



22.png (38.99 KB, 下载次数: 0)
下载附件
复制的内容
2023-4-1 15:05 上传

处理结果:


33.png (74.1 KB, 下载次数: 0)
下载附件
处理结果
2023-4-1 15:06 上传

保存到excel表格中:


44.png (71.87 KB, 下载次数: 0)
下载附件
excel表
2023-4-1 15:06 上传

代码:
[Asm] 纯文本查看 复制代码import re
import pandas as pd
def clean(line):
    line = re.sub('\nA', '\nAA', line)  # 为分段加标记
    line = re.sub('\d+.(1分).', '#', line).split('#')  # 为分割加标记,并以#号分割
    data = []
    for item in line:
        stem = item.split('\nA')[0]
        option = item.split('\nA')[1]
        dit = {
            '题干': stem,
            '选项': option
        }
        data.append(dit)
    return data
def save(data):
    df = pd.DataFrame(data)
    df.to_excel('newtg.xlsx', index=False, sheet_name='Sheet1')
def main():
    with open('1.txt', 'r', encoding='utf-8-sig') as f:
        content = f.read()
    content2 = clean(content)
    data = save(content2)
    # print(content2)
    # print(data)
if __name__ == '__main__':
    main()

下载次数, 下载附件

zq514317526   

这功能可以啊,楼主牛
sunyake   

这个功能还是挺实用的
hzxszxd   

学习一下
fengyun123123   

实用,马上学习
zm55555   

谢谢分享!
HR741158   

学习了,受用
您需要登录后才可以回帖 登录 | 立即注册

返回顶部