东方财富 股吧 爬虫

作者：han5562877 发布时间：2023-1-24 12:55:49

东方财富帖子爬取—以上证指数吧为例
概述
最近在学习文本情感分析, 找了很多作为案例的论坛贴吧作为爬取对象
本次的对象是东方财富的股吧

代码
import requests
from lxml import etree
from time import sleep
import random
from fake_useragent import UserAgent
ua = UserAgent()
for p in range(4710):
try:
      url = f'http://guba.eastmoney.com/list,zssh000001_{p + 1}.html'
      headers = {'User-Agent': ua.random}
      page = requests.get(url=url, headers=headers).content.decode('utf-8')
      tree = etree.HTML(page)
      for li in tree.xpath('//div[@id="articlelistnew"]/div')[1: -2]:
         try:
            popper = li.xpath('./span[@class="l4 a4"]/a/@data-popper')[0]
            if popper not in ['3006113720930996', '3006113720930996', '7428111481466798', '6712111507146464', '6255325874333310']:
                  read = li.xpath('./span[@class="l1 a1"]/text()')[0]
                  com = li.xpath('./span[@class="l2 a2"]/text()')[0]
                  title = li.xpath('./span[@class="l3 a3"]/a/text()')[0]
                  date = li.xpath('./span[@class="l5 a5"]/text()')[0]
                  row = f'{read},{com},{title},{date}'
                  print(row)
                  with open('上证指数吧.csv', 'a', encoding='utf-8-sig') as f:
                     f.write(row + '\n')
         except Exception as e:
            print(str(e))
except Exception as e:
      print(str(e))
finally:
      print(str(p))
      sleep(0.1 + random.random() / 10)
运行状况

运行结果

财富, 爬虫

相关帖子

白云云云 2023-1-24 12:56:22

nuoan 发表于 2023-1-4 15:43
出现ModuleNotFoundError: No module named 'fake_useragent'，好像用pip install 也装不上fake_useragent ...
刚测试不用ua也没有问题, 4,7,12行删掉, 13行内headers=headers删掉, 可以正常运行

echoxx 2023-1-24 12:57:13

nuoan 发表于 2023-1-4 15:43
出现ModuleNotFoundError: No module named 'fake_useragent'，好像用pip install 也装不上fake_useragent ...
可以给错误贴出来看看

qwerdf4567 2023-1-24 12:57:59

牛市要来了么

micksoft 2023-1-24 12:58:32

从哪里可以抓取到5日线10日线季线年线，这种数据？

nuoan 2023-1-24 12:59:10

出现ModuleNotFoundError: No module named 'fake_useragent'，好像用pip install 也装不上fake_useragent，怎么办？

Dumeng 2023-1-24 12:59:56

看看小姐姐的家

FIzz001 2023-1-24 13:00:31

爬完可以成为股神不

feiyu361 2023-1-24 13:01:15

爬完可以成为巴菲特么?

whsstc 2023-1-24 13:02:10

要成为股神

东方财富股吧爬虫

相关帖子

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

东方财富 股吧 爬虫

相关帖子

热门主题

最近收BA的人很多 交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了 建了一个群 想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

东方财富股吧爬虫

最近收BA的人很多交易了要立刻取消BA 教训

折腾 homelab 挺长时间了建了一个群想不

在 Yoo趣儿投放广告