小说爬虫

作者：XCHLX 发布时间：2023-6-2 17:00:46

[Python] 纯文本查看复制代码import requests  # 导入requests包
from bs4 import BeautifulSoup
import my_fake_useragent as ua
import json
from lxml import etree
class BiQuGe(object):
def __init__(self):
      self.proxies = None  # 代{过}{滤}理
      self.header = None  # 请求头
      self.set_proxies()
# 搜索小说
def get_book(self, searchKey):
      try:
         text = self.geturl(("http://www.xsbiquge.org/search?searchkey=" + searchKey))
         if text is None:
            return []
         bookList = []
         searchHtml = etree.HTML(text)
         searchList = searchHtml.xpath('//*[@class="category-div"]')
         for i in searchList:
            bookList.append({"title": self.getstr(i.xpath('div/div/a/h3/text()')),
                              "img": self.getstr(i.xpath('a/img/@data-original')),
                              "path": self.getstr(i.xpath('a/@href')),
                              "abt": self.getstr(i.xpath('div/div/span/text()')),
                              "desc": self.getstr(i.xpath('div/div[contains(@class,"intro")]/text()')),
                              })
         return bookList
      except Exception as e:
         self.del_proxies()
         return None
# 获取小说目录
def get_directory(self, dir, currentPage=1, pageSize=500):
      try:
         text = self.geturl(("http://www.xsbiquge.org" + dir))
         if text is None:
            return []
         dirList = []
         searchHtml = etree.HTML(text)
         searchList = searchHtml.xpath('//div[contains(@class,"flex-wrap")]')[1].xpath(
            'a[position() 1:
                  contentStr.append(item.string)
         self.r.set('xsbiquge', json.dumps(self.proxies), ex=600)
         return contentStr
      except Exception as e:
         self.del_proxies()
         return []
def get_content_all(self, title):
      try:
         contentStr = []
         contentStr = contentStr + self.get_content(title)
         contentStr = contentStr + self.get_content(title.replace(".html", "_2.html"))
         return contentStr
      except Exception as e:
         return e
# 重试
def geturl(self, url):
      text = None
      for i in range(5):
         text = self.__me_post(url)
         if text is not None:
            break
         self.del_proxies()
         self.set_proxies()
      if text is None:
         self.del_proxies()
         print(self.proxies + "失败")
         return None
      else:
         return text
# 删除失败代{过}{滤}理
def del_proxies(self):
      pass
# 设置代{过}{滤}理和请求头
def set_proxies(self):
      self.header = {
         "User-Agent": ua.UserAgent().random(),
      }
# post 请求
def __me_post(self, url):
      try:
         response = requests.post(url, headers=self.header,
                                 proxies=self.proxies, timeout=1)  # Get方式获取网页数据
         if response.status_code != 200:
            self.del_proxies()
            return None
         else:
            response.encoding = 'utf-8'
            return response.text
      except:
         return None
# get 请求
def __me_get(self, url):
      response = requests.get(url, headers=self.header,
                              proxies=self.proxies, timeout=1)  # Get方式获取网页数据
      if response.status_code != 200:
         self.del_proxies()
         return None
      else:
         response.encoding = 'utf-8'
         return response.text
# 提取字符串
def getstr(self, arr):
      if len(arr) > 0:
         return arr[0].strip()
      return None

爬虫, 小说

相关帖子

热门主题

一个中国大模型，拿下了全球用量第一

怎么实现纠正语音提取文字后的错别字、同音

用 Skills 代替运营后台页面

有没有提供 API 接口的淘宝的 erp 系统推荐

claude 如何订阅

我把“小约翰可汗”做成了一个可逛的内容站

codex 一直卡在正在思考

bing站长后台关于SEO和GEO的操作建议

问下你们企业网站写的新闻资讯内容百度收录

發現 ai 很適合處理後事

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则