一个音乐网站爬虫，下载歌曲

作者：sakura32 发布时间：2024-2-16 13:12:09

功能：
搜索歌曲/歌手，返回一个结果列表，然后选择列表中的编号进行下载。自动合并专辑封面和歌词（合并歌词代码有问题，无法正常合并）
使用说明：
1.需要配置好playwright
2.无法在python控制台中直接运行（会闪退，不知道什么原因），在pycharm中能正常运行
其他说明：
爬的网站曲库一般，音质一般，lrc歌词质量较差
额外补充说明：爬的网站gequbao.com，网站本身是能直接正常用的，但是直链下载几次后网站会隐藏链接需要关注公众号，解决方案：网站有试听功能，试听指向的链接就是下载链接，藏得很浅且不加密，所以只要抓到这个链接就行了，用浏览器-检查/审查元素-网络抓包或者网页资源嗅探类插件都能抓到
再次补充说明：新做了一个网站的爬虫，曲库更多，但是下架了一些版权歌（例如周董的）
截图:

QQ截图20240110193726.png (24.04 KB, 下载次数: 0)
下载附件
2024-1-10 19:39 上传

源码:https://github.com/PPJUST/Music-Spider
main.py
[Python] 纯文本查看复制代码# 主程序
import re
import time
from lxml import html
from tqdm import tqdm
from down_music import *
from music_info import *
etree = html.etree
baseurl_search = r'https://www.gequbao.com/s/'
baseurl_homepage = r'https://www.gequbao.com'
headers = {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"}
def get_search_result(keyword):
"""获取原始搜索结果文本"""
url_search = baseurl_search + keyword
response = requests.get(url_search, headers=headers)
if response.status_code == 200:
      return response.text
else:
      print('响应状态码错误')
def get_urls(html_str: str):
"""利用正则提取网页链接"""
pattern = r'
music_info.py
[Python] 纯文本查看复制代码# 该模块用于获取歌曲的封面、文件名、下载链接等信息
from playwright.sync_api import sync_playwright
class MusicInfo:
def __init__(self, music_page: str):
      """
      :param music_page: str类型，歌曲页面链接
      """
      self._music_download_link = ''  # 歌曲下载链接
      self._cover_download_link = ''  # 封面下载链接
      self._lrc_download_link = ''  # 歌词下载链接
      self._music_name = ''  # 歌曲名
      self._goto_page(music_page)
def _goto_page(self, music_page: str):
      """
      :param music_page: str类型，歌曲页面链接
      """
      with sync_playwright() as p:
         browser = p.chromium.launch(headless=True)
         page = browser.new_page()
         page.on('response', self._on_response)  # 响应请求
         page.goto(music_page)
         page.wait_for_load_state('networkidle')
         html = page.content()  # 获取页面源码
         browser.close()
      self._get_music_name_and_lrc(html)
def _on_response(self, response):
      state = response.status  # 状态码
      url = response.url  # 链接
      # print(f'Statue {state}: {url}')
      # 酷我接口
      if 'kuwo' in url and '.mp3' in url:  # 提取歌曲下载链接
         self._music_download_link = url
      elif 'kuwo' in url and '.jpg' in url:  # 提取封面
         self._cover_download_link = url
      # 网易云接口
      elif 'music.126' in url and '.mp3' in url:  # 提取歌曲下载链接
         self._music_download_link = url
      elif 'music.126' in url and'.jpg' in url:  # 提取封面
         self._cover_download_link = url
def _get_music_name_and_lrc(self, html: str):
      """获取歌曲文件名"""
      html_lines = html.split('\n')
      for line in html_lines:
         # print(f'Line: {line}')
         if 'description' in line:  # 提取歌曲名称
            #
down_music.py
[Python] 纯文本查看复制代码# 该模块用于获取歌曲的封面、文件名、下载链接等信息
import os
import requests
from mutagen.id3 import ID3, APIC, USLT
class DownMusic:
"""下载歌曲"""
def __init__(self, info_dict: dict):
      self._music_download_link = info_dict['music_download_link']
      self._cover_download_link = info_dict['cover_download_link']
      self._lrc_download_link = info_dict['lrc_download_link']
      self._music_name = info_dict['music_name']
      if self._music_download_link:  # 如果没有获取到歌曲链接，则不进行下一步
         result = self._down_music()  # 歌曲链接有有效期，过期后无法下载文件
         if result:
            self._is_error = False
            self._down_lrc()
            self._down_cover()
            self._join_music_metadata()
            self._delete_useless_file()
         else:
            self._is_error = True
      else:
         self._is_error = True
def is_error(self):
      """测试运行是否出错"""
      return self._is_error
def _down_music(self):
      """下载歌曲"""
      filename = self._music_name + '.mp3'
      result = self._download_file(self._music_download_link, filename)
      return result
def _down_lrc(self):
      """下载歌词"""
      filename = self._music_name + '.lrc'
      self._download_file(self._lrc_download_link, filename)
def _down_cover(self):
      """下载封面"""
      filename = self._music_name + '.jpg'
      self._download_file(self._cover_download_link, filename)
def _join_music_metadata(self):
      """拼合歌曲文件"""
      file_music = self._music_name + '.mp3'
      file_lrc = self._music_name + '.lrc'
      file_cover = self._music_name + '.jpg'
      audio = ID3(file_music)
      # 添加封面
      with open(file_cover, 'rb') as f:
         cover = f.read()
      audio['APIC'] = APIC(
         encoding=3,  # utf-8
         mime='image/jpeg',  # image/jpeg或image/png
         type=3,  # cover image
         desc=u'Cover',
         data=cover
      )
      # 添加歌词
      with open(file_lrc, 'r', encoding='utf-8') as f:
         lyrics = f.read()
      audio['USLT'] = USLT(
         encoding=3,  # utf-8
         lang='chi',  # 歌词语言
         desc=u'Lyrics',
         text=lyrics
      )
      audio.save()
def _delete_useless_file(self):
      """合并后删除无用文件"""
      file_lrc = self._music_name + '.lrc'
      file_cover = self._music_name + '.jpg'
      os.remove(file_lrc)
      os.remove(file_cover)
@staticmethod
def _download_file(url, filename):
      headers = {
         "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"
      }
      response = requests.get(url, headers=headers)
      with open(filename, 'wb') as f:
         f.write(response.content)
      if os.path.getsize(filename):
         return True
      else:
         return False

链接, 下载链接

相关帖子

moliol 2024-2-16 13:12:53

支持支持！但是不会用

东坡小哥哥 2024-2-16 13:13:46

输入歌名/歌手，回车后查询：周杰伦
  0%|       | 0/81
Traceback (most recent call last):
  File "C:\Users\BuyeaChen\Desktop\my App\Music-Spider-main\main.py", line 85, in
main()
  File "C:\Users\BuyeaChen\Desktop\my App\Music-Spider-main\main.py", line 73, in main
url_info_dict = get_music_info(urls)
                  ^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\BuyeaChen\Desktop\my App\Music-Spider-main\main.py", line 40, in get_music_info
spider = MusicInfo(url)
         ^^^^^^^^^^^^^^
  File "C:\Users\BuyeaChen\Desktop\my App\Music-Spider-main\music_info.py", line 16, in __init__
self._goto_page(music_page)
  File "C:\Users\BuyeaChen\Desktop\my App\Music-Spider-main\music_info.py", line 23, in _goto_page
browser = p.chromium.launch(headless=True)
            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\BuyeaChen\AppData\Local\Programs\Python\Python312\Lib\site-packages\playwright\sync_api\_generated.py", line 14806, in launch
self._sync(
  File "C:\Users\BuyeaChen\AppData\Local\Programs\Python\Python312\Lib\site-packages\playwright\_impl\_sync_base.py", line 115, in _sync
return task.result()
         ^^^^^^^^^^^^^
  File "C:\Users\BuyeaChen\AppData\Local\Programs\Python\Python312\Lib\site-packages\playwright\_impl\_browser_type.py", line 95, in launch
Browser, from_channel(await self._channel.send("launch", params))
                        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\BuyeaChen\AppData\Local\Programs\Python\Python312\Lib\site-packages\playwright\_impl\_connection.py", line 62, in send
return await self._connection.wrap_api_call(
         ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\BuyeaChen\AppData\Local\Programs\Python\Python312\Lib\site-packages\playwright\_impl\_connection.py", line 492, in wrap_api_call
return await cb()
         ^^^^^^^^^^
  File "C:\Users\BuyeaChen\AppData\Local\Programs\Python\Python312\Lib\site-packages\playwright\_impl\_connection.py", line 100, in inner_send
result = next(iter(done)).result()
         ^^^^^^^^^^^^^^^^^^^^^^^^^
playwright._impl._errors.Error: Executable doesn't exist at C:\Users\BuyeaChen\AppData\Local\ms-playwright\chromium-1091\chrome-win\chrome.exe
╔════════════════════════════════════════════════════════════╗
║ Looks like Playwright was just installed or updated.    ║
║ Please run the following command to download new browsers: ║
║                                                          ║
║    playwright install                                  ║
║                                                          ║
║ <3 Playwright Team                                        ║
╚════════════════════════════════════════════════════════════╝

duhe 2024-2-16 13:14:23

支持支持！

bnb 2024-2-16 13:15:09

这个怎么用aardio调用python
不想装python环境

naoxin2023 2024-2-16 13:16:03

支持支持

dball 2024-2-16 13:16:40

求网盘分享，谢谢楼主

flylujun 2024-2-16 13:17:16

带源码，支持一下

井谦 2024-2-16 13:18:14

求网盘分享，谢谢楼主

Leonkeen 2024-2-16 13:18:53

带源码支持一下

一个音乐网站爬虫，下载歌曲

相关帖子

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

一个音乐网站爬虫，下载歌曲

相关帖子

热门主题

最近收BA的人很多 交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了 建了一个群 想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

最近收BA的人很多交易了要立刻取消BA 教训

折腾 homelab 挺长时间了建了一个群想不

在 Yoo趣儿投放广告