1.这次通过更新觉得pyppeteer也没那么好用,因为我把抓取函数都放到一个列表里利用协程run起来之后,只返回最后一个响应的结果。
2.我今天在写爬虫的时候(用的scrapy框架)我想到访问网站不就是为了拿到网页的响应内容吗,所以我想通过page拿到网页的网页的html代码再找数据,但是网页的html代码里没有js执行的内容根本拿不到。
3.这样就只能每次访问一个页面都要开一个新的页面并发很大的话一下开一千个电脑会爆掉吧,就想到了锁和信号量来控制并发量,并发量解决了,浏览器切换页面拿数据会不会一个切换完了还没拿到数据另一个任务又把页面切换走了,这就有点混乱了。
4.在scrapy中利用pyppeteer,scrapy是一个多线程+协程的框架,访问会根据url的优先级依次访问,不知道会不会出现上边我想的问题。
我回来了,scrapy学了个差不多,js逆向也起步了,看到有人说软件失效了,今天更新一下
测试不行的,一定回复一下,我会再更新
[color=]1.不再显示烦人的浏览器界面。(可以自己选择开不开启浏览器页面)
[color=]2.程序会自动在当前文件夹下建立一个video的文件夹,防止那些没有D盘的用不了
[color=]3.采用pyppeteer库规避了一些问题,不用下载浏览器了,会自动下载一个浏览器(不用担心配置问题)
如果程序遇到问题可以打开浏览器界面自己观察其中的问题,另外还可以选择加载视频的数量视频数量过大的建议少个30左右,实际加载的会比你输入的数量只多不少
另外,你们要的蓝凑云
https://wwxh.lanzoum.com/iELuY0kdmikj
密码:7dra
[color=]可以指定任意浏览器的版本,右击你的浏览器快捷方式,选择打开文件所在路径即可找到你的浏览器exe文件所在的路径,复制到软件即可比如chrome,一定要在路径后边加上chrome.exe的文件名称,其余浏览器大同小异,自行测试吧各位。
https://wwxh.lanzoum.com/i7Kfi0keu83g
密码:3tbw
思路已经放在这里了,就是软件演示的那样,selenium其实速度太慢了,建议大家会python的直接拿pyppeteer这个库来按这个思路实现一遍(因为其支持异步操作,速度应该快不少,而且代码相对selenium来说简便),获取到视频接口之后,直接开启多进程用requests下载视频就好了,异步下载(即拿aiohttp和asyncio这两个库)我试过文本保存可以,但视频保存总是出错(StreamReader这个数据类型无法转成bytes类型,相关方法我搜过没找到解决办法),近期要学Scrapy框架可能有点忙抽不出时间来一一回复了,等我学好了会再来与大家分享爬虫学习心得。
只要能在浏览器Elements里边找到视频接口的,利用模拟浏览器的库来爬取视频都不需要逆向,但速度相对于会逆向的来说相差甚远,等到爬虫代码和框架都熟悉之后再着手开始搞逆向吧。在验证码反爬虫方面可以借助各种打码平台如某鹰,也可以自己训练一个深度学习模型。app爬虫方面最重要的就是找接口,离不开一部root之后的手机还有app逆向。最后祝大家在论坛玩的开心~
以下是就旧帖内容:
本人学习时间不长,还在继续学习,这只是学习中的一个小demo,
真正开始这个demo到敲代码完成有一天半的时间,剩下半天测试,
[color=]由于还要继续学习,软件发布难免有些仓促,请大家见谅。
最后加代码的时候粗心了,
[color=]Chrome浏览器软件中写成了Charm,我太粗心了,不好意思。
今天也是拿出来发布了
原理就是python爬虫,转载请注明出处,
[color=]禁止倒卖
,
[color=]任何非法获利等活动与本人无关
,本人发出来只为技术交流
解压密码在帖子末尾,都没看吗各位大佬,
[color=]解压密码:52pj
代码中用到selenium库中的webdriver 其代码为:xxx = webdriver.Chrome() 即指定浏览器为Chrome(
[color=]因为我自己用的Chrome浏览器
)
闪退的是没安装Chrome浏览器 需要版本 108.0.xxx就行,最新的好像还不到109.0,到了109版本就自己找下108的安装包吧(因为我的chromedriver版本问题,懂得自然懂哈,相信大佬们都懂)
自己用过完全没有问题,无任何引流或者收费,这是我的测试结果
3fa3cd26047346f623eab1d494381e1.png (47.52 KB, 下载次数: 0)
下载附件
2022-12-22 11:24 上传
5.png (97.19 KB, 下载次数: 0)
下载附件
2022-12-22 11:25 上传
下边开始教学,很简单
1.打开软件,去DY主页复制链接,粘贴到软件里
1.png (131.75 KB, 下载次数: 0)
下载附件
2022-12-22 11:26 上传
2.png (151.78 KB, 下载次数: 0)
下载附件
2022-12-22 11:27 上传
2.按一下enter键,开始运行就不用管了,会自动下载到D:\douyin目录下,目录不用手动创建
下面再传一张运行图片:
4.png (220.08 KB, 下载次数: 0)
下载附件
2022-12-22 12:22 上传
原理就是python爬虫,转载请注明出处,
[color=]禁止倒卖
,任何非法获利等活动与本人无关,本人发出来只为技术交流,解压密码52pj,如果解压时提示名字重复就重命名一下。