Java 做爬虫怎么学习元素定位?有没有教程或者方法指点一二?

查看 113|回复 6
作者:tiRolin   
最近用 selenium 做 Java 爬虫,虽然可以爬取到页面了,但是在元素定位上犯了难
我可以通过爬虫获取一个列表的所有元素遍历文本,但是不知道怎么精确定位到对应属性或者元素上获取文本内容,去网上看了挺久的教程也没整明白怎么做好,就我知道里面有提供什么方法,但是我却不知道具体怎么使用,或者是我按我的想法来测试往往都是得不到结果,尤其是里面有很多元素嵌套的时候,感觉自己根本无从下手
所以我就是想来问问各位,是怎么学习元素定位的,有没有学习的方法或者什么教程推荐一下,我想尽快上手然后做爬虫,先谢谢各位了

元素, 教程, 爬虫, Java

ospider   
爬虫还是建议 Python ,你实在讨厌 Python 用 Go 也行。不是说 Java 不好,没那个生态,你非要搞的话,事倍功半。
rqxiao   
浏览器 F12->Elements->选中元素右键->Copy xpath, Copy js path ,Copyxxxxxxxx
tiRolin
OP
  
@rqxiao 这个我学长也教我这么用,但是对于一个列表来说,他的 Xpath 不是会随着列表变化一直增加的吗?这样的话写出来的代码还具有通用性吗?还是说干脆来个 for 循环自己拼接 Xpath 语句?
krixaar   
@ospider #1 用 selenium 哪个语言无所谓吧,api 都一样。
元素定位找 XPath 教程,再了解几个常见的 ExpectedConditions 就够了,实在不行还能像 2 楼那样直接右键复制。
rqxiao   
@tiRolin 可以找到固定的列表元素,有办法获得它的儿子节点
fank99   
@tiRolin 定位这个列表,然后遍历这个列表后继续在这个基础上解析。不明白的话,看看 scrapy 的 selector 怎么处理的。和一楼一样,我也建议使用 Python 。
您需要登录后才可以回帖 登录 | 立即注册

返回顶部