大佬们,有什么好用的开源网页正文提取的库

查看 49|回复 1
作者:rizon   
现在有一个需要提取网页正文的需求。大佬们有什么觉得很好用的开源库啊。
另外开源知识库产品也求个推荐。
想要做一个网页爬取,正文提取,然后到知识库,最后 api 输出的组合。
谢谢大佬们

知识库, 正文, 大佬, 提取

zuoyouTU   
如果目标页面格式清楚,用 selenium 或者 pytesseract 简单定制一下应该可以
前者拿明文后者用 ocr 拿其他的
您需要登录后才可以回帖 登录 | 立即注册

返回顶部