分享一个用于增强 RAG 应用的模块 — Web Scraper - 分享创造

作者：gydi 发布时间：2024-4-15 19:02:03

最近自己在做一个 RAG 应用，感兴趣的朋友可以尝试一下，https://www.zbyai.com
其中有一个功能是需要根据搜索到的 URL 去获取页面的具体内容，这个内容需要处理一下对 LLM 友好一点（ Token 少一点），所以我选择处理成 Markdown 。
所以就有了这么一个项目： https://github.com/zzzgydi/webscraper
原理比较简单：使用无头浏览器或者直接 GET 请求，然后用 Readability.js 进行优化，然后 html 转 markdown 。然后每个请求默认 5 秒超时。
使用：u 后面加对应的 url 链接即可。
curl https://scraper.zbyai.com/?u=https://github.com/zzzgydi/webscraper
也可以用 POST 请求：
curl -X POST -H "Content-Type: application/json" \
-d '{"url_list":["https://github.com/zzzgydi/webscraper"]}' \
https://scraper.zbyai.com/v1/scrape
可以用 demo 看看效果： https://scraper.zbyai.com/?u=https://github.com/zzzgydi/webscraper ，也可以自行 docker 部署。

lchynn 2024-4-15 19:02:59

楼主这服务好像可以代替穷人版免费科学上网 :P

分享一个用于增强 RAG 应用的模块 — Web Scraper

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则