纯浏览器实现的 pdf 转 markdown

主要目的是提取纯文本方便 chatgpt
https://gist.github.com/taowen/4ce9de62255ded695db106ded4aa18c1

pdf.js 可以提取所有的 TextItem 包括文本和包围盒

根据包围盒可以大致判断一下是否换行了

如果一行中包含了公式，那么一行会有很多个 TextItem ，这些行会称之为 complex 的行

多个连续的 complex 行变成了 complex 块

如果有 claude 3 haiku 的账号会对 complex 块做一次基于图片的 OCR 来清洗嘈杂的带公式的文本

除了 pdf 还有几个纯浏览器的小工具方便用来提取纯文本

https://gist.github.com/taowen/95ae056924f33bafa809cb4147e52566 HTML 转 markdown 。本地用 turndown.js 实现的

https://gist.github.com/taowen/2a49387d5abc195ba57acbb94f4dd28f youtube 字幕提取

https://gist.github.com/taowen/3a0ee294ae60fd7e8f14f4af81edf38e arxiv 论文转 markdown

https://marketplace.visualstudio.com/items?itemName=taowen.repo-to-prompt github.dev 代码仓库转 prompt

纯浏览器实现的 pdf 转 markdown

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

纯浏览器实现的 pdf 转 markdown

热门主题

最近收BA的人很多 交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了 建了一个群 想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

最近收BA的人很多交易了要立刻取消BA 教训

折腾 homelab 挺长时间了建了一个群想不

在 Yoo趣儿投放广告