有办法将 pdf 转成 markdown 吗?

查看 119|回复 8
作者:elevioux   
试了下网上的几个工具,结果出来都不太理想。
pdf 都是一些产品说明介绍,有各种图表图片等,排版复杂没有规律。
想着能不能把产品 pdf 的主要内容,表格之类的转成 markdown ,方便后续 embedding 喂给 chatgpt 。
又或者 pdf to markdown 这一步需要单独训练个 AI 出来?如何开始,大家有思路吗?

PDF, Markdown, embedding, chatgpt

me221   
pdf 可以直接 embedding 给 ChatGPT 呀
SWALLOWW   
@me221 怎么嵌入啊,怎么给文件,图片这些信息啊
elevioux
OP
  
@me221 如果我理解没问题的话,embedding 本身只是用于语义搜索,搜索出来的结果必须要有对应的原文本才好给到 chatgpt 处理。如果 pdf 转 markdown 不理想的话,chatgpt 拿到文本也是很难理解。还是我思路有问题?望指教
fzls   
@elevioux #3 下面这个网站可以直接喂 pdf
https://www.chatpdf.com/
yekern   
pdf 转 html 转 markdown 不可以么
elevioux
OP
  
@fzls 知道有这个网站,试了一下,有些问题还是回答不了,说文本没有提到。。。。
elevioux
OP
  
@yekern 有想到过,也试过,还是表格形式的数据难以转换。pdf 的排版太没规律了,我们人眼看起来是个表格,转成 html ,就成了各种 div 的拼凑。
c2const   
1.PDF 包含的信息太多了,比如嵌入私有字体都可以,想保留格式转化没啥好办法 :(
2.可以直接把所有 PDF 打印成高质量图片,markdown 贴图 :)
3.精细一点,可以把简单格式的文字转 markdwon ,不方便转表格图片其它格式就用图片,但是不知道有没有现成的自动化程序 :(
您需要登录后才可以回帖 登录 | 立即注册

返回顶部