帮我把这些书转为epub并优化排版

查看 82|回复 9
作者:ysdwc   
首先给出我已经下好的页面:
赛雷三分钟漫画.rar
https://wwpv.lanzoue.com/iBvWr0qqugpe
现在我给出其中一本书的在线阅读地址作为参考:https://www.zhihu.com/pub/reader ... 1526265662763098112
要求:
1. 对三国演义系列的书按序号合并成一本输出,目录树的层级格式要与我展示的合集保持一致
2. 把世界史和中国史分开,即: 世界史在原合集中有1、2,要和我提供的第3本组成新的合集; 中国史的5本直接组成另外的合集;目录树的层级格式要与我展示的合集保持一致
3. 对于所有的书都要把图片下载到本地,以供离线阅读,切勿从外部引用,务必确保所有图片都被正确下载,用pandoc处理时需留意报错信息,重点观察报错位置的图片是否丢失
4. 对二次整理的合集应当剔除原有目录页,重新生成适合的内容
5. 封面页/图不要作为普通页面打包到正文中,而要让它们真正作为封面;合集的封面图可以参考官方的阅读页面
附: windows下的pandoc编译电子书的批处理脚本
[Shell] 纯文本查看 复制代码@echo off
REM 获取当前目录的路径
set "BASE_DIR=%cd%"
REM 遍历当前目录下的所有子文件夹
for /d %%D in (*) do (
        REM 进入子文件夹
        cd "%%D"
        REM 合并所有 HTML 文件为一个(临时)文件
        copy /b *.html "%%D.html"
        REM 调用 pandoc 转换为 EPUB
        pandoc "%%D.html" -o "..\%%D.epub"  --metadata title="%%D"
        REM 清理(临时)文件,确保多次合并操作生成的内容不会爆炸
        del "%%D.html"
        REM 返回上级目录
        cd "%BASE_DIR%"
)

合集, 目录

注册个id   

这个应该可以用chatgpt解决吧
话痨司机啊   

用EasyPub,写一个css搞定
https://bookfere.com/post/151.html
话痨司机啊   


注册个id 发表于 2023-3-22 11:08
用EasyPub,写一个css搞定
https://bookfere.com/post/151.html

你确定你认真看要求了吗,正则表达式都不一定一次就能搞定的东西你让我用css?
话痨司机啊   

seleinum好像能弄,就是效率低一点,还得有会员cookie~
Timoney   

可惜我没会员~
话痨司机啊   


话痨司机啊 发表于 2023-3-22 15:36
可惜我没会员~

不需要你有会员,资源我都下好了,阅读页面是给你参考格式的
Timoney   


侃遍天下无二人 发表于 2023-3-22 16:07
不需要你有会员,资源我都下好了,阅读页面是给你参考格式的

编译安装了pandoc,但是系统无法运行,看不到效果,大概浏览了你的压缩包,感觉得写个算法才能好分类,世界史和中国史有的混到一起了还有其他的分类,统计学有个决策树模型算法,不知道能不能套用,用seleinum提取一下图片和信息点~,如果是简单根据文件名分类的话,可以用到其他工具辅助,DropIt。
话痨司机啊   

难倒不难,就是下载和处理图片工作量大,比较繁琐。以前在知乎看见喜欢的教程专栏,花了两周多的时间硬是搞下来做成一本电子书,转成pdf有近3500页,不过很需要那个教程,做成epub纯属自娱自乐。
现在没空帮不上忙,帮顶贴吧。
话痨司机啊   


话痨司机啊 发表于 2023-3-22 17:22
编译安装了pandoc,但是系统无法运行,看不到效果,大概浏览了你的压缩包,感觉得写个算法才能好分类,世 ...

真想不到算法也可以用 cailbre 手动处理,pandoc你直接下载release放到PATH路径就行了,通过我写的脚本调用,直接双击运行是会闪退的,分类也可以解压完后手动进行,给文件名前面再加一层序号就可以了,反正最终不要让序号出现在目录树中就行
您需要登录后才可以回帖 登录 | 立即注册

返回顶部