用 GPT4 翻译电子书的体验

查看 26|回复 0
作者:Alicewish   
继之前测试过用 GPT4O 阅读其他语种的漫画且效果还不错后,就考虑用 GPT4 进行英文电子书翻译了。为节约成本并提高可读性,使用网页版,也就是 3 小时限额 40 条的版本。之前没这么干是因为我经常要用 GPT4 改代码,不能消耗大量额度让自己要用的时候用不了,但既然 GPT4O 出来了且是分别计算额度的,就算 GPT4 额度用光也能暂时用 GPT4O 。
目前翻译了两本悬疑小说,三本教程类书籍,一本学术类书籍,一本神话类书籍。
流程是这样的:
[ol]
  • 提取电子书中的 html 类文件。
  • 提取所有段落标签和标题标签。
  • 先用谷歌翻译做一遍机翻,方便出 bug 时排查问题。
  • 对提取的英文进行切分,保持每段切分在 2000 字符左右,总共会有 150 ~ 300 段切分。
  • 每 3 小时进行 40 次提问。
  • 完成提问并检查后打包成中文电子书。
    [/ol]
    所以一本书大概要翻译一两天。
    目前遇到的问题:
    [ol]
  • 受限于网络状况,回答不时出错或中断,使得自动化脚本半失效,需要经常人工检查。
  • 审查很严重,连亲吻都会被屏蔽。这些部分需要手动处理。
  • 会出现一些奇怪的 bug ,比如把 1990 年翻译成 1980 年,我刷了 4 遍才出来正确的 1990 年。
  • 即便在同一对话中,人名也经常不能保持一致,且有时候人名会不翻译。
  • GPT 有时候会把相邻的两段翻译成一段。
  • 对于超长段落,没翻译完就停止,刷新依然如此。
  • 有一些电子书里有大量的 a 标签,尤其是脚注多的书籍,很难处理。
  • 翻译后的文本可能会丢失一部分标签,比如 a 标签和 span 标签。
    [/ol]
    我不想发布未经人工校对的电子书的下载版,避免错误越传越广,但在不同平台尝试发长图结果大部分都被屏蔽了。目前考虑将全书内容做成一个带目录的长网页,找个地方放,方便我自己修改和管理可读性,但这又要费一番功夫了。
    我自己感兴趣的书主要是侦探、科幻、各领域历史、计算机这些类别的,之前因为看英文书太累了,好多书虽然买了却只看了一部分。
  • 您需要登录后才可以回帖 登录 | 立即注册

    返回顶部