用 GPT4o 半自动式辅助阅读非母语漫画，或辅助盲人阅读 ...

GPT4 有读图能力，但是速度太慢额度太低，不如仅用于翻译漫画文本。问题是纯文本情况下缺乏图像上下文，翻译上会出现一部分问题。
GPT4o 读图能力更强，生成回答的速度更快，额度更高，但在知识的广博性上却不如 GPT4 。
测试效果参见： https://weibo.com/1788862154/Oejaha5TS
如果一段对话不需要图像上下文就能很好地理解，那 GPT4 的翻译表现更优，反之 GPT4o 的翻译表现更优。
我的目的是完成一个几乎自动化的流程让 GPT4o 读完一本漫画并生成描述性文本，包括画面内容、画面文本、画面文本的翻译。这份描述性文本可以辅助漫画翻译或者让视障者初步了解漫画内容。
实践中遇到的问题主要是 GPT 会经常报错，或者网络原因未生成完答案或无法生成答案，或者传图错误，或者生成空答案需要用户手动点击重新生成。还有更多奇怪的错误无法很好地让 python 去处理。
经过几天的不懈测试，放弃纯网页版操作的想法，并测得在 Mac M1 版 ChatGPT 官方应用上，生成空答案时会自动重新生成，且答案是否生成完毕会有比较明显的标志。
所以目前的流程就是用 python 模拟键鼠配合 applescript 对 Mac M1 版 ChatGPT 官方应用上传图片并提问，同时通过 web 版获取当前对话的所有提问和回答，来保证不上传重复图片，并在出错或完成阅读漫画后用语音等方式提醒用户，在完成阅读漫画后生成漫画的描述性文本。
相关代码将在晚些时候更新到 https://github.com/alicewish/MomoTranslator
一些在测试中生成的描述性文本如下：
Lotus Land 001 004
第一格
剧情：一个壁画的特写，展示了一杯咖啡和一个咖啡壶，咖啡冒着热气。Character: None 角色：无
第二格
剧情：男人站在房间里，身后有一个衣架，孩子正在衣架上取东西。Character: "You find the cream alright?"
角色：“你找到奶油了吗？”
第三格
剧情：一个木质的小屋内部，桌子上有咖啡壶和杯子。男人站在桌旁，另一个人在柜子前找东西。孩子站在屋子中间。Character 1: "Oh, we
found it as soon as we opened the door. Nearly called in forensics."
角色 1：“哦，我们一打开门就找到了。差点叫了法医来。”
Character 2: "You oughta clean this place once in a while."
角色 2：“你应该偶尔打扫一下这个地方。”
第四格
剧情：男人站在孩子身后，微笑着摸孩子的头。Character 1: "How ya doin', squirt?"
角色 1：“你怎么样，小家伙？”
Character 2: "Not bad, Mr. Lundi." 角色 2：“还不错，伦迪先生。”
第五格
剧情：男人站在门口，手里拿着一个衣架。Character: "Whaddya want, Russ?" 角色：“你想要什么，拉斯？”

用 GPT4o 半自动式辅助阅读非母语漫画，或辅助盲人阅读漫画的方案

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则