硬字幕提取工具10.0-支持离线OCR、自动生成时间轴，生成 ...

提示：
本软件开发者是
@hx168
，就在本论坛，转载已经过开发者同意，大家有什么问题可以直接问他
来源：https://www.zhihu.com/people/huang-yao-shi-91-46/posts以及https://bbs.acgrip.com/thread-7385-1-1.html

免责声明：

本免费工具仅供个人使用，为业余提取字幕的朋友提供方便，不可用于商业目的，不可侵犯他人知识产权。
同时，本工具利用了OCR服务商的免费额度，作者建议有长期大量需求的用户，请购买OCR服务商的额度，支持国家高科技发展。
一、目前为止可行的硬字幕(hardsub)提取方案
这里只说“可行”的方案，那些不成熟的、按时收费的，用过就删的，不在此列。

1. 人工手提，用眼和手来提取时间轴和文字。
优点：准确率高（废话）。
缺点：费时费力，不能常做。
2. esrXP + IdxSubOcr（MODI OCR）
esrXP提取视频中带字幕的图片（从而也就提取了时间轴信息），打包成idx+sub文件，然后导入IdxSubOcr用微软MODI ocr识别文字，生成一个srt字幕文件。
优点：利用传统数字图像处理技术，获得字幕出现和消失的时间点，提取时间轴信息，准确率较高。
缺点：老掉牙的微软MODI ocr识别引擎准确率较低，为了照顾MODI ocr，esrXP需要做较多设置、试验、调整参数的工作，以便提供漂亮的黑底白字clearTxT给MODI ocr,这就很考验用户的经验了。总体来说使用门槛高、识别率较低、工作量较大。虽然esrXP已经停更多时，但是苦于没有更好的选择，长期以来字幕爱好者只能将就着用。
3. VideoSubFinder + ABBYY FineReaderVideoSubFinde做类似esrXP的工作（不同的是单独保存每个字幕图片，不打包成idx+sub文件），ABBYY FineReader 15做类似IdxSubOcr的工作，将每个jpg字幕图片ocr识别为一个txt文件，然后回到VideoSubFinder 将所有txt文件合成一个srt文件。
优点：跟esrXP类似，采用了更复杂的数字图像处理技术，提取视频中带字幕的图片和时间轴信息，更好的去重算法，准确率进一步提高。ABBYY FineReader 15除了能ocr中英文，还支持其他语种。
缺点：VideoSubFinder仍然基于传统的数字图像处理技术（灰度膨胀腐蚀轮廓色度亮度相似度），虽然能较好提取普通静态字幕（显示固定颜色固定，大多数视频中硬字幕皆属此类），但是对于一些动态字幕（显示变化颜色不定），难以提取。虽然暴露了很多参数给用户，但是参数繁多难以理解，普通用户只能用默认设置。
ABBYY FineReader 15离线文字ocr引擎，虽然比MODI ocr好得多，但在实际使用效果上，对比近年AI人工智能训练的识别引擎（例如百度OCR通用文字识别引擎），识别准确率还是差了一大截。
4. 硬字幕提取工具10
采用AI文字检测+传统的数字图像处理技术（保留支持VideoSubFinder老用户），提取字幕图片和时间轴信息，然后利用百度讯飞有道OCR通用文字识别云引擎+离线ocr引擎识别出文字，校对后生成srt字幕文件，最后还可选调用第三方工具APP（例如SubtitleEdit）做调轴补漏等工作，从开始到结束，整个字幕提取流程一气呵成，快速准确、识别率高、省时省力。

软件使用截图：

软件下载（1222整合版）：

123云盘：https://www.123pan.com/s/HfxDVv-JEE7d 提取码:5PAm 或者 https://www.123pan.com/s/HfxDVv-IEE7d 提取码:H3A8
百度网盘：https://pan.baidu.com/s/1jVY0lYk5cIU6PBH8N0x5XA?pwd=6pc5 提取码: 6pc5
夸克云盘：https://pan.quark.cn/s/186a00ed21af 提取码：Fii5
OneDrive：https://xiyiha-my.sharepoint.com ... j_hfER9Sdg?e=IdLcAy
[color=]PS：因为本版本为离线OCR版，带离线OCR引擎，所以体积很大，如果不需要离线OCR引擎可以下载在线OCR版本，只有200MB，在线OCR版本在123云盘和夸克云盘里面
软件使用详细教程：
因为教程过于详细，所以请下载观看：https://wwwo.lanzoum.com/iujlN0l0mkxc
问题反馈：
Q&A:
1、Q: 软件需要安装吗？运行出错怎么办？
A: 绿色免安装，解压即可。如果运行无反应：1）离线版请确认解压后容量大于11G2）请确认安装了包内的vlc3）如果是繁体系统，请将目录名和exe文件名改成英文。
如果运行过程中，执行命令或删除出错，多半是系统权限问题，请不要将工具软件解压安装在C盘、或者偷懒放到桌面运行，有这种坏习惯要改。
2、Q: APP2指定须要用文档例子中的第三方软件吗？
A: 不指定，甚至可以不用设置，本工具将第三方软件集成入工作流中，减少了各个APP来回切换的时间。
3、Q: 可以自动标注空字幕图片吗，人眼找空字幕费眼神？
A：离线版的删合窗有‘扫描空图’功能，可以自动标注‘X’，另外在OCR过程中凡是识别为空的字幕图片，都会自动标记‘X’，不需要用人眼来寻找空字幕.
4、Q: OCR服务商免费吗？
A: 每家OCR服务商提供不同的免费识别额度（每天每月有一定数量，具体看厂家规定），业余人士可利用免费额度。同时厂家经常有优惠活动（例如百度1元购1W次网图，讯飞0元购10W次，有道新注册送100元等）。而对于长期需求用户，建议充点钱购买次数吧，价格不贵，还能支持国家高科技发展。
从7.0版本开始，离线OCR版本提供了tr、paddel、easy离线OCR引擎，不需要任何KEY，可离线使用，完全免费。
5、Q: 为什么填写了OCR服务商的KEY后，不能识别？
A: 请确认开通了服务商的文字识别服务，如识别出现“Network Exception!”错误提示，说明无法连接到OCR厂家的服务器，请检查网络连接是否正常（不要用VPN代理），或重启一下电脑再试。
6、Q: 高精度和低精度识别率差别大吗？
A: 对于清晰简单的字幕，差别不大，模糊复杂（多种语言混合）的字幕、大图识别，差别较大，在批量识别前可做识别试验，以便选择最佳设置。
7、Q: 有时候叠图出现‘间隔标记丢失，尝试纠正！’的告警提示，怎么办？
A: OCR厂商训练的机器学习模型，对不同特征的图片识别能力不同，甚至有些特殊爱好或怪癖，例如百度OCR对于模糊字幕的叠图容易丢失间隔标记（模糊与清晰并存时眼睛有点花），其他厂家的OCR则没有这种问题。有些语言类型设置会丢失第一个英文字符，有些会丢失标点，小问题不一而足。每种机器学习模型的情况都不同，在批量识别前可先做识别试验（包括加入增强魔棒），以便获得最佳设置，得到最佳识别结果。
8、Q: 极速叠图会导致识别率降低吗？
A: 对于清晰简单的字幕，识别率只有轻微降低，几乎没有影响。模糊复杂（多种语言混合）的字幕，降低较明显，如果出现识别率明显降低，或者出现‘间隔行丢失，尝试纠正... 如经常出现，请改用半叠或不叠’的告警提示，可中止识别，改为半叠或者不用叠图。叠图的主要好处是节省额度、节省时间。
9、Q: 想快速切换浏览图片，怎样操作最快速、方便？
A: 请用鼠标滚轮来做图片切换浏览，滚动时请将鼠标指针停留在图片区中，然后滚动滚轮，养成使用习惯后会很方便。
10、Q: 批量识别过程中出现Network Exception错误、额度用完、手动中止，导致识别未完成，又不想重头识别，想从中断点处继续识别怎么操作？
A: 主界面‘重做’去勾选，接下来再做批量识别将自动从中断点处继续识别。
11、Q: 识别率不高、漏字、错字、漏标点、漏空格，怎么办？
A: 识别率主要由OCR厂家训练的机器学习模型决定，遇到识别率问题，可以：
1） VSF、智能截图的截图框尽量接近字幕文字，让图片中的文字尽量显大
2）更换OCR厂家
3）更改语言类型设置
4）利用‘增强魔棒’提高识别率
5）如果用了叠图，可以改为半叠或者不叠
6）识别完成后，利用校对窗、SubtitleEdi、Aegisub等字幕软件替换错误字符
12、Q: 百度高精度识别率挺高的，多数情况下只需要补上识别丢失的空格，就能完成文字校对工作了。有办法提高插入空格速度吗？
A: 7.0版开始支持“鼠标左键或右键一键插入空格”只需要按一下鼠标就能插入一个空格，补漏空格变得更轻松了。
13、Q: OCR批量识别完成后，是在校对窗中校对，还是在APP2第三方字幕软件中校对？
A: 看个人喜爱，校对窗提供了精准对齐功能，可以大大提高校对速度。
14、Q: 网页截图识别没反应？如何提高网页、pdf文件截图识别率？
A: 需要先安装第三方截图软件如Snipaste或QQ截图，然后配合本工具才能实现截图识别。为了提高识别率，可以选用高识别率OCR厂家、还可开启增强魔棒，推荐使用Snipaste截图软件并将输出图像质量设置成100。
15、Q: 想用离线OCR识别？
A: 7.0版本开始内置支持离线OCR（须安装支持离线OCR的版本，体积较大）。也可以用ABBYY，文末VSF + SubtitleEdit （64bit）下载，内有VSF中文使用手册，有个简单步骤可以参考。
16、Q: 检测框有什么作用？
A: OCR通常包含两个步骤‘检测’+‘识别’，也就是先用检测算法扫描图片，确定哪些位置有文字以做后续识别，这些位置是用检测框的长方形坐标表示的，因此很容易通过显示检测框来判断检测算法是否可靠，例如是否框对了位置？是否漏框了？只要OCR服务返回的数据中包含坐标信息，都可以显示检测框，支持随时开启和关闭显示。
17、Q: 能支持sup、idx+sub图片字幕吗？
A: 用户给出了简单的方法：把sup或idx+sub丟進SubtitleEdit，在OCR文字區按右鍵>匯出，選擇最後一項的「圖像名稱以時間碼儲存」，選擇輸出（dumy.png）到文件夾，硬字幕提取工具就能以正常時間碼生成SRT。同时喜欢用 esrXP生成idx+sub的用户也可以试试这种方法，具体可参考手册第四节之 SUP/IDX+SUB 图形字幕OCR。
18、Q: 智能截图速度能再快些吗？
A: 将持续优化。如对时间轴精度要求不太高，可以将智能截图间隔由100ms改为200ms，可提速一倍。
19、Q: 使用时遇到报毒？担心程序植入了木马？
A: 请不用担心，因为本工具是python打包，很多防毒软件会误报（除非购买白名单证书或申请鉴定）。如不信，你可以不用，如果要抬杠，可以找人破解本工具代码，给出真实证据。
20、Q: 智能截图，有时候出来图片重复很多，手动合并很费劲？
A: 框字幕的时候请预留一些空间给检测模型，不要框得太紧了，预留1/8~1/4字符高度空间。
TODO:1、优化模型，提高速度和准确度。。。
在最后，请各位管理员大大们过一下审核吧@正己 @aakk007 @GenW @FleTime @枫MapleLCG
微软, 字幕

硬字幕提取工具10.0-支持离线OCR、自动生成时间轴，生成字幕一条龙服务，附超详细教学

相关帖子

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则