更新版 - 个人 OCR 小脚本 (单文件自包含,增加翻译功能)

查看 7|回复 0
作者:pyjiujiu   
[color=]**前言
上一篇是 紧跟潮流 也写个 OCR 图像识别 (调用本地 http )
原先调用的是 Umi-ocr 软件的 http 服务,也就需要原软件 保持后台运行,不是特别方便
这回换个路线,
[color=]直接调用 封装好的OCR引擎组件
(还是 umi 的作者团队的作品) 仓库地址
效果是,
不再需要原 umi 软件,脚本自己即可使用
(方便很多)
#这回又写了很多代码,加上侧重点 和上篇有很大的差异,还有一些新的理解,再更新在上篇,篇幅会非常感人
#所以重新开一篇
[color=]**简单介绍
*实现全部界面参数 都可调(上一帖没做完)
*加上 大模型翻译模块 自动判断中英文(参考了 沉浸式翻译插件的 prompt)
*维持了原先简洁的风格(自以为的)
*小功能(ctrl+z,ctrl+y undo 和 redo,#是tkinter 自带的 )
*umi-ocr 本身有个规律,越用内存占用越大(峰值大概2G),内存占用越高,识别越快(所以开始会慢点)
#不过也因如此,代码写很多,逼近屎山,敬请见谅
[color=]**文件下载(仓库)
因为这回是自包含的,需要额外的「模型文件」 和 「排版解析模块
如图


目录截图.PNG (23.78 KB, 下载次数: 0)
下载附件
2024-11-26 18:45 上传

*其中OCR(自包含).py 是下文的代码
其他两个文件夹,都在同一个github仓库下载,仓库地址
*PaddleOCR-json_v1.4.1
[color=]Releases

*tbpu 在 仓库的
[color=]api/python 文件夹内
(还有其他文件,可以自行研究或忽略)
操作很简单,将两者下载到同一个文件夹内即可使用,如上图,注意版本号
#原仓库有很多说明,下载的代码内 也有详尽的注释
---分割线---
[color=]**翻译模块
参照下图说明:


说明翻译步骤.png (15.79 KB, 下载次数: 0)
下载附件
2024-11-26 18:56 上传

想法:必须选中文本,考虑到 OCR 识别有很多识别错误,直接全部一键翻译是不太符合直觉的
想法:常见的翻译需求就是 中英互译,所以固定自动识别,不再提供参数选择(有特殊需要,可以修改代码)
翻译前,先在
[color=]脚本内输入 API 的参数
,包括API-KEY 和 MODEL 还有 BASE_URL  (代码内有参考)
[color=]**忽略区域设置(参数之一)


忽略区域(参数说明).png (11.35 KB, 下载次数: 0)
下载附件
2024-11-26 18:45 上传

简单说,就是输入 左上角 和 右下角的坐标 ((x1,y1),(x2,y2))   
x1,y1 --> 代表左上角的坐标,
这两个点,定义了识别的边界,,要求是结果的 小block 完全在边界内才行
忽略区域,可以直接输入,不需要的话清空,或选 None 都可
---分割线---
[color=]**下面是代码
[Python] 纯文本查看 复制代码
#脚本基于 https://github.com/hiroi-sora/PaddleOCR-json ,是再次封装(感谢原作者)
import os
import time
import atexit  
import subprocess  
import re  
from json import loads as jsonLoads, dumps as jsonDumps
from sys import platform as sysPlatform  
from base64 import b64encode  
import pathlib
#翻译模块用的 prompt,可自行修改,注意格式化两个变量 to 和 ori_text
PROMPT_TEMPLATE = ''' Translate the following source text to {to}.if html-only Output translation directly without any additional text,
the only preserve part of {to} is the uncommon word which is surrounded by bracket () for annotation.
Source Text:
{ori_text}
Translated Text:'''
#####模型参数设定  #####################
# 初始化 OpenAI API
#API_KEY= 'sk-xxxxxxxxxxx'  # 替换为您的 OpenAI API 密钥
API_KEY =  ''
#MODEL = "deepseek-chat"  #deepseek
MODEL = "grok-beta"     #xai
#BASE_URL = "https://api.deepseek.com"  #deepseek 注意没有 v1
BASE_URL = "https://api.x.ai/v1"   #xai
####################################
from tbpu import GetParser  
#取消 modelsPath参数,只用同目录
#取消剪贴板的 类内部实现
#修改rundict --> 统一为 run
class PPOCR_pipe:  
    def __init__(self, exe_path: str=None, argument: dict = None):
        """初始化识别器(管道模式)。\n
        `exe_path`: 识别器`PaddleOCR_json.exe`的路径。\n
        `modelsPath`: 识别库`models`文件夹的路径。若为None则默认识别库与识别器在同一目录下。\n
        `argument`: 启动参数,字典`{"键":值}`。参数说明见 https://github.com/hiroi-sora/PaddleOCR-json
        """
        if not exe_path:
            exe_path="./PaddleOCR-json_v1.4.1/PaddleOCR-json.exe" #路径绑定,目录结构改变 需要修改这个
        self.__ENABLE_CLIPBOARD = False
        exe_path = pathlib.Path(exe_path).resolve()
        cwd = exe_path.parent  
        cmds = [exe_path]
        if isinstance(argument, dict):
            for key, value in argument.items():   
                if isinstance(value, bool):
                    cmds += [f"--{key}={value}"]  
                else:
                    cmds += [f"--{key}", str(value)]
        self.ret = None
        startupinfo = None
        if "win32" in str(sysPlatform).lower():
            startupinfo = subprocess.STARTUPINFO()
            startupinfo.dwFlags = (
                subprocess.CREATE_NEW_CONSOLE | subprocess.STARTF_USESHOWWINDOW
            )
            startupinfo.wShowWindow = subprocess.SW_HIDE
        self.ret = subprocess.Popen(cmds,cwd=cwd,stdin=subprocess.PIPE,stdout=subprocess.PIPE,stderr=subprocess.DEVNULL,  
                                    startupinfo=startupinfo,  
        )
        # 启动子进程
        while True:
            if not self.ret.poll() == None:  # 子进程已退出,初始化失败
                raise Exception(f"OCR init fail.")
            initStr = self.ret.stdout.readline().decode("utf-8", errors="ignore")
            if "OCR init completed." in initStr:  # 初始化成功
                break
            elif "OCR clipboard enbaled." in initStr:  
                self.__ENABLE_CLIPBOARD = True
        atexit.register(self.exit)  
        
    def getRunningMode(self) -> str:
        return "local"
    #整合原运行函数
    def run(self, writeDict: dict):
        """传入指令字典,发送给引擎进程。\n
        `writeDict`: 指令字典。image_path or image_base64 \n
        `return`:  {"code": 识别码, "data": 内容列表或错误信息字符串}\n"""
        if not self.ret:
            return {"code": 901, "data": f"引擎实例不存在。"}
        if not self.ret.poll() == None:
            return {"code": 902, "data": f"子进程已崩溃。"}
        writeStr = jsonDumps(writeDict, ensure_ascii=True, indent=None) + "\n"
        try:
            self.ret.stdin.write(writeStr.encode("utf-8")) # 文件名image_path,也可是image_base64
            self.ret.stdin.flush()
        except Exception as e:
            return {
                "code": 902,
                "data": f"向识别器进程传入指令失败,疑似子进程已崩溃。{e}",
            }
        try:
            getStr = self.ret.stdout.readline().decode("utf-8", errors="ignore")
        except Exception as e:
            return {"code": 903, "data": f"读取识别器进程输出值失败。异常信息:[{e}]"}
        try:
            return jsonLoads(getStr)
        except Exception as e:
            return {
                "code": 904,
                "data": f"识别器输出值反序列化JSON失败。异常信息:[{e}]。原始内容:[{getStr}]",
            }

    def exit(self):
        """关闭引擎子进程"""
        if hasattr(self, "ret"):
            if not self.ret:
                return
            try:
                self.ret.kill()  
            except Exception as e:
                print(f"[Error] ret.kill() {e}")
        self.ret = None
        atexit.unregister(self.exit)  
        print("###  PPOCR引擎子进程关闭!")
    @staticmethod
    def printResult(res: dict,tbpu_parser):
        """用于调试,格式化打印识别结果。\n
        `res`: OCR识别结果。"""
        if tbpu_parser == "multi_para":
            spliter = ' '
        else:
            spliter = ''
        if res["code"] == 100:
            text_new = []
            for line in res["data"]:
                end="\n" if line.get("end", "") == "\n" else spliter
                line_text = line['text'] + end
                text_new.append(line_text)
            return ''.join(text_new)
        elif res["code"] == 100:
            print("图片中未识别出文字。")
        else:
            print(f"图片识别失败。错误码:{res['code']},错误信息:{res['data']}")
    def __del__(self):
        self.exit()
        
##下面是 文本块后处理
import tkinter as tk
from tkinter import filedialog, messagebox,scrolledtext
from tkinter import ttk
from tkinterdnd2 import TkinterDnD, DND_FILES
import io
from PIL import ImageGrab   #剪切板读图
import threading
import ctypes
ctypes.windll.shcore.SetProcessDpiAwareness(2)
def img_base64(img_file):
    if isinstance(img_file,io.BytesIO):
        img_bytes = img_file.getvalue()
    else:
        img_bytes = pathlib.Path(img_file).read_bytes()
    return b64encode(img_bytes).decode('utf-8')
class OptTranslator:
    '''en --> zh'''
    __slots__=('ocr_language','tbpu_parser','opt_name')
    def __init__(self) -> None:
        self.opt_name:dict = {"ocr.language":"语言:","ocr.cls":"对正文字:","ocr.limit_side_len":"限制边长:","tbpu.parser":"排版:","tbpu.ignoreArea":"忽略区域:","data.format":"数据格式:",}
        self.ocr_language:dict={"简体中文":"models/config_chinese.txt",
                        "English":"models/config_en.txt",
                            "繁體中文":"models/config_chinese_cht.txt",
                            "日本語":"models/config_japan.txt",
                            "한국어":"models/config_korean.txt",
                            "Русский":"models/config_cyrillic.txt"}
        self.tbpu_parser:dict = {"单栏-按自然段换行":"single_para",
                            "单栏-总是换行":"single_line",
                            "多栏-按自然段换行":"multi_para",
                            "多栏-总是换行":"multi_line",
                            "多栏-无换行":"multi_none",
                            "单栏-按自然段换行":"single_para",
                            "单栏-总是换行":"single_line",
                            "单栏-无换行":"single_none",
                            "单栏-保留缩进":"single_code",
                            "不做处理":"none"}
#处理忽略区域
#用box[] 左上 和 右下 确定x 和 y 的边界(和官方原理一致,必须完全在范围内)
#{'code': 100, 'data': [{'box': [[24, 6], [50, 6], [50, 22], [24, 22]],}
def is_valid(point:list,rect:tuple):
    '''界限检测,不包括边界'''
    x_l,y_l,x_r,y_r= (*point[0],*point[2])
    if x_l  rect[1][0] or y_r > rect[1][1]:
        return False
    return True
def is_zh(string_): #计算主要中文 还是英文
    char_state = 0
    for char in string_:
        if '\u4e00' = 0
def trans_worker(ori_text,client,text_widget,sel_start_index,tran_button):
    target_lang = 'English' if is_zh(ori_text) else '中文'
    user_prompt = PROMPT_TEMPLATE.format(to=target_lang,ori_text=ori_text)
    tran_button["text"] = "翻译中..."
    try:
        response = client.chat.completions.create(
                model= MODEL,  
                messages=[
                    {"role": "system", "content": "You are a professional, authentic machine translation engine."},
                    {"role": "user", "content": user_prompt}
                ]
            )
        translated = response.choices[0].message.content
    except :
        tran_button["text"] = "翻译"
        return
    #add space
    modified_content, num1 = re.subn(r'([\u4e00-\u9fff])([\u0041-\u007A])', r'\1 \2', translated)
    modified_content, num2 = re.subn(r'([\u0041-\u007A])([\u4e00-\u9fff])', r'\1 \2', modified_content)
    if translated:
        line_number = int(sel_start_index.split('.')[0])  
        if float(sel_start_index) + 1 >= float(text_widget.index(tk.END)):
                text_widget.insert(f"{line_number + 1}.0", '\n\n' + translated + '\n\n')
                return
        text_widget.insert(f"{line_number + 1}.0", '\n' + translated + '\n\n')
    tran_button["text"] = "翻译完毕"
    time.sleep(0.8)
    tran_button["text"] = "翻译"
def translate(ori_text:str,text_widget,sel_start_index,tran_button):
    try:
        import openai
        from openai import DefaultHttpxClient
        custom_client = DefaultHttpxClient(timeout=4)
        client  = openai.OpenAI(base_url=BASE_URL,api_key=API_KEY,http_client=custom_client)
        
        t = threading.Thread(target=trans_worker,args=(ori_text,client,text_widget,sel_start_index,tran_button))
        t.start()
    except ModuleNotFoundError:
        messagebox.showwarning("警告","翻译需先安装 openai 库")
    except Exception as e:
        print(e)
class App:
    def __init__(self, root):
        self.root = root
        self.root.title("OCR")
        self.root.geometry("520x450")
        self.file_path_label = tk.Label(root, text="File Path:")
        self.file_path_label.grid(row=0, column=0, sticky="w", padx=10, pady=10)
        self.file_path_entry = tk.Entry(root, width=50)
        self.file_path_entry.grid(row=0, column=1, padx=10, pady=10)
        self.open_button = tk.Button(root, text="Open", command=self.open_file)
        self.open_button.grid(row=0, column=2, padx=10, pady=10)
        self.root.drop_target_register(DND_FILES)
        self.root.dnd_bind('>', self.on_file_drop)
        self.clipboard = None
        self.root.bind("", self.on_paste)
        self.arg_vars = [tk.StringVar() for _ in range(6)]
        self.arg_comboboxes = []  
        self.arg_comboboxes_label = []
        self.OptTranslator = OptTranslator()
        self.option_list = [{'opt_name':'ocr.language','value':[ ("models/config_chinese.txt","简体中文"),
                                                                ("models/config_en.txt","English"),
                                                                ("models/config_chinese_cht(v2).txt","繁體中文"),
                                                                ("models/config_japan.txt","日本語"),
                                                                ("models/config_korean.txt","한국어"),
                                                                ("models/config_cyrillic.txt","Русский")]},
                            {'opt_name':'ocr.limit_side_len','value':("960", "2880", "4320", "999999")},
                            {'opt_name':'tbpu.parser','value':[
                                                                ("single_para","单栏-按自然段换行"),
                                                                ("single_line","单栏-总是换行"),
                                                                ("multi_para","多栏-按自然段换行"),
                                                                ("multi_line","多栏-总是换行"),
                                                                ("multi_none","多栏-无换行"),
                                                                ("single_none","单栏-无换行"),
                                                                ("single_code","单栏-保留缩进"),
                                                                ("none","不做处理")]},
                            {'opt_name':'ocr.cls','value':(False, True)},
                            {'opt_name':'tbpu.ignoreArea','value':['',None]},
                            {'opt_name':'data.format','value':("text","dict")}]
        for i in range(6):
            arg_label = tk.Label(root, text=self.OptTranslator.opt_name[self.option_list['opt_name']])
            if self.option_list['opt_name'] == 'tbpu.ignoreArea':
                arg_combobox = ttk.Combobox(root, textvariable=self.arg_vars, state="normal", width=20)
            else:
                arg_combobox = ttk.Combobox(root, textvariable=self.arg_vars, state="readonly", width=20)
            if i
---分割线---
[color=]**代码 & 说明
*本篇代码是 基于官方的 PPOCR_api.py 进行修剪,然后加上自己的 gui 模块
官方有两条路线 pipe 和 socket ,本代码剪去 socket部分(即无法用作服务器),然后几个运行的函数,归于run()(为了节约篇幅)
*模块差异比较大,为了方便区分,故分开写 import ,没有都放在开头
*写完这篇才发现,
-参数的忽略区域 ignoreArea 是可自己实现的,就用左上右下坐标,和bbox (每个识别block的四个坐标) 进行对比
-参数的 parser 排版(即多行,单行)是基于【间隙·树·排序算法】 GapTree_Sort_Algorithm
-对正文字 其实是两个参数,use_angle_cls 和 cls 同时为 True, 数据会多返回两个指标
    # cls_label :方向分类标签,整数。0 表示文字方向是顺时针 0°或90°,1 表示 180°或270° 。
    # cls_score :方向分类置信度,0~1的浮点数。越接近1表示方向分类越可信。
-关于软件:内存占用,是软件自行控制,峰值可以达到2G左右(原来以为是小软件)
**最后
再来点体会:之前觉得 沉浸式翻译很不错的功能,但了解设置背后的细节,才发现不如 自己整合 翻译的 workflow 来的专业,好处是能快速提供一个草稿(仅个人看法)
欢迎学习交流

换行, 参数

您需要登录后才可以回帖 登录 | 立即注册