完全使用GPT写的词库生成软件，支持百度、搜狗、手心输 ...

作者：ZakaryTime 发布时间：2024-9-1 06:11:34

一直以来想维护一个自己的联系人以及专业词库，每个输入法的词库格式不同。最开始使用Excel进行生成，感觉很麻烦，于是使用AI和Python搞一个脚本，实在没想到AI如此强大，写出来的脚本就没报过错，功能也完全符合预期。于是分享给大家，一是分享给对于词库和我有同样需求的人，二是希望大家都能够使用Ai编写自己需要的脚本。
脚本只经过了初步测试，符合我自己的需求，有其他需求请自行修改（也是一个学习的过程），Bug能修就修，修不了我也没办法。
脚本功能：遍历data目录下的所有文件（忽略-开头的文件），并根据输入的命令行参数输出手心输入法、搜狗输入法、百度输入法词库。支持多音字。
命令行参数：baidu、sougou、shouxin
PS：data目录下的文件编码为UTF-8，每一行一个词。
[Github地址](https://github.com/MisterZakary/input_method_thesaurus_generation/blob/main/main.py)
代码如下
```Python
# 脚本功能：遍历data目录下的所有文件（忽略-开头的文件），并根据输入的命令行参数输出手心输入法、搜狗输入法、百度输入法词库。支持多音字。
# 命令行参数：baidu、sougou、shouxin
# data目录下的文件编码为UTF-8，每一行一个词
import os
import argparse
from pypinyin import pinyin, Style
# 生成拼音
def convert_to_pinyin(text):
pinyin_list = pinyin(text, style=Style.NORMAL, heteronym=True,errors="ignore")
pinyin_str = "'".join([''.join(char) for char in pinyin_list])
return pinyin_str
# 写入文件
def read_file_in_chunks(file_path, output_file_name, output_encoding, output_format, chunk_size=100):
with open(file_path, 'r', encoding='utf-8') as file:
      lines = file.readlines()
      if lines[-1] == '\n':
         lines = lines[:-1]  # 如果最后一行是空白行，则删除
      for line in lines:
         pinyin_line = convert_to_pinyin(line.strip())

         if output_format == 'baidu' or output_format == 'shouxin':
            new_line = f"{line.strip()}\t{pinyin_line}\t3"
         elif output_format == 'sougou':
            new_line = f"{pinyin_line}\t{line.strip()}"

         with open(output_file_name, "a", encoding=output_encoding) as output_file:
            output_file.write(new_line + '\n')
# 添加命令行参数
parser = argparse.ArgumentParser(description='请输入你要生成的词库类型，sougou、baidu、shouxin')
parser.add_argument('output_format', choices=['baidu', 'shouxin', 'sougou'], help='Choose the output format')
args = parser.parse_args()
# 根据命令行参数选择输出文件名、编码格式和格式
if args.output_format == 'baidu':
output_file_name = '百度.txt'
output_encoding = 'utf-16'
output_form

词库, 输入法

相关帖子

ZakaryTime

OP

2024-9-1 06:12:09

gylgb 发表于 2024-8-25 10:45
不太明白，能详细点吗
0. 访问Github下载代码
1. 安装Python
2. 使用pip install pypinyin安装库
3. 在data目录下创建你需要生成的词库的文本文件，每行一个短语
4. 使用Python main.py运行脚本。或者直接双击运行对应的批处理文件（批处理文件在Github上）
5. 等待词库生成，然后导入到对应的输入法

ZakaryTime

OP

2024-9-1 06:13:06

虚空先森发表于 2024-8-25 12:02
已安装Python,如何运行哦,有大佬截图看一下吗
0. 访问Github下载代码
1. 安装Python
2. 使用pip install pypinyin安装库
3. 在data目录下创建你需要生成的词库的文本文件，每行一个短语
4. 使用Python main.py运行脚本。或者直接双击运行对应的批处理文件（批处理文件在Github上）
5. 等待词库生成，然后导入到对应的输入法

justwz 2024-9-1 06:13:41

有词库后是输入简单点吗

hehe549124 2024-9-1 06:14:31

具体用途是啥呢？

ZakaryTime

OP

2024-9-1 06:15:17

justwz 发表于 2024-8-24 21:17
有词库后是输入简单点吗
能够提高准确度，打出来那个短语就能直接出来，避免一个一个单字选择

ZakaryTime

OP

2024-9-1 06:15:56

hehe549124 发表于 2024-8-24 23:02
具体用途是啥呢？
比如说你手上有一个联系人名单，就可以根据这个名单生成词库，导入之后输入法就可以直接打出这些名字。

小智xyz 2024-9-1 06:16:30

ZakaryTime 发表于 2024-8-24 23:40
比如说你手上有一个联系人名单，就可以根据这个名单生成词库，导入之后输入法就可以直接打出这些名字。
这不是最基础的功能吗我是好像现在的输入法都有吧

h1989 2024-9-1 06:17:30

什么根据公开的gitub网站上gpt4创立本地gpt4？？？

ZakaryTime

OP

2024-9-1 06:18:12

小智xyz 发表于 2024-8-25 00:31
这不是最基础的功能吗我是好像现在的输入法都有吧
手机可以直接访问通讯录，电脑不行，而且不仅仅是通讯录，可以找自己需要的任意内容生成词库，我是记者就可以把我们区域的政府机构全称，标准化简称，主要领导名字、职务，领导人讲话等内容倒入词库。

完全使用GPT写的词库生成软件，支持百度、搜狗、手心输入法

相关帖子

浏览过的版块

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

完全使用GPT写的词库生成软件，支持百度、搜狗、手心输入法

相关帖子

浏览过的版块

热门主题

最近收BA的人很多 交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了 建了一个群 想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

最近收BA的人很多交易了要立刻取消BA 教训

折腾 homelab 挺长时间了建了一个群想不

在 Yoo趣儿投放广告