核心功能概述
这是一个基于Python开发的图形化工具,专门用于对"书源"和"订阅源"两种类型的数据源进行智能去重处理。工具采用域名分组策略,在相同域名组内进行交叉对比,有效识别和移除重复源。
主要功能模块
1.双模式支持
书源模式:处理书籍阅读类网站的数据源
订阅源模式:处理信息聚合类网站的数据源
2.智能文件类型检测
自动识别上传的JSON文件是否符合当前选择的工具类型
支持UTF-8和GBK两种编码格式的自动适配
验证文件结构是否为有效的列表格式,并检查必需的URL字段
3.域名分组策略
根据URL的域名将数据源分组
相同域名的源归为一组,在组内进行交叉相似度比较
4.可配置去重参数
相似度阈值:0-100%可调节,控制去重严格程度
自定义比较字段:根据不同工具类型提供特定的规则字段选择
5.完整日志系统
按工具类型分别生成日志文件
记录详细的处理过程和结果统计
核心去重原理
1.域名提取与分组
2.字段相似度计算
基于用户选择的比较字段进行逐项对比
相似度=匹配字段数/总比较字段数
当相似度≥设定阈值时,判定为重复源
3.组内交叉对比算法
在相同域名组内,对每个源与其他源进行两两比较
保留第一个出现的源,移除后续相似的源
避免重复比较,使用索引标记已处理源
4.处理流程
文件验证→检查文件格式和类型匹配性
URL规范化→清理URL中的空格和非法字符
域名分组→按域名将源分配到不同组
组内去重→相同域名组内进行相似度比较
结果输出→生成保留文件和移除文件
技术特点
1.智能进度管理
分阶段进度显示:文件读取(10%)→URL规范化(20%)→域名分组(30%)→去重处理(100%)
2.多线程处理
GUI界面响应与后台处理分离
避免界面卡顿,提升用户体验
3.容错处理
自动处理URL解析异常
对无URL或无效URL的源进行特殊分组处理
支持多种编码格式的自动适配
4.结果统计
原始源数量、保留数量、移除数量
去重效率百分比计算
详细的处理日志记录
界面设计特色
1.直观的操作流程
源类型选择→文件选择→参数设置→开始处理
实时进度反馈和状态更新
2.参数可视化调节
滑块控制相似度阈值
增减按钮微调参数
平面化复选框设计,提升视觉体验
3.主题化样式
使用clam主题,界面风格统一
自定义控件样式,提升美观度
输出管理
1.文件组织
在程序目录下创建out文件夹
按时间戳命名输出文件,避免覆盖
分别生成保留文件和移除文件
2.日志记录
按工具类型和时间戳生成独立日志
包含DEBUG、INFO、WARNING、ERROR多级别日志
适用场景
书源管理:清理重复的阅读网站数据源
订阅源优化:去除重复的RSS订阅源
数据源整理:对大规模源数据进行智能去重
该工具通过科学的域名分组策略和灵活的相似度计算,有效解决了数据源重复问题,同时保持了良好的用户体验和操作便捷性。

002.png (253.97 KB, 下载次数: 0)
下载附件
2025-10-27 17:04 上传

001.png (77.65 KB, 下载次数: 0)
下载附件
2025-10-27 17:04 上传
https://wwow.lanzouq.com/iPALl39h3vuj

