请教:notepad或者wps表格如何标记重复一定字数的行?

查看 45|回复 1
作者:逗号广告联盟   
如题,比如有1万行文字,如何标记出这一万行里面有重复字数超过5个字的?

标记, 字数

制心一处   
要标记出一万行文字中重复字数超过5个字的部分,可以使用以下步骤:
    将每一行文字存储在一个列表或数组中,以便后续处理。
    创建一个空的字典,用于存储重复的文本和它们的出现次数。
    遍历每一行文字,对于每一行,执行以下步骤:
        将当前行与其他行进行比较,检查是否有超过5个字的重复部分。
        如果有重复部分,将其添加到字典中,并增加其出现次数。
    遍历字典,找到出现次数超过1的重复文本。
    标记出重复文本所在的行。
以下是一个示例代码,用于实现上述步骤:
lines = [...]  # 存储一万行文字的列表
repeated_text = {}  # 存储重复文本和出现次数的字典
# 遍历每一行文字
for i in range(len(lines)):
    current_line = lines[i]
   
    # 检查当前行与其他行是否有重复部分
    for j in range(i+1, len(lines)):
        other_line = lines[j]
        
        # 检查是否有超过5个字的重复部分
        for k in range(len(current_line)-5):
            if current_line[k:k+5] in other_line:
                repeated_text[current_line[k:k+5]] = repeated_text.get(current_line[k:k+5], 0) + 1
# 找到出现次数超过1的重复文本
for text, count in repeated_text.items():
    if count > 1:
        print("重复文本:", text)
        
        # 标记出重复文本所在的行
        for i in range(len(lines)):
            if text in lines[i]:
                print("行号:", i+1)
请注意,这只是一个示例代码,具体实现可能需要根据实际情况进行调整。
您需要登录后才可以回帖 登录 | 立即注册

返回顶部