用python 写过大概差不多的,首先是采集的数据要绝对的多,甚至就是把一个行业的数据都采集了个遍,然后清洗数据,以美文句子举例的话,就是每篇文章和上面的老哥说的差不多,就是一句子进行清洗后存储,并且给上tag标签后存入数据库当中; 然后去清洗关键词词库,大概就是在5118 和爱站网当中,选择指数在 小于等于10 的 那种词 ,然后用结巴分词进行分词后,首先去挨个匹配tag标签,如果匹配到后,在进行匹配标签对应的句子,使得搜索的词和句子对应的相应更加符合一点,这个为第一批 生成其文章的词;然后过个一个月在做 指数在 10~20左右的,重复操作; 后续,我觉得挺麻烦的,就直接用了elasticsearch 在本地搭建了一个搜索引擎,数据库调用采集的数据;然后对搜索引擎进行调参数,看飘红率等,进行自己认为比较合适的排名数据,然后把排名靠前的数据,调用出来,生成文章! 然后自己操作过一个网站,用的是自己注册的新域名,一个月左右,确实比直接采集别人的网站,或者伪原创的收录率高一点。另外有些词也有所谓的排名; 不过其实这种手法是有局限性的,只能操作一些固定行业的站点。有些站点的数据,有经济实力的,还是得靠一些开源模型投喂大量数据后,去生成文章才行!