GPT 是如何学习高质量中文语料的呢?

查看 75|回复 6
作者:koto   
首先请原谅我小白的提问。
简体中文互联网的内容这些年越来越封闭,许多都只存在于 app 内部,网络很难检索到。
那么 GPT 是怎么学习一些高质量且比较新的简中语料的呢?

GPT, 简中语, 语料, 中文

naminokoe   
v2ex 就是能检索到的,难道 V2EX 上的语料不是高质量的吗?
James2099   
爬取互联网内容,加上合作伙伴的数据,中文压根没有很多优质的的高质量数据,学术论文都在国外,国外 ai 没爆发之前,推特,国外的贴吧都好爬,现在都做了反扒,加高收费接口
James2099   
现在很多网站直接屏蔽 openai 的爬虫机器人
James2099   
还有就是用户输入的数据,别国内大厂的开发,产品策划,行政,jc,各大高校的学生,老师主动输入的数据
James2099   
你能想到的国内的职业,无论各行各业,都有人用,他们自己主动上传的
James2099   
不过 openai 会做脱敏处理保护隐私
您需要登录后才可以回帖 登录 | 立即注册

返回顶部