如果说以前的人工智能能明显感觉到人工智障的话,ChatGPT 在一定程度上已经在改变这种固有印象了,不过依旧有一些问题能让你找到自己作为人类的优势。 可是当体验 New Bing 的时候,由于源数据的及时性加成,给到结果的逻辑性甚至都感觉强了很多。比如你问 Bing 是不是小黑子,Bing 可以直接告诉你他不是,甚至于强调下自己对某明星没有恶感,而 ChatGPT 就无法理解目前主流中文的“小黑子”的含义。 ChatGPT 这个模型结合 Bing,实在是太 BT 了。 另外mjj们怎么看百度的文心一言,有期待吗? 黑子, 恶感, 告诉你
我们的中文互联网不足以提供高质量的训练数据。什么是高质量的数据?比如维基百科、高质量的活跃论坛、专业新闻、学术论文、高质量代码、图书。 我们看看 GPT-3的训练数据是什么。权重 最大的数据集是 OpenWebText(开源版本),数据是从 Reddit论坛上收集的URL,再把内容抓取下来。Common Crawl是一个开放的互联网数据存档(英文占一半,中 文大概5%)。其他一些代表性的数据包括 wikipedia维基百科,Books 开放图书,Stack Exchange 技术问答社区,Github 代码,ArXiv论文,ReallNews 新闻存档,PubMed 医疗数据。可以看到,由中文互联网产生的数据,比例低到可以忽路。这也是困扰很多试图训练中文大模型的问题, 但实际上,ChatGPT的用中文沟通的能力,已经远超那些专门的中文大语言模型了,背后原因是GPT隐式学到的翻译能力。 没有好的中文数据,我们就只能搭全球互联网的数据顺风车。上面这些优质数据的产生,需要开放的社区,我们似乎无解。 转自tg频道:扫地僧笔记(https://t.me/lover_links)
cnlhx 发表于 2023-2-13 10:14 我们的中文互联网不足以提供高质量的训练数据。什么是高质量的数据?比如维基百科、高质量的活跃论坛、专业 ... 这一段我是同意的,即便是ChatGPT,也经常会被带出csdn的内容,中文社区的内容质量是在堪忧。 我不知道百度在目前的场景下会做出什么东西来,毕竟对于百度来说,依旧有着基础用户访问通畅的优势,而且如果以New Bing目前的形态来看,百度做整合可能会直接颠覆百度目前主要的营收渠道——竞价,对于百度并不是什么好事。又或者百度以全球领先的姿态,用自己真实的核心实力,做出一套AI的盈利系统,继续用男科整容之光照耀华夏大地这片沃土。