gpt这是犯什么迷糊了?

查看 123|回复 9
作者:haole   
宋喆   
我可以道歉但我就是不改
有球必硬   
牛逼
我是老王   
3.5就是弱智
haole
OP
  

宋喆 发表于 2024-2-15 23:13
我可以道歉但我就是不改

哈哈。这个说法很妙。
wlz   
找到约 9,690,000 条结果 (用时 0.42 秒)
七个字的成语
天下乌鸦一般黑        比喻不管哪个地方的剥削者压迫者都是一样的坏。
知人知面不知心        旧时俗语。指认识一个人容易,但要了解一个人的内心却很困难。
不见棺材不落泪        比喻不到彻底失败的时候不肯罢休。
含着骨头露着肉        比喻说话半吞半吐,不把意思完全说出来。
不看僧面看佛面        比喻请看第三者的情面帮助或宽恕某一个人。
jerry048   
gpt 對文字的理解並不是一個一個字這樣的,所以他根本無法確定自己寫了多少個字
https://blog.devgenius.io/understanding-tokens-and-tokenization-in-large-language-models-1058cd24b944#:~:text=A%20token%20is%20typically%20not%20a%20word
haole
OP
  

wlz 发表于 2024-2-16 00:10
找到约 9,690,000 条结果 (用时 0.42 秒)
七个字的成语
天下乌鸦一般黑        比喻不管哪个地方的剥削者压迫者 ...

请问这个如何产生的?
haole
OP
  

jerry048 发表于 2024-2-16 00:29
gpt 對文字的理解並不是一個一個字這樣的,所以他根本無法確定自己寫了多少個字
https://blog.devgenius.io ...

能简短用汉语概括吗?
jerry048   
   

haole 发表于 2024-2-16 00:37
能简短用汉语概括吗?

舉個例子
eating 一個字,在 gpt 的訓練中可能是 eat + ing 兩個token 。 爲什麽要這樣做訓練呢 因爲 ing 自己就代表了進行中,是一個有意義的拆分。 同理 “沒JJ” 也可能是一個token, 因爲 ”沒JJ“ 本身的意義 拆開就代表別的東西了。
這樣的訓練導致 10個字 在 chatgpt眼中可以是 > 10 或者 < 10 個token, 所以要chatgpt數字數是不可能精確的。就是數對了,也是因爲他調配了第三方的應用去數
您需要登录后才可以回帖 登录 | 立即注册

返回顶部