Transformer 是不是缺乏跨维度关系捕捉能力?

查看 19|回复 0
作者:LeeReamond   
如题,用别人开源的模型做 NLP 任务有几年了,第一次认真看了下 Transformer 的公式,感觉这东西是不是除了 NLP 其他领域迁移能力差,因为本身夸维度捕捉能力就差。
假设有三个中文输入:“你好”,每个字被编码为一个三维的向量,那么也许可以写成这样一个 3x2 矩阵:
input = [
  [a1, b1],
  [a2, b2],
  [a3, b3],
]
我仔细看了一下 attention 的公式,所以注意力结果应该是
z = Softmax(Q·K/sqrt(x))·V
其中 QKV 是三个矩阵乘出来的
那么整个运算过程中从单个变量的三个维度出发的话,在上文的 2 字例子中,Q 的第一维只会和 K 的第一维发生关系,似乎并不会参与其他维度运算,这是否导致跨维度捕捉能力的缺失?
所以只有 NLP 做得好,因为 NLP 的多维度量基是人为构建的,而且尽量使其分布平均。一到涉及现实世界的任务就拉了胯了,VIT 近视眼,其他现实建模量基不同的全都寄
您需要登录后才可以回帖 登录 | 立即注册

返回顶部