Transformer 是不是缺乏跨维度关系捕捉能力？ ...

如题，用别人开源的模型做 NLP 任务有几年了，第一次认真看了下 Transformer 的公式，感觉这东西是不是除了 NLP 其他领域迁移能力差，因为本身夸维度捕捉能力就差。
假设有三个中文输入：“你好”，每个字被编码为一个三维的向量，那么也许可以写成这样一个 3x2 矩阵：
input = [
  [a1, b1],
  [a2, b2],
  [a3, b3],
]
我仔细看了一下 attention 的公式，所以注意力结果应该是
z = Softmax(Q·K/sqrt(x))·V
其中 QKV 是三个矩阵乘出来的
那么整个运算过程中从单个变量的三个维度出发的话，在上文的 2 字例子中，Q 的第一维只会和 K 的第一维发生关系，似乎并不会参与其他维度运算，这是否导致跨维度捕捉能力的缺失？
所以只有 NLP 做得好，因为 NLP 的多维度量基是人为构建的，而且尽量使其分布平均。一到涉及现实世界的任务就拉了胯了，VIT 近视眼，其他现实建模量基不同的全都寄

Transformer 是不是缺乏跨维度关系捕捉能力？

热门主题

国产英伟达，摩尔把上市融资的75亿元拿去买

✅DMIT 三网 GIA CMIN2 MALIBU EB 维多利亚

有MJJ遇到过TG号全部设备都被登出了吗？

【快讯】HostHatch Seoul HH 新节点首尔

Hk-One-0.5G-52-LS 少量放貨速度

公司项目分享：硅谷人工智能公司 Nexa AI

拿到了 300 来部短剧的海外发行版权，下一

长话短说大家觉得花三十万结婚，存款花完

建议拉黑 IObit 旗下所有软件

重度苹果用户投华做了两面派

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则