Transformer 是不是缺乏跨维度关系捕捉能力？ ...

如题，用别人开源的模型做 NLP 任务有几年了，第一次认真看了下 Transformer 的公式，感觉这东西是不是除了 NLP 其他领域迁移能力差，因为本身夸维度捕捉能力就差。
假设有三个中文输入：“你好”，每个字被编码为一个三维的向量，那么也许可以写成这样一个 3x2 矩阵：
input = [
  [a1, b1],
  [a2, b2],
  [a3, b3],
]
我仔细看了一下 attention 的公式，所以注意力结果应该是
z = Softmax(Q·K/sqrt(x))·V
其中 QKV 是三个矩阵乘出来的
那么整个运算过程中从单个变量的三个维度出发的话，在上文的 2 字例子中，Q 的第一维只会和 K 的第一维发生关系，似乎并不会参与其他维度运算，这是否导致跨维度捕捉能力的缺失？
所以只有 NLP 做得好，因为 NLP 的多维度量基是人为构建的，而且尽量使其分布平均。一到涉及现实世界的任务就拉了胯了，VIT 近视眼，其他现实建模量基不同的全都寄

Transformer 是不是缺乏跨维度关系捕捉能力？

热门主题

抢到了腾讯云的4812轻量服务器

以我现在的智商，也只能端屎端尿了

还是写会需求有意思~之前上班的那种节奏

你们到现在买主题模板已经花了多少钱了

特朗普说：台湾关我卵事，那是中国内政。

web 3.0 到底是啥玩意？

电影站天塌了,被字节跳动api当训练了

元宇宙概念，没动静了呀

互联网精髓：女人露个乳房就有一百万粉丝

求财经小辉辉全部课程

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则