一个有趣的数学题(机器学习 embedding 设计相关)

查看 86|回复 6
作者:ddddd0   
最近在学习 embedding ,想到了一个问题,如下:
---
有 2 种特征:性别,物种
性别分为: 男,女
物种分为: 人,狗
设计向量表示,要求:
向量维度尽量小
向量每个位置是实数
向量点积结果要在 [0, 1]
0 代表无关,比如男人*母狗 = 0 ,女人*公狗=0
1 代表完全一样,比如男人*男人=1
0-1 之间代表有点相关,比如 女人*母狗=0.5 ,或者,男人*公狗=0.5 ,公狗*母狗=0.5 ,注意这种组合的点积一定要大于 0 小于 1 ,表示有一定相关性,具体的值大小你来定,但不能是 0 或 1
---
想知道满足上述要求的向量表示的最小的维度是多少?以及具体的设计方法
huangsijun17   
哪里来的“公”“母”?
ddddd0
OP
  
@huangsijun17 “公”“母”是 [性别特征: 男,女] ,等价的说法
geelaw   
就是要找四个单位向量 abcd ,使 ad 、bc 正交且 ab 、ac 、bd 、cd 都是锐角。
很明显零维不行:没有单位向量。
很明显一维不行:两个单位向量从不正交。
很明显二维不行:令 ad 为 xy 轴,则 bc 必须都和坐标轴不重合,此时 abcd 中存在钝角。
三维,考虑 a=(1,0,0), d=(0,1,0), b=(1,1,sqrt2)/2, c=(1,1,-sqrt2)/2 ,所以可以。
chen88ijn   
需要 2bit 的信息量,所以二维向量就可以了?
ddddd0
OP
  
@geelaw 谢谢,很完美
ddddd0
OP
  
@chen88ijn 我试了下,应该不行,总有要求不能满足
您需要登录后才可以回帖 登录 | 立即注册

返回顶部