余弦相似度
余弦相似度是指两个向量夹角的余弦。两个方向完全相同的向量的余弦相似度为1,而两个彼此相对的向量的余弦相似度为-1。
为什么点积能表示向量相似度,因为A和B的点积 = |A|* |B|* 两向量夹角的余弦,在AB模长固定的情况下,AB点积越大等于夹角余弦值越大,即夹角越小,两者越相近。当然这是理想的情况,一般来说AB模长不会固定,即使点积值高,其向量也不一定接近,但相对于其它不相关的词是更加靠近。
缺点:没有考虑向量的大小((1,1)(2,2)与(-1,-1)的余弦相似度一样),而只考虑它们的方向。