不是做NLP方向对这方面之前也并不了解,但本科学习过文本挖掘课程,在数据挖掘的时候偶尔会涉及到对本文特征的处理,只好趁着机会再学习总结下。
embedding
简单来说,embedding就是用一个低维的向量表示一个物体,可以是一个词,或是一个item(商品,或是一个电影等等)。这个embedding向量的性质是能使距离相近的向量对应的物体有相近的含义,比如 Embedding(复仇者联盟)和Embedding(钢铁侠)之间的距离就会很接近,但 Embedding(复仇者联盟)和Embeddin