INF368练习3 2020年Spring
在卑尔根大学进行的机器学习精选主题(主题为“深度学习”)课程( )的第三次练习中,我们被要求参加 。
Kaggle挑战
我们决定为使用TF-IDF的CORD-19数据集中的文章和使用Word2Vec的词嵌入创建一个搜索引擎。
特遣部队
代表术语“频率-文档频率” 。 它是经常用于信息检索和文本挖掘的权重。 给定一系列文档,TF-IDF是一种统计量度,用于确定单词相对于所有其他文档与特定文档的关联程度。 给定集合中的一个单词和一个文档,我们计算TF(词频