Learning to Hash with its Application to Big Data Retrieval 是课程结课作业,简单的介绍了LSH(局部敏感哈希) 主要分以下几部分内容 1.Nearest Neighbor Search (Retrieval) 2.Two Stages of Hash Function Learning 3.Hash Fuction 4.LSH 5.Application 6.Evaluation
The book is based on Stanford Computer Science course CS246: Mining Massive Datasets (and CS345A: Data Mining). The book, like the course, is designed at the undergraduate computer science level with no formal prerequisites. To support deeper explor
在分析海量生物序列时,现有的聚类算法存在着时间效率不高、 准确率较低,以及聚类结果的生物意义不足等问题。针对这些问题,提出一种基于位置信息熵的局部敏感哈希聚类方法。通过对生物序列使用 K 词计算其标准熵,将标准熵作为局部敏感哈希函数簇的特征向量,计算特征矩阵并应用于生物序列聚类。实验结果表明,该算法能够有效地提高时间效率和聚类的准确率。随着数据集的增大,也同样取得很好的效果,实验结果更具有生物解释性和实际意义。