文本相似度主要应用于学术论文查重检测、搜索引擎去重等领域, 而传统的文本相似度计算方法中的特征.项提取与分词环节过于冗杂, 而且元素的随机挑选也会产生权重的不确定性. 为了解决传统方法的不足, 提出一种.基于改进的 Jaccard 系数确定文档相似度的方法, 该算法综合考虑了各元素、样本在文档中的权重及其对多个文档.相似度的贡献程度. 实验结果表明, 基于改进的 Jaccard 系数的文档相似度算法具有实效性并且能够得到较高的准.确率, 适用于各种长度的中英文文档, 有效地解决现有技术中存在的文