Internet的高速增长同时带动了信息的高速增长,这些信息基本是以文本形式保存的。文本信息的特点是无结构,即便有也是极其有限的结构。文本相似性是文本挖掘研究的一个重点也是一个难点。从文本特征得到文本相似性信息是本文的主要研究方向。本文采用了PHP+MYSQL的开发环境对文本相似性的计算过程进行了模拟。计算过程采用的是余弦相似度和Jaccard相似度这两种基于向量内积的方法。在实验过程中通过对文本特征的操作来判断文本之间是否相似,另外还实现了将文本转化为简单的字符串集合进行比较来判断文本是否相似