介绍了Web挖掘理论,包括Web挖掘定义、Web挖掘任务、Web挖掘分类3个方面,井简单介绍了实现Web义本挖掘系统WTMiner (WebText M r)的几个关键技术:分词,特征提取,分类器的设计。在分词中采用了支持首字Hash;二分查找从而提高了分词速度,分类 器的没计中考虑到sVM的训练算法速度慢的缺点,用近邻法以减少洲练样本集中样本的数量,从而大大提高了算法速度。
Web挖掘相关文档 The PageRank method is used by the Google Web search engine to compute the importance of Web pages. Two different views have been developed for the interpretation of the PageRank method and values: (a) stochastic (random surfer): the PageR