搜索引擎中一个比较重要的环节就是从网页中抽取出有效内容。简单来说,就是吧HTML文本中的HTML标记去掉,留下我们用IE等浏览器打开HTML文档看到的部分(我们这里不考虑图片). 将HTML文本中的标记分为:注释,scr ipt ,style,以及其他标记分别去掉: 1.去注释,正则为: output = Regex.Replace(input, ””, string.Empty, RegexOptions.IgnoreCase); 2.去scr ipt,正则为: ouput = Regex.R