这里用到一个HTML解析辅助类:HtmlAgilityPack,如果没有网上找一个增加到库里,这个插件有很多版本,如果你开发环境是使用VS2005就2.0的类库,VS2010就使用4.0,以此类推……….然后直接创建一个控制台应用,将我下面的代码COPY替换就可以运行,下面就来讲讲我两年前做爬虫经历,当时是给一家公司做,也是用的C#,不过当时遇到一个头痛的问题就是抓的图片有病毒,然后系统挂了几次。所以抓网站图片要注意安全,虽然我这里没涉及到图片,但是还是提醒下看文章的朋友。
class P
webCrawler
目录
后述
Este o aplicatie de tip网络爬虫护理,pornind de la un URL / fisier cu URL-uri,va descarca paginile各自的iar apoi,va descarca recursiv Paginile Catre Care存在一个链接uri。 De asemenea,主要景点名称为descarcate pcan mecanisme de filtrare dupa tip,注意州名称为sitemap