Python—爬取豆瓣Top250(正则和Xpath比较)简单介绍Xpath
为了更加进一步理解和熟练使用python爬虫相关的第三方库和更多的去理解网页源码,相互比较第三方库的优劣的地方,对于豆瓣Top250的爬取我才用了纯正则表达式和纯Xpath去清晰网页源码,获得自己想要的数据。
Python标准库中提供了支持SAX和DOM的XML模块,但同时Python也提供了另外一个兼顾SAX和DOM优点的XML模块一ElementTree,ElementTree就像一个轻量级的DOM,可以读写XML