Python中利用xpath解析HTML的方法在进行网页抓取的时候，分析定位html节点是获取抓取信

文件名称: Python中利用xpath解析HTML的方法

所属分类: 其它

开发工具:

文件大小: 74kb

下载次数: 0

上传时间: 2020-12-23

提供者: weixin_********

下载 (74kb)

不能下载？报告错误

详细说明：在进行网页抓取的时候，分析定位html节点是获取抓取信息的关键，目前我用的是lxml模块(用来分析XML文档结构的，当然也能分析html结构)，利用其lxml.html的xpath对html进行分析，获取抓取信息。首先，我们需要安装一个支持xpath的python库。目前在libxml2的网站上被推荐的python binding是lxml，也有beautifulsoup，不嫌麻烦的话还可以自己用正则表达式去构建，本文以lxml为例讲解。假设有如下的HTML文档: