您好,欢迎光临本网站![请登录][注册会员]  
文件名称: Python中利用xpath解析HTML的方法
  所属分类: 其它
  开发工具:
  文件大小: 74kb
  下载次数: 0
  上传时间: 2020-12-23
  提 供 者: weixin_********
 详细说明:在进行网页抓取的时候,分析定位html节点是获取抓取信息的关键,目前我用的是lxml模块(用来分析XML文档结构的,当然也能分析html结构), 利用其lxml.html的xpath对html进行分析,获取抓取信息。 首先,我们需要安装一个支持xpath的python库。目前在libxml2的网站上被推荐的python binding是lxml,也有beautifulsoup,不嫌麻烦的话还可以自己用正则表达式去构建,本文以lxml为例讲解。 假设有如下的HTML文档: