文件名称:
GerapyAutoExtractor:自动提取器模块-源码
开发工具:
文件大小: 1mb
下载次数: 0
上传时间: 2021-03-19
详细说明:Gerapy自动提取器
这是的自动提取器模块,也可以单独使用。
您可以使用此包来区分列表页面和详细信息页面,我们可以使用它从列表页面提取url ,还可以从详细信息页面提取title , datetime , content ,而无需任何XPath或Selector。
与其他方案相比,它对于中文新闻网站更有效。
简介:
安装
您可以使用以下命令来安装此软件包:
pip3 install gerapy-auto-extractor
用法
下面是此程序包实现的方法:
提取列表页
对于列表页面,可以使用extract_list方法提取主列表URL及其标题。
提取详细页面
对于详细信息页面,可以使用extract_title方法提取标题,使用extract_content方法提取内容,使用extract_datetime方法提取日期时间。
您也可以使用extract_detail方法提取上述所有a
(系统自动生成,下载前可以参看下载内容)
下载文件列表
相关说明
- 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
- 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度。
- 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
- 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
- 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
- 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.