CrawlArticle:基于文字密度的新闻正文提取模块，兼容python2和python3，替换新

文件名称: CrawlArticle:基于文字密度的新闻正文提取模块，兼容python2和python3，替换新闻网址或网页开源即可返回标题，发布时间和正文内容-源码

所属分类: 其它

开发工具:

文件大小: 667kb

下载次数: 0

上传时间: 2021-03-23

提供者: weixin_********

下载 (667kb)

不能下载？报告错误

详细说明：基于文字密度的新闻正文提取模块兼容性：该模块兼容python2.x和python3.x，可以作为工具包直接引用准备工作： 1.下载项目源码： : 2.解压源码，切入源码目录：cd getContent 3.安装项目需要依赖的库：pip install -r requireMents.txt 使用方法： 1.直接使用 1）用编辑器打开articleExtractor.py，修改为要抓取的url，如下图所示： 2）在终端运行python articleExtractor.py，回车，效果如下： 2.作为其他项目的一个子模块替代原始码，直接返回标题，发布时间，文章内容 1）克隆项目代码解压到自己的项目中，然后在该模块的同级目录创建自己的测试脚本中，加入以下代码如下图： #!/usr/bin/env python # coding=utf-8 import requests fr

(系统自动生成,下载前可以参看下载内容)