一个敏捷强大的Java爬虫框架SeimiCrawler.zip SeimiCrawler An ag

文件名称: 一个敏捷强大的Java爬虫框架SeimiCrawler.zip

所属分类: 其它

开发工具:

文件大小: 135kb

下载次数: 0

上传时间: 2019-07-19

提供者: weixin_********

下载 (135kb)

不能下载？报告错误

详细说明： SeimiCrawler An agile,powerful,distributed crawler framework. SeimiCrawler的目标是成为Java世界最好用最实用的爬虫框架。简介 SeimiCrawler是一个敏捷的，支持分布式的Java爬虫开发框架，希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛，以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里，绝大多数人只需关心去写抓取的业务逻辑就够了，其余的Seimi帮你搞定。设计思想上SeimiCrawler受Python的爬虫框架Scrapy启发很大，同时融合了Java语言本身特点与Spring的特性，并希望在国内更方便且普遍的使用更有效率的XPath解析HTML，所以SeimiCrawler默认的HTML解析器是JsoupXpath,默认解析提取HTML数据工作均使用XPath来完成（当然，数据处理亦可以自行选择其他解析器）。原理示例基本原理集群原理快速开始添加maven依赖(已经同步到中央maven库，最新版本参见项目主页)： cn.wanghaomiao SeimiCrawler 0.1.0 在包crawlers下添加爬虫规则，例如：Crawler(name = "basic") public class Basic extends BaseSeimiCrawler { Override public String[] startUrls() { return new String[]{"http://www.cnblogs.com/"}; } Override public void start(Response response) { JXDocument doc = response.document(); try { List

下载文件列表

相关说明

下载资源分类

资源分类

本站统计

合作伙伴