SeimiCrawler(Java 爬虫框架) v1.3.0.zipSeimiCrawler(Jav

文件名称: SeimiCrawler(Java 爬虫框架) v1.3.0.zip

所属分类: 其它

开发工具:

文件大小: 118kb

下载次数: 0

上传时间: 2019-07-06

提供者: weixin_********

下载 (118kb)

不能下载？报告错误

详细说明：SeimiCrawler(Java 爬虫框架）更新支持在Request对象中，通过header(map)来自定义本次请求的header，以及支持通过seimiCookies来自定义cookies，自定义cookies会直接进入cookiesStore，对同域下第二次请求依然有效优化默认启动方式，改造cn.wanghaomiao.seimi.boot.Run支持CommandLineParser，可以使用 -c 和-p来传参，其中-c用来指定crawlernames，多个用','分隔，-p指定一个端口，可以选择性的启动一个内嵌的http服务，并开启使用内嵌http接口 maven-compiler-plugin打包插件升级为1.3.0，完善Linux下的脚本，并增加启动配置文件，可以到maven-compiler-plugin主页详细查看默认下载器改为Apache Httpclient,备用为下载器OkHttp3实现优化部分代码 demo日志默认全部输出至控制台 SeimiCrawler(Java 爬虫框架）简介 SeimiCrawler是一个敏捷的，独立部署的，支持分布式的Java爬虫框架，希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛，以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里，绝大多数人只需关心去写抓取的业务逻辑就够了，其余的Seimi帮你搞定。设计思想上SeimiCrawler受Python的爬虫框架Scrapy启发，同时融合了Java语言本身特点与Spring的特性，并希望在国内更方便且普遍的使用更有效率的XPath解析HTML，所以SeimiCrawler默认的HTML解析器是JsoupXpath(独立扩展项目，非jsoup自带),默认解析提取HTML数据工作均使用XPath来完成（当然，数据处理亦可以自行选择其他解析器）。并结合SeimiAgent彻底完美解决复杂动态页面渲染抓取问题。 SeimiCrawler(Java 爬虫框架)展示相关阅读同类推荐：站长常用源码

(系统自动生成,下载前可以参看下载内容)