xmg-gecco-demo-master.zip一个gecco爬虫框架，简单易用，使用jquery

文件名称: xmg-gecco-demo-master.zip

所属分类: 互联网

开发工具:

文件大小: 5mb

下载次数: 0

上传时间: 2020-04-23

提供者: qq_35******

下载 (5mb)

不能下载？报告错误

详细说明：一个gecco爬虫框架，简单易用，使用jquery风格的选择器抽取元素支持爬取规则的动态配置和加载支持页面中的异步ajax请求支持页面中的javascript变量抽取利用Redis实现分布式抓取,参考gecco-redis 支持结合Spring开发业务逻辑,参考gecco-spring 支持htmlunit扩展,参考gecco-htmlunit 支持插件扩展机制支持下载时UserAgent随机选取支持下载代理服务器随机选取 Gecco是一款用java语言开发的轻量化的易用的网络爬虫，不同于Nutch这样的面向搜索引擎的通用爬虫，Gecco是面向主题的爬虫。通用爬虫一般关注三个主要的问题：下载、排序、索引。主题爬虫一般关注的是：下载、内容抽取、灵活的业务逻辑处理。 Gecco的目标是提供一个完善的 » 二、一分钟你就可以写一个简单爬虫示例代码这里用抓取gecco这个项目的首页为例。我们希望得到项目的作者名称，项目名称，项目的star和fork数量，以及项目的介绍。如果你稍有java基础，会写jquery的css selector我相信下面的代码我不需要解释你也能轻松的看明白。 Gecco(matc » 三、软件总体结构基本构件介绍 GeccoEngine GeccoEngine是爬虫引擎，每个爬虫引擎最好是一个独立进程，在分布式爬虫场景下，建议每台爬虫服务器（物理机或者虚机）运行一个GeccoEngine。爬虫引擎包括主要Scheduler、Downloader、Spider、SpiderB » 四、GeccoEngine Gecco如何运行 Gecco的初始化和启动通过GeccoEngine完成，GeccoEngine主要负责初始化配置、开始请求的配置和启动爬虫运行，最基本的启动方法： GeccoEngine.create() .classpath("com.geccocrawler.ge » 五、从下载说起一、下载引擎爬虫最基本的能力就是发起http请求，下载网页，gecco默认采用httpclient4作为下载引擎。通过实现Downloader接口可以自定义自己的下载引擎，在启动GeccoEngine时需要设置自己的下载引擎。下面的代码不是使用默认的httpclient作为下载 » 六、抽取页面内容 gecco的内容抽取都是直接映射到java bean的属性中，利用注解可以方便的注入页面中的各种信息包括html页面内容、Ajax请求、javascript变量、request信息等一、Html页面内容抽取 jsoup语法介绍 Selector选择器概述 tagname: » 七、业务逻辑处理至此页面内容已经被gecco转换为一个普通的javabean。剩下的工作就是将javabean进一步清洗然后针对特定的业务逻辑进行持久化等处理。一、实现pipeline接口 gecco采用管道过滤器模式灵活的实现业务逻辑处理，首先实现一个特定的管道过滤器，如： Pipelin » 八、爬虫的监控爬虫为什么要监控 gecco是一个十分简单易用的java开源爬虫框架，同时也一个款拥有很好扩展性的框架，目前已经有：结合spring的插件gecco-spring 结合htmlunit的插件gecco-htmlunit 结合reids的插件gecco-reids 在开发爬虫时， » 九、稳定性测试最近对开源的java爬虫Gecco做了一个稳定性测试，测试环境：一台爬虫+web应用服务器，一台mongodb服务器。服务器配置很low，两台都是阿里云最低端的主机，1核+512内存。单线程测试场景爬虫采用单线程，测试时间3×24小时，测试期间系统无异常，jvm内存稳定。测试十、Gecco爬虫框架的线程和队列模型

(系统自动生成,下载前可以参看下载内容)