蜘蛛
一。简介
通过spring boot建造的爬虫系统
二。技术选型
spring boot:构建项目框架,比较Swift,集成嵌入式tomcat,部署运行方便,零配置代码简洁
elasticSearch:作为nosql数据存储引擎
elastic-job:分布式作业调度系统,依赖zookeeper环境作为分布式协同
WebMagic:爬虫框架,有去重功能,支持Xpath,regex,css等选择器
三。运行方式
先启动zookeeper和elasticsearch ,并修改相应配置,然后按下