您好,欢迎光临本网站![请登录][注册会员]  
文件名称: Go版本开源爬虫框架Creeper.zip
  所属分类: 其它
  开发工具:
  文件大小: 377kb
  下载次数: 0
  上传时间: 2019-07-18
  提 供 者: weixin_********
 详细说明: Creeper 是一个基于简单脚本( Creeper Script ,扩展名 .crs )的下一代开源爬虫框架。需要配合一门正经的编程语言(只开发了 Go 版本)来使用,先在 Creeper Script 内定义爬取规则,然后用 Go 代码来读取规则,再爬取资源。使用场景一般会用在需要同时采集大量不同网站,或者开发聚合阅读器时。(以后可能会增加 cli 和数据库访问支持)简单的用例:假如我想要爬取 HackerNews ,需要写出这样子的脚本,其实看起来有些类似 yaml 配合 jquery 的样子,但是其实差别挺大的。page(page=1) = "https://news.ycombinator.com/news?p={page}" news[]: page -> $("tr.athing")     title: $(".title a.storylink").text     site: $(".title span.sitestr").text     link: $(".title a.storylink").href之后在 Go 文件中来读取并使用这个脚本;package main import "github.com/wspl/creeper" func main() {     c := creeper.Open("./hacker_news.crs")     c.Array("news").Each(func(c *creeper.Creeper) {         println("title: ", c.String("title"))         println("site: ", c.String("site"))         println("link: ", c.String("link"))         println("===")     }) }执行后,将会如期地输出类似下面的内容:title:  Samsung chief Lee arrested as S.Korean corruption probe deepens site:  reuters.com link:  http://www.reuters.com/article/us-southkorea-politics-samsung-group-idUSKBN15V2RD === title:  ReactOS 0.4.4 Released site:  reactos.org link:  https://reactos.org/project-news/reactos-044-released === title:  FeFETs: How this new memory stacks up against existing non-volatile memory site:  semiengineering.com link:  http://semiengineering.com/what-are-fefets/ 标签:Creeper
(系统自动生成,下载前可以参看下载内容)

下载文件列表

相关说明

  • 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
  • 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度
  • 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
  • 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
  • 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
  • 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.
 相关搜索:
 输入关键字,在本站1000多万海量源码库中尽情搜索: