搜索资源 - 海量文本采集 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 海量文本采集

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

灵玖LJCorpus中文语料库分析软件
语料库语言学是20世纪80年代才崭露头角的一门交叉学科，它研究自然语言文本的采集、存储、加工和统计分析，目的是凭借大规模语料库提供的客观翔实的语言证据来从事语言学研究和指导自然语言信息处理系统的开发。随着互联网的爆炸式增长，中文语料库的规模也随之剧增。语言学的研究面临着各类复杂的海量数据，亟需采用信息化的手段，自动分析相关的语言数据，从而更好地研究并开发使用的自然语言信息处理系统。
所属分类：其它
- 发布日期：2011-08-07
- 文件大小：12582912
- 提供者：fw_1234

WEB文本海量数据挖掘应用中的多点数据采集及处理问题研究
WEB文本海量数据挖掘应用中的多点数据采集及处理问题研究
所属分类：互联网
- 发布日期：2012-12-05
- 文件大小：850944
- 提供者：fuqiaoyimeng234

鸿耘固定资产条码管理系统
鸿耘大型固定资产条码管理系统简介有别于财务型的固定资产核算管理系统，本系统使用条码(或RF)标签逐个逐件地标识每一件固定资产，并对固定资产的购置、调配、租赁、借用、变动、盘点、维护、折旧、报失、报废等全程实现盘点机、CCD自动识别管理，大大提高了固定资产管理的科学性准确性，方便简化了固定资产管理过程，提高了固定资产管理的效率。本固定资产条码管理系统主要具有以下特点：1. 代码化管理：提供了对固定资产卡内容的代码化管理，如所属部门、负责人员、资产类别、增加减少方式、资产状态、资产使用方向、资产经
所属分类：其它
- 发布日期：2007-04-14
- 文件大小：17825792
- 提供者：dayri

基于lucene的搜索引擎总结
浅谈网络搜索引擎的实现知识管理系统网络搜索模块开发实践交流功能需求可自定义要搜索的网站列表（以下简称目标列表）可对目标列表网站的网页内容进行检索可对目标列表网站的网页内容进行自动分类处理可自定义更新周期及一些相关性能参数系统主要功能模块网络蜘蛛采集、解析并保存目标列表网站的内容（网页）全文索引/检索为目标列表网站内容建立索引提供内容的全文检索自动分类对目标列表网站内容进行分类基本流程网络蜘蛛功能概要目标文档地址队列 w/r 目标文档（网页）获取目标文档保存
所属分类：网络基础
- 发布日期：2008-10-28
- 文件大小：158720
- 提供者：xinkeji

大型网站技术架构+核心原理与案例分析+李智慧
目录：第1篇概述 1 大型网站架构演化 2 1.1 大型网站软件系统的特点 3 1.2 大型网站架构演化发展历程 4 1.2.1 初始阶段的网站架构 4 1.2.2 应用服务和数据服务分离 4 1.2.3 使用缓存改善网站性能 5 1.2.4 使用应用服务器集群改善网站的并发处理能力 6 1.2.5 数据库读写分离 7 1.2.6 使用反向代理和CDN加速网站响应 8 1.2.7 使用分布式文件系统和分布式数据库系统 9 1.2.8 使用NoSQL和搜索引擎 10 1.2.9 业务拆分 1
所属分类：其它
- 发布日期：2015-03-02
- 文件大小：46137344
- 提供者：ojames123

大型网站技术架构
第1篇概述 1 大型网站架构演化 2 1.1 大型网站软件系统的特点 3 1.2 大型网站架构演化发展历程 4 1.2.1 初始阶段的网站架构 4 1.2.2 应用服务和数据服务分离 4 1.2.3 使用缓存改善网站性能 5 1.2.4 使用应用服务器集群改善网站的并发处理能力 6 1.2.5 数据库读写分离 7 1.2.6 使用反向代理和CDN加速网站响应 8 1.2.7 使用分布式文件系统和分布式数据库系统 9 1.2.8 使用NoSQL和搜索引擎 10 1.2.9 业务拆分 11 1.
所属分类：互联网
- 发布日期：2015-03-24
- 文件大小：46137344
- 提供者：uqapuqap

大型网站技术架构核心原理与案例分析李智慧
目录：第1篇概述 1 大型网站架构演化 2 1.1 大型网站软件系统的特点 3 1.2 大型网站架构演化发展历程 4 1.2.1 初始阶段的网站架构 4 1.2.2 应用服务和数据服务分离 4 1.2.3 使用缓存改善网站性能 5 1.2.4 使用应用服务器集群改善网站的并发处理能力 6 1.2.5 数据库读写分离 7 1.2.6 使用反向代理和CDN加速网站响应 8 1.2.7 使用分布式文件系统和分布式数据库系统 9 1.2.8 使用NoSQL和搜索引擎 10 1.2.9 业务拆分 1
所属分类：Web开发
- 发布日期：2015-12-27
- 文件大小：46137344
- 提供者：runningsparrow

Flume 构建高可用、可扩展的海量日志采集系统
Flume 快速入门教程，文本数据采集
所属分类：Java
- 发布日期：2016-08-06
- 文件大小：50331648
- 提供者：lihuaidong1989

大型网站技术架构
第1篇概述 1 大型网站架构演化 2 1.1 大型网站软件系统的特点 3 1.2 大型网站架构演化发展历程 4 1.2.1 初始阶段的网站架构 4 1.2.2 应用服务和数据服务分离 4 1.2.3 使用缓存改善网站性能 5 1.2.4 使用应用服务器集群改善网站的并发处理能力 6 1.2.5 数据库读写分离 7 1.2.6 使用反向代理和CDN加速网站响应 8 1.2.7 使用分布式文件系统和分布式数据库系统 9 1.2.8 使用NoSQL和搜索引擎 10 1.2.9 业务拆分 11 1.
所属分类：Java
- 发布日期：2017-06-17
- 文件大小：46137344
- 提供者：limeng_999

基于Python的Web信息获取方法研究_魏冬梅
随着大数据和云计算等新一代互联网技术的迅速发展，Ｗｅｂ信息量逐日海量递增。从海量数据中提取有效信息，挖掘有潜在价值的关系成为当前的研究热点，这对揭示已知规律、预测未知结果有极大的辅助作用。对当前Ｗｅｂ信息获取方法、原理和关键技术进行研究分析，重点阐述了数据采集相关技术中网络爬虫算法的分类与应用。提出一种以Ｐｙｔｈｏｎ和相关库为主要工具，结合模块化方法，构建Ｗｅｂ文本信息获取系统框架与流程的策略。案例中通过定义采集函数，实现对
所属分类：Python
- 发布日期：2018-04-10
- 文件大小：134144
- 提供者：qq_41944157

八斗大虚据第九期完整版.docx
一阶段：这一阶段会学习MapReduce、Hive、HDFS、Yarn、Spark等计算框架的开发技术，以及Scala编程语言。通过项目实践，你能快速掌握这些技术，获得数据开发、数据挖掘、机器学习等职位必备的基本开发能力。第二阶段：这一阶段会学习FLume、Kafka、Spark Streaming、Flink/Storm、Zookeeper、HBase等计算框架的开发技术，以及大数据体系内的数据采集和数据仓库理论思想和技术实现。通过项目实践，你能快速掌握这些技术，获得完整的大数据架构开发能
所属分类：Hadoop
- 发布日期：2019-07-24
- 文件大小：12288
- 提供者：qq_43648927

山河求购信息采集软件 v2.0
此软件为完全免费软件，用户可以任意、无限次的安装使用，功能上及时间上没有任何限制。山河求购信息采集软件，仅用于采集，请合理使用。专业求购信息查询软件，求购信息联系方式轻松采集。适合中小企业和个人。一、轻巧、快速、易用：使用多线程技术，采集快速，流畅。二、超千万会员海量求购联系方式轻松获取：轻松采集众多知名网站的求购信息联系方式。三、强大的数据管理功能：山河求购信息采集软件同时提供数据管理功能，查询、编辑、删除，导出到文本文件和Excel，自动过滤重复信息，并更新已有数据，保持最新数据；提供数据
所属分类：其它
- 发布日期：2019-11-01
- 文件大小：2097152
- 提供者：weixin_38744207

贝加莱工业自动化.pdf
贝加莱工业自动化pdf,贝加莱工业自动化Automation is orange 贝加莱中国团队一直致力于为中国地区的行业用户提供完美的自动化解决方案。我们不断地创新,提供高品质的产品并执着追求“完美自动化”方案,以确保我们在中国实现“全球自动化合作伙伴”这一承诺。因为我们深知我们的未来和您的未来紧密结在一起! 贝加莱(中国)总经理肖维荣博士》》》与您共创未来机加MA E 贝加莱(B&R)工业自动化有限公司是一家自动化技术领域的领导厂商,总部位于奥地利 Eggelsberg,于1
所属分类：其它
- 发布日期：2019-10-31
- 文件大小：2097152
- 提供者：weixin_38743737

文星写作素材采集器v2.0官方安装版
文星写作素材采集器是一款写作素材搜集软件，它的主要功能是利用计算机高速运算能力，采用类似"大海捞针"的技术，为广大写作爱好者从海量的电子文本图书中快速搜索采集自己需要的写作素材，本站提供下载，欢迎前来下载使用。
所属分类：其它
- 发布日期：2019-08-02
- 文件大小：17825792
- 提供者：weixin_39840924

标准送审稿2019DevOps研发运营(3).pdf
标准送审稿2019DevOps研发运营(3).pdfYDT1756T2018 7.11配置对象 ..11 7.12配置数据 11 8容量和成本管理 81容量管理…… 12 81.1基础设施容量 12 812业务容量 12 8,2成本管理… 13 821成本合理性 822预算与核算 13 9高可用管理 4 91应用高可用管理, 14 911弹性能力 14 912柔性能力 15 913运行与维护管理 .15 92数据高可用管理…. 16 921数据库高可用 16 922缓存高可用 17 10业务连续
所属分类：互联网
- 发布日期：2019-07-05
- 文件大小：1048576
- 提供者：zl3533

flume包，用于数据的采集
flume的包。flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。Client：Client生产数据，运行在一个独立的线程。　Event：一个数据单元，消息头和消息体组成。（Events可以是日志记录、 avro 对象等。）　　Flow： Event从源点到达目的点的迁移的抽象。　　Agent：一个独立的
所属分类：Hadoop
- 发布日期：2019-01-12
- 文件大小：51380224
- 提供者：qq_38798147

基于海量煤炭采集文本数据的可扩展SVM算法的研究与应用
文本分类是指在给定的分类系统下,根据文本的内容或属性,将大量文本归到一个或多个类别的过程。随着煤炭产业的高速发展,煤炭数据库中保存了大量煤炭采集文本数据,针对如此大规模的文本信息,传统的SVM算法不能很好地对大规模海量煤炭文本数据进行有效的处理。文中基于现有流行的Hadoop分布式计算平台,提出了分布式SVM文本分类算法。通过实验表明,文中提出的算法能够明显减小文本分类时间,并且具有很好的可扩展性。
所属分类：其它
- 发布日期：2020-07-06
- 文件大小：799744
- 提供者：weixin_38711529

Flume环境部署和配置详解及案例大全
flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。
所属分类：其它
- 发布日期：2020-09-15
- 文件大小：200704
- 提供者：weixin_38595473

Flume核心思想与解密
Apache flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统，用于有效地收集、聚合和将大量日志数据从许多不同的源移动到一个集中的数据存储（如文本、HDFS、Hbase等）。　　其使用不仅仅限于日志数据聚合。因为数据源是可定制的（内置Avro，Thrift Syslog，Netcat），Flume可以用于传输大量事件数据，包括但不限于网络流量数据、社交媒体生成的数据、电子邮件消息和几乎所有可能的数据源。
所属分类：Hadoop
- 发布日期：2020-10-13
- 文件大小：1048576
- 提供者：weixin_40544053

Flume的安装部署
一. 概述 Flume定义 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。 Flume的优点 1). 可以和任意存储进程集成(灵活，数据源多样化) 2). 当输入的数据速率大于写入目的存储的速率时，flume会进行缓冲从而减小HDFS的压力 3). flume的事务基于channel(管道),其使用了两个事务模型(s
所属分类：其它
- 发布日期：2021-01-20
- 文件大小：164864
- 提供者：weixin_38711740

« 12 »