大数据下载列表第140页

[Hadoop] 大数据处理map，reduce，wordcount代码

说明：Community Detection inOnline Social Networks大数据大中小数据集所对应的mapreduce代码
<cheng_hai_yan> 在上传 | 大小：782

[Hadoop] SamllMediumLargeDataset.rar

说明：大数据数单词数据集，包含大中小的数据集，对应本号之前上传的mapreduce wordcount代码
<cheng_hai_yan> 在上传 | 大小：179306496

[Hadoop] jps脚本 shell脚本

说明：在一个集群非常大的情况下，如果想要查看单个主机在运行哪些java进程。我们可以去到每个主机下，使用jps命令。可是这种方法太过低效。我们可以使用一个shell脚本来完成此命令。查看进程 jps脚本提前配置免密
<Charlie_jun> 在上传 | 大小：137

[spark] SparkStreaming入门案例

说明：本文SparkStream从磁盘文件、HDFS、KAFKA获取数据源，以单词频次统计作为入门案例，介绍了SparkStream模块API的使用。同时介绍了SparkStream的特点
<weixin_37536020> 在上传 | 大小：362496

[算法与数据结构] 三种方法对web-Google.txt进行pagerank计算，python以稀疏矩阵方法实现单机计算谷歌网页数据计算pageRank值

说明：三种方法对web-Google.txt进行pagerank计算，1.python以稀疏矩阵方法实现单机计算谷歌网页数据计算pageRank值2.调用networkx库3.调用networkx库，其中pagerank自己实现。
<cheng_hai_yan> 在上传 | 大小：19922944

[Hadoop] 论文解读pre:Clustering Very Large Multi-dimensional Datasets with MapReduce

说明：用latex beamer生成的pdf版本的ppt，关于论文Clustering Very Large Multi-dimensional Datasets with MapReduce。是我的pre
<Xurui_Luo> 在上传 | 大小：1048576

[算法与数据结构] 斐波那契堆python实现

说明：斐波那契堆的python实现(优先队列)，实现内容：merge(H), insert(v), find_min() # extractMin(), coalesce_step(), updateMin() # decreaseKey(v,k), delete(v)
<weixin_38475220> 在上传 | 大小：9216

说明：遗传算法的基本运算过程如下：（1）初始化：设置进化代数计数器t=0，设置最大进化代数T，随机生成M个个体作为初始群体P(0)。 [2] （2）个体评价：计算群体P(t)中各个个体的适应度。 [2] （3）选择运算：将选择算子作用于群体。选择的目的是把优化的个体直接遗传到下一代或通过配对交叉产生新的个体再遗传到下一代。选择操作是建立在群体中个体的适应度评估基础上的。（4）交叉运算：将交叉算子作用于群体。遗传算法中起核心作用的就是交叉算子。 [2] （5）变异运算：将变异算子作用于群体
<shineenihs> 在上传 | 大小：1024

[Hadoop] 扒站器(仿站小工具 V8.2).rar

说明：扒站器(仿站小工具 V8.2).rar
<beau_lily> 在上传 | 大小：824320

[Hive] apache-hive-2.3.5-bin.tar.gz

说明：对hive源码中的LineageLogger类进行了修改，增加了对血缘数据的相关处理，可直接在日志中得到表级和字段级血缘数据
<weixin_44455388> 在上传 | 大小：279969792

[Hadoop] 大数据试验报告-林子雨.zip

说明：大数据技术原理与应用-林子雨书试验报告 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据
<liutao43> 在上传 | 大小：4194304

[算法与数据结构] 基于Java的大数据集中碎片数据实时标记方法.pdf

说明：现有大数据集中碎片数据实时标记方法存在标记实时性差、鲁棒性差的问题，为了解决上述问题，提出基于 Java 的大数据集中碎片数据实时标记方法。提取大数据中碎片数据，以碎片数据特征为基础创建最优数据集合树，完成碎片数据的集合，得到集合碎片数据，利用线性函数转换方法处理集中碎片数据。
<diyi6976> 在上传 | 大小：1048576