您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 用100多行python代码写一个数据库

  2. 数据库的名字叫WawaDB,是用python实现的。由此可见python是灰常强大啊! 简介 记录日志的需求一般是这样的: 只追加,不修改,写入按时间顺序写入; 大量写,少量读,查询一般查询一个时间段的数据; MongoDB的固定集合很好的满足了这个需求,但是MongoDB占内存比较大,有点儿火穿蚊子,小题大做的感觉。 WawaDB的思路是每写入1000条日志,在一个索引文件里记录下当前的时间和日志文件的偏移量。 然后按时间询日志时,先把索引加载到内存中,用二分法查出时间点的偏移量,再打开日志
  3. 所属分类:Python

    • 发布日期:2015-03-17
    • 文件大小:6144
    • 提供者:wxmiy
  1. pyhton批量处理modis数据最大值合成,转投影,重采样转asc

  2. 在modis网站下载全球数据,为日值数据,每一天的数据大概为500M到1G不等,一年数据365天,大概300多G,数据量算比较大的了。原始数据原来分辨率0.05度,现在需要按照半月合成,即得到1年24期数据,结果转投影成1984,重采样成0.5度。 考虑用python进行批量操作,直接得到最终asc结果,可以在matlab进行批量操作。除了最大值合成,还可以平均值合成,代码并且考虑了闰年语非闰年的差异结果举例,如2008年1月最大值合成文件名:mod09cmg200801a一月上旬;mod09
  3. 所属分类:教育

    • 发布日期:2016-06-22
    • 文件大小:3072
    • 提供者:u011007431
  1. Snapde电子表格软件,一个超大数据量CSV编辑软件

  2. 如果CSV文件超过104万行Excel、wps打不开,使用什么软件对对超大CSV文件进行编辑呢?Snapde,它是最好用的CSV大文件编辑电子表格软件之一,内核全部用C语言编写,对于数据编辑和运算非常轻巧强大;能轻松打开2G大小一两千万行的CSV大文件,除了常用电子表格编辑功能,还具有:文件分割、合并、过滤、排序、删除重复等基本功能;并且集合了Exprtk、C语言、Python等脚本执行器,能在表格中写这三种脚本对数据进行运算处理,运行速度可以比java、C#都快。
  3. 所属分类:管理软件

    • 发布日期:2018-08-19
    • 文件大小:15728640
    • 提供者:feiren127
  1. python数据分析笔记

  2. NumPy,即Numeric Python的缩写,是一个优秀的开源科学计算库,并已经成为Python科学 计算生态系统的重要组成部分。 NumPy为我们提供了丰富的数学函数、强大的多维数组对象以及 优异的运算性能。尽管Python作为流行的编程语言非常灵活易用,但它本身并非为科学计算量身 定做,在开发效率和执行效率上均不适合直接用于数据分析,尤其是大数据的分析和处理。幸运 的是, NumPy为Python插上了翅膀,在保留Python语言优势的同时大大增强了科学计算和数据处 理的能力。更重要的
  3. 所属分类:机器学习

    • 发布日期:2018-01-24
    • 文件大小:46080
    • 提供者:a15008134205
  1. pandasTrain.html python-pandas的一些小练习——东北大学大数据班数据挖掘实训Python基础二(2)

  2. python-pandas的一些小练习——东北大学大数据班数据挖掘实训Python基础二(2) 实训练习:练习使用pandas 包中的dataframe和方法。 1将数据读取为dataframe类型,命名为df 2查看数据的形状[了解数据有多少行、多少列] 3查看数据的最开始的7条数据和尾部的3条数据 4查看数据的各字段的类型 5查看数据是否有缺失值 6如果有缺失值,进行补0操作 7从df中按字段取出‘ date’’dist’和‘ flight’形成新的df1 8从df中按位置选取行为3和4,列
  3. 所属分类:Python

    • 发布日期:2020-03-29
    • 文件大小:336896
    • 提供者:weixin_43124279
  1. 大数据在汽车行业的应用.pptx

  2. 大数据(big data,mega data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。
  3. 所属分类:讲义

    • 发布日期:2020-09-19
    • 文件大小:362496
    • 提供者:weixin_42428472
  1. python pickle存储、读取大数据量列表、字典数据的方法

  2. pickle模块实现了用于序列化和反序列化python对象结构的二进制协议。这篇文章主要介绍了python pickle存储、读取大数据量列表、字典的数据,需要的朋友可以参考下
  3. 所属分类:其它

    • 发布日期:2020-09-19
    • 文件大小:64512
    • 提供者:weixin_38674512
  1. 在Python中利用Pandas库处理大数据的简单介绍

  2. 在数据分析领域,最热门的莫过于Python和R语言,此前有一篇文章《别老扯什么Hadoop了,你的数据根本不够大》指出:只有在超过5TB数据量的规模下,Hadoop才是一个合理的技术选择。这次拿到近亿条日志数据,千万级数据已经是关系型数据库的查询分析瓶颈,之前使用过Hadoop对大量文本进行分类,这次决定采用Python来处理数据:     硬件环境         CPU:3.5 GHz Intel Core i7         内存:32 GB HDDR 3 1600 MHz       
  3. 所属分类:其它

    • 发布日期:2020-12-25
    • 文件大小:235520
    • 提供者:weixin_38632797
  1. Python实现数据可视化看如何监控你的爬虫状态【推荐】

  2. 今天主要是来说一下怎么可视化来监控你的爬虫的状态。 相信大家在跑爬虫的过程中,也会好奇自己养的爬虫一分钟可以爬多少页面,多大的数据量,当然查询的方式多种多样。今天我来讲一种可视化的方法。 关于爬虫数据在mongodb里的版本我写了一个可以热更新配置的版本,即添加了新的爬虫配置以后,不用重启程序,即可获取刚刚添加的爬虫的状态数据。 1.成品图   这个是监控服务器网速的最后成果,显示的是下载与上传的网速,单位为M。爬虫的原理都是一样的,只不过将数据存到InfluxDB的方式不一样而已, 如下图。
  3. 所属分类:其它

    • 发布日期:2020-12-24
    • 文件大小:247808
    • 提供者:weixin_38722721
  1. Python实现二分查找与bisect模块详解

  2. 前言 其实Python 的列表(list)内部实现是一个数组,也就是一个线性表。在列表中查找元素可以使用 list.index() 方法,其时间复杂度为O(n) 。对于大数据量,则可以用二分查找进行优化。 二分查找要求对象必须有序,其基本原理如下:       1.从数组的中间元素开始,如果中间元素正好是要查找的元素,则搜素过程结束;       2.如果某一特定元素大于或者小于中间元素,则在数组大于或小于中间元素的那一半中查找,而且跟开始一样从中间元素开始比较。       3.如果在某一
  3. 所属分类:其它

    • 发布日期:2020-12-23
    • 文件大小:66560
    • 提供者:weixin_38644097
  1. 浅谈Python程序与C++程序的联合使用

  2. 作为Python程序员,应该能够正视Python的优点与缺点。众所周之,Python的运行速度是很慢的,特别是大数据量的运算时,Python会慢得让人难以忍受。对于这种情况,“专业”的解决方案是用上numpy或者opencl。不过有时候为了一点小功能用上这种重型的解决方案很不划算,或者有时候想要实现的操作在numpy里面没有,需要我们自己用C语言来编写。总之,我们使用Python与C++的混合编程能够加快程序热点的运算速度。 首先要提醒大家注意的是,在考虑联合编程之前一定要找到程序运行的热点。简
  3. 所属分类:其它

    • 发布日期:2020-12-23
    • 文件大小:99328
    • 提供者:weixin_38631978
  1. python训练数据时打乱训练数据与标签的两种方法小结

  2. 如下所示: import numpy as np data = np.array([[1,1],[2,2],[3,3],[4,4],[5,5]]) y = np.array([1,2,3,4,5]) print '-------第1种方法:通过打乱索引从而打乱数据,好处是1:数据量很大时能够节约内存,2每次都不一样----------' data = np.array([[1,1],[2,2],[3,3],[4,4],[5,5]]) data_num, _= data.shape #得到样本
  3. 所属分类:其它

    • 发布日期:2020-12-30
    • 文件大小:33792
    • 提供者:weixin_38746387
  1. python pickle存储、读取大数据量列表、字典数据的方法

  2. 先给大家介绍下python pickle存储、读取大数据量列表、字典的数据 针对于数据量比较大的列表、字典,可以采用将其加工为数据包来调用,减小文件大小 #列表 #存储 list1 = [123,'xiaopingguo',54,[90,78]] list_file = open('list1.pickle','wb') pickle.dump(list1,list_file) list_file.close() #读取 list_file = open('list
  3. 所属分类:其它

    • 发布日期:2020-12-26
    • 文件大小:69632
    • 提供者:weixin_38593380
  1. Excel太烦、python太难,我用它就能轻松搞定数据可视化

  2. 小李在一家连锁超市企业的IT部门,经常要帮业务部分做数据分析,公司信息化建设发展比较落后,IT部门也只有两个人,各种各样的数据表经常让小李加班加到头疼,每次辛辛苦苦做好的分析报告,老板还总嫌丑。 众所周知,超市的数据量十分的大,而且是实时变动的,小李平时做数据分析都是用的Excel,处理一些小数据量的数据很方便,但一碰到大数据量就会卡死,更别说实时更新数据了,而且用excel做一些复杂可视化步骤十分繁琐。 就拿一个简单的综合分析仪表板来说,用 Excel做就需要用到表格函数、AVERAGEIF
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:378880
    • 提供者:weixin_38731553
  1. Python-多元线性回归方程比较最小二乘法与梯度下降法

  2. 最小二乘法是先将方程自变量与因变量化为系数矩阵X,再求该矩阵的转置矩阵(X1),接着求矩阵X与他的转置矩阵的X1的乘积(X2),然后求X2的逆矩阵。最后整合为系数矩阵W,求解后分别对应截距b、a1、和a2。可见计算一个矩阵的逆是相当耗费时间且复杂的,而且求逆也会存在数值不稳定的情况。 梯度下降法迭代的次数可能会比较多,但是相对来说计算量并不是很大。且其有收敛性保证。故在大数据量的时候,使用梯度下降法比较好。 梯度下降法 import numpy as np from matplotlib imp
  3. 所属分类:其它

    • 发布日期:2021-01-21
    • 文件大小:138240
    • 提供者:weixin_38624557
  1. Python-多元线性回归方程比较最小二乘法与梯度下降法

  2. 最小二乘法是先将方程自变量与因变量化为系数矩阵X,再求该矩阵的转置矩阵(X1),接着求矩阵X与他的转置矩阵的X1的乘积(X2),然后求X2的逆矩阵。最后整合为系数矩阵W,求解后分别对应截距b、a1、和a2。可见计算一个矩阵的逆是相当耗费时间且复杂的,而且求逆也会存在数值不稳定的情况。 梯度下降法迭代的次数可能会比较多,但是相对来说计算量并不是很大。且其有收敛性保证。故在大数据量的时候,使用梯度下降法比较好。 梯度下降法 import numpy as np from matplotlib imp
  3. 所属分类:其它

    • 发布日期:2021-01-21
    • 文件大小:138240
    • 提供者:weixin_38731239
  1. Python-多元线性回归方程比较最小二乘法与梯度下降法

  2. 最小二乘法是先将方程自变量与因变量化为系数矩阵X,再求该矩阵的转置矩阵(X1),接着求矩阵X与他的转置矩阵的X1的乘积(X2),然后求X2的逆矩阵。最后整合为系数矩阵W,求解后分别对应截距b、a1、和a2。可见计算一个矩阵的逆是相当耗费时间且复杂的,而且求逆也会存在数值不稳定的情况。 梯度下降法迭代的次数可能会比较多,但是相对来说计算量并不是很大。且其有收敛性保证。故在大数据量的时候,使用梯度下降法比较好。 梯度下降法 import numpy as np from matplotlib imp
  3. 所属分类:其它

    • 发布日期:2021-01-21
    • 文件大小:138240
    • 提供者:weixin_38675232
  1. Python爬虫防封ip的一些技巧

  2. 在编写爬虫爬取数据的时候,因为很多网站都有反爬虫措施,所以很容易被封IP,就不能继续爬了。在爬取大数据量的数据时更是瑟瑟发抖,时刻担心着下一秒IP可能就被封了。 本文就如何解决这个问题总结出一些应对措施,这些措施可以单独使用,也可以同时使用,效果更好。 伪造User-Agent 在请求头中把User-Agent设置成浏览器中的User-Agent,来伪造浏览器访问。比如: headers ={‘User-Agent’:’Mozilla/5.0 (X11; Linux x86_64) Apple
  3. 所属分类:其它

    • 发布日期:2021-01-21
    • 文件大小:124928
    • 提供者:weixin_38621565
  1. 大数据体系

  2. 开发语言 1.Java,大数据框架的编写支持很多开发语言,但是Java在大数据方面有很大的优势,目前流行的大数据Hadoop框架,MapReduce框架,很多部分都是用开源的Java语言编写,因此Java在大数据方面有很大优势 2.Scala,就大数据而言,对典型的迭代机器学习,即席查询,图计算等应用Spark比基于MapReduce,Hive,和Prgel的实现快上十倍到百倍。其中内存计算,数据本地性和传输 优化,调度优化等该居首功也与设计伊始即秉持的轻量理念不无关系,而Spark是采用Sca
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:93184
    • 提供者:weixin_38609089
  1. python分布式编程实现过程解析

  2. 分布式编程的难点在于: 1.服务器之间的通信,主节点如何了解从节点的执行进度,并在从节点之间进行负载均衡和任务调度; 2.如何让多个服务器上的进程访问同一资源的不同部分进行执行 第一部分涉及到网络编程的底层细节 第二个问题让我联想到hdfs的一些功能。 首先分布式进程还是解决的是单机单进程无法处理的大数据量大计算量的问题,希望能加通过一份代码(最多主+从两份)来并行执行一个大任务。 这就面临两个问题,首先将程序分布到多台服务器,其次将输入数据分配给多台服务器。 第一个问题相对比较简单,毕竟程序一
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:65536
    • 提供者:weixin_38745891
« 12 3 4 5 6 7 8 »