搜索资源 - 数据切分方法 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 数据切分方法

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

Linux一句话精彩问答
目录 1 系统设置篇................................................................................................................................10 1001 修改主机名(陈绪).............................................................................................
所属分类：Linux
- 发布日期：2009-05-11
- 文件大小：567296
- 提供者：ieya

数据切分方法
数据切分方法
所属分类：讲义
- 发布日期：2014-08-07
- 文件大小：9216
- 提供者：leizhenyu125125

李航统计学习方法 kd树实现
kd树(K-dimension tree)是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。kd树是是一种二叉树，表示对k维空间的一个划分，构造kd树相当于不断地用垂直于坐标轴的超平面将K维空间切分，构成一系列的K维超矩形区域。kd树的每个结点对应于一个k维超矩形区域。利用kd树可以省去对大部分数据点的搜索，从而减少搜索的计算量。
所属分类：机器学习
- 发布日期：2017-09-29
- 文件大小：4096
- 提供者：u011649495

统计方法来识别中文姓名
用统计方法来识别中文姓名。该方法将中文姓名的识别过程分为姓名候选和姓名确认两个阶段。采用隐马尔可夫模型（ H MM）分类器从未经切分的汉字串中候选姓名。利用人名与上下文词汇的互信息对候选人名进行最后的确认。该方法是完全数据驱动的，不需要姓名识别模板和规则。试验结果表明，该方法的召回率为 8 2 . 7 %，准确率为 8 9 . 6 %。
所属分类：专业指导
- 发布日期：2009-03-30
- 文件大小：101376
- 提供者：lizezhonglaile

应用预测建模 Applied Predictive Modeling
译者序前言第1章导论 1.1 预测与解释 1.2 预测模型的关键部分 1.3 专业术语 1.4 实例数据集和典型数据场景 1.5 概述 1.6 符号第一部分一般策略第2章预测建模过程简介 2.1 案例分析：预测燃油效能 2.2 主题 2.3 总结第3章数据预处理 3.1 案例分析：高内涵筛选中的细胞分组 3.2 单个预测变量数据变换 3.3 多个预测变量数据变换 3.4 处理缺失值 3.5 移除预测变量 3.6 增加预测变量 3.7 区间化预测变量 3.8 计算习题第4章
所属分类：机器学习
- 发布日期：2018-06-14
- 文件大小：77594624
- 提供者：u011051172

管理海量数据-压缩、索引和查询第2版.zip
第1章概览 1.1 文档数据库（document databases） 1.2 压缩（compression） 1.3 索引（indexes） 1.4 文档索引 1.5 MG海量文档管理系统第2章文本压缩 2.1 模型 2.2 自适应模型 2.3 哈夫曼编码范式哈夫曼编码计算哈夫曼编码长度总结 2.4 算术编码算术编码是如何工作的实现算术编码保存累积计数 2.5 符号模型部分匹配预测块排序压缩动态马尔科夫压缩基于单字的压缩 2.6 字典模型自适应字典编码器的LZ77
所属分类：数据库
- 发布日期：2019-08-04
- 文件大小：236978176
- 提供者：harlensaint

一种面向分布式平台的基于用户访问热度的数据迁移部署方法
该方法主要涉及一个数据迁移部署控制系统、原始数据集以及该数据集对应的访问日志数据集。对于已迁移部署于分布式平台的列式数据集，根据其运行时用户访问日志信息，使用预测算法预测下一时段的访问量分布；根据预测得到的访问量分布计算出各个字段的访问次数排序；对预测访问次数最高的一列的字段的数据值的分布重新划分数据子区域，使得该字段的访问次数被均匀分配到新的数据子区域内；系统再根据访问次数最高的列重新划分的数据区域切分数据并在分布式平台上更新其数据部署。本发明结合用户对数据集的实际访问行为实现面向分布式平台的
所属分类：其它
- 发布日期：2020-11-18
- 文件大小：158720
- 提供者：yangcandan

PHPExcel内存泄漏问题解决方法
使用 PHPExcel 来生成 excel 文档是比较消耗内存的，有时候可能会需要通过一个循环来把大数据切分成若干个小的 excel 文档保存来避免内存耗尽。然而 PHPExcel 存在 circular references 的情况（貌似在最新的 1.6.5 版本中仍然没有去解决这个问题），如果在一次 http 请求过程中反复多次构建 PHPExcel 及 PHPExcel_Writer_Excel5 对象实例来完成多个 excel 文档生成操作的话，所有被构建的对象实例都无法在 http
所属分类：其它
- 发布日期：2020-12-18
- 文件大小：41984
- 提供者：weixin_38654220

sklearn和keras的数据切分与交叉验证的实例详解
在训练深度学习模型的时候，通常将数据集切分为训练集和验证集．Keras提供了两种评估模型性能的方法：使用自动切分的验证集使用手动切分的验证集一．自动切分在Keras中，可以从数据集中切分出一部分作为验证集，并且在每次迭代(epoch)时在验证集中评估模型的性能．具体地，调用model.fit()训练模型时，可通过validation_split参数来指定从数据集中切分出验证集的比例． # MLP with automatic validation set from keras.mod
所属分类：其它
- 发布日期：2020-12-17
- 文件大小：63488
- 提供者：weixin_38658982

数据库水平切分方法
在大中型项目中，在数据库设计的时候，考虑到数据库大承受数据量，通常会把数据库或者数据表水平切分，以降低单个库，单个表的压力。我这里介绍两个我们项目中常用的数据表切分方法。当然这些方法都是在程序中使用一定的技巧来路由到具体的表的。首先我们要确认根据什么来水平切分？在我们的系统（SNS）中，用户的UID贯穿系统，自增长，根据这个字段分表，再好不过。　　方法一：使用MD5哈希　　做法是对UID进行md5加密，然后取前几位（我们这里取前两位），然后可以将不同的UID哈希到不同的用户表（user_
所属分类：其它
- 发布日期：2020-12-14
- 文件大小：45056
- 提供者：weixin_38665629

python输入整条数据分割存入数组的方法
通过手动输入数据，将数据分成几部分存入数组中 import os import sys def test(): brick = raw_input("input:") brick = brick.split(",") print brick test() 输入的数据是用逗号分割开的，所以直接使用”split(“,”)”拆分。以上这篇python输入整条数据分割存入数组的方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持软件开发网。
所属分类：其它
- 发布日期：2020-12-23
- 文件大小：29696
- 提供者：weixin_38569515

Pytorch DataLoader 变长数据处理方式
关于Pytorch中怎么自定义Dataset数据集类、怎样使用DataLoader迭代加载数据，这篇官方文档已经说得很清楚了，这里就不在赘述。现在的问题：有的时候，特别对于NLP任务来说，输入的数据可能不是定长的，比如多个句子的长度一般不会一致，这时候使用DataLoader加载数据时，不定长的句子会被胡乱切分，这肯定是不行的。解决方法是重写DataLoader的collate_fn，具体方法如下： # 假如每一个样本为： sample = { # 一个句子中各个词的id 'tok
所属分类：其它
- 发布日期：2020-12-23
- 文件大小：43008
- 提供者：weixin_38666114

pandas 如何分割字符的实现方法
摘要：本文主要是在pandas中如何对字符串进行切分。我们考虑一下下面的应用场景。这个是我们的数据集(data)，可以看到，数据集中某一列(name)是某个行业的分类。各个行业之间用符号 ‘|’分割。我们要把用每个‘|’进行分割的内容抽取出来。pandas有个一步到到位的方法，非常方便。 import pandas as pd data['name'].str.split('|',expand=True) 关键是参数expand，这个参数取True时，会把切割出来的内容当做一列。如果不
所属分类：其它
- 发布日期：2020-12-26
- 文件大小：669696
- 提供者：weixin_38535812

基于多元判别分析的汉语句群自动划分方法
针对目前句群划分工作缺乏计算语言学数据支持、忽略篇章衔接词的问题以及当前篇章分析较少研究句群语法单位的现象,提出一种汉语句群自动划分方法。该方法以汉语句群理论为指导,构建汉语句群划分标注评测语料,并且基于多元判别分析(MDA)方法设计了一组评价函数J,从而实现汉语句群的自动划分。实验结果表明,引入切分片段长度因素和篇章衔接词因素可以改善句群划分性能,并且利用Skip-Gram Model比传统的向量空间模型(VSM)有更好的效果,其正确分割率Pμ达到85.37%、错误分割率Window Diff
所属分类：其它
- 发布日期：2021-03-19
- 文件大小：324608
- 提供者：weixin_38656676

维吾尔文无监督自动切分及无监督特征选择
维吾尔文常用切分方法会产生大量的语义抽象甚至多义的词特征,因此学习算法难以发现高维数据中隐藏的结构.提出一种无监督切分方法 dme-TS和一种无监督特征选择方法 UMRMR-UFS.dme-TS从大规模生语料中自动获取单词Bi-gram及上下文语境信息,并将相邻单词间的t-测试差、互信息及双词上下文邻接对熵的线性融合作为一个组合统计量(dme)来评价单词间的结合能力,从而将文本切分成语义具体的独立语言单位的特征集合.UMRMR-UFS用一种综合考虑最大相关度和最小冗余的无监督特征选择标准(UMR
所属分类：其它
- 发布日期：2021-03-10
- 文件大小：1048576
- 提供者：weixin_38624519

一种基于频繁序列匹配的交通状态趋势预测方法
海量的交通流数据中一定隐藏着某些潜在的交通状态演变规律，然而少有研究能以实验的方法支持这种观点。本文提出一种基于频繁序列匹配的交通状态趋势预测方法：首先，介绍交通状态序列模型及序列切分处理，其次，提出投影压缩序列相似度计算方法及序列匹配算法，第三，讨论基于频繁序列匹配的交通序列预测算法。通过真实采集数据验证本文提出的方法可行有效。
所属分类：其它
- 发布日期：2021-01-29
- 文件大小：716800
- 提供者：weixin_38501810

python中如何实现将数据分成训练集与测试集的方法
接下来，直接给出大家响应的代码，并对每一行进行标注，希望能够帮到大家。需要用到的是库是。numpy 、sklearn。 #导入相应的库（对数据库进行切分需要用到的库是sklearn.model_selection 中的 train_test_split） import numpy as np from sklearn.model_selection import train_test_split #首先，读取.CSV文件成矩阵的形式。 my_matrix = np.loadtxt(open
所属分类：其它
- 发布日期：2021-01-21
- 文件大小：41984
- 提供者：weixin_38557980

数据清洗之数据离散化
数据离散化数据离散化就是分箱一把你常用分箱方法是等频分箱或者等宽分箱一般使用pd.cut或者pd.qcut函数 pandas.cut(x, bins, right=True, labels) x: 数据 bins: 离散化的数目，或者切分的区间 labels: 离散化后各个类别的标签 right: 是否包含区间右边的值 import pandas as pd import numpy as np import os os.getcwd() 'D:\\Jupyter\\notebook\
所属分类：其它
- 发布日期：2021-01-21
- 文件大小：72704
- 提供者：weixin_38690830

对pandas数据判断是否为NaN值的方法详解
实际项目中有这样的需求，将某一列的值，映射成类别型的数据，这个时候，需要我们将范围等频切分，或者等距切分。具体的做法可以先看某一些特征的具体分布情况，然后我们选择合适的阈值进行分割。 def age_map(x): if x =26 and x 35 and x <= 45: return 2 elif pd.isnull(x): #判断是否为NaN值，== 和in 都无法判断 return 3 else: return 4 也就是用pandas自带的函数来表示：
所属分类：其它
- 发布日期：2021-01-20
- 文件大小：36864
- 提供者：weixin_38564085

一种关联感知的大数据导入方法
针对现有数据库向大数据迁移的背景，Apache推出了Sqoop作为关系数据库向大数据迁移的主要工具。Sqoop简单地将数据表切分并随机存储到不同的节点上。针对Hadoop的这种存储方式带来的关系查询的低效率问题，设计了一种关联度感知的数据导入预处理方法。将关联度较高的表尽量存储在相邻的虚拟机节点，以降低关联数据查询带来的网络传输时延，提高系统的性能。对比实验表明，将关联性较强的数据表存放在相同或相邻节点上，可以成倍提高数据查询的性能。
所属分类：其它
- 发布日期：2021-01-19
- 文件大小：977920
- 提供者：weixin_38664989

« 12 3 4 5 6 »