Apache-pyspark-hadoop-using-databricks:说明使用pyspark

文件名称: Apache-pyspark-hadoop-using-databricks:说明使用pyspark执行的一些基本活动，并使用MLlib API执行一些机器学习（ML）算法-源码

所属分类: 其它

开发工具:

文件大小: 80kb

下载次数: 0

上传时间: 2021-03-07

提供者: weixin_********

下载 (80kb)

不能下载？报告错误

详细说明：Apache-pyspark-hadoop使用数据块说明使用pyspark执行的一些基本活动，并使用MLlib API执行一些机器学习（ML）算法发布在此存储库上的笔记本是使用databricks开发的，databricks是spark创始人创建的一个开源平台，您可以选择以下提到的其他平台： 1）在虚拟机/本地机上使用ubuntu（或） 2）AWS EC2（或） 3）AWS EMR（或） 4）数据砖。为了使用数据砖在此github存储库中执行笔记本，请创建一个社区版帐户，然后开始为您的spark环境创建一个集群。完成上述步骤后，进入笔记本部分，选择之前创建的集群，并确保已将输入数据以表格的形式上传到数据部分。请参考输入数据表的架构，并尝试根据每个功能的行更改其数据类型。最后，将要执行的笔记本文件上载到工作区中，一切顺利......

(系统自动生成,下载前可以参看下载内容)