文件名称:
titanic_dataset:进行中-此分析着重于基于titanic崩溃的数据集。 我们被要求查看数据并创建一个机器学习模型,该模型可以证明某些乘客群体与生存可能性之间是否存在任何潜在的相关性。 该项目展示了数据可视化技术,数据清理,数据
开发工具:
文件大小: 911kb
下载次数: 0
上传时间: 2021-02-27
详细说明:titanic_dataset
目的
如上图中的Kaggle所述,此挑战的目的是检查有关泰坦尼克号沉没的数据,以建立生存能力的预测模型。
我将在自己对此数据集的分析中尝试回答以下问题:
财富决定了您生存的可能性吗? 如果是的话多少钱?
年龄是一个人的生存率的决定因素吗?
探索性数据分析
分析的这一部分着重于使自己熟悉数据,并针对任何潜在问题或特殊考虑对数据进行探索。
一个很好的起点是查看训练数据的列及其各自的数据类型。 这确保了所有收集到的数据将能够被相应地操纵。
我们可以立即确定数据中的一些关键点。
“年龄”和“机舱”列中有大量缺失值
列通常可以分为两大类-数字数据类型和分类数据
某些列可能需要从我们的训练数据中删除,因为它们可能无助于我们确定生存率的算法-例如Name和PassengerId
解决这些问题中的第一点,有助于量化“年龄”和“机舱”列中的数据百分比为空
如
(系统自动生成,下载前可以参看下载内容)
下载文件列表
相关说明
- 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
- 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度。
- 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
- 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
- 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
- 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.