python 泰坦尼克号数据_51CTO博客
import pandas #ipython notebook titanic = pandas.read_csv("titanic_train.csv") titanic.head(5)titanic["Age"] = titanic["Age"].fillna(titanic["Age"].median()) #age将空值填充为平均值 (处理age) titanic.describe()
案例:泰坦号数据分析背景:泰坦尼克号的沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在首次航行期间,泰坦尼克号撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难。这场轰动的悲剧震撼了国际社会,并导致了更好的船舶安全条例。 海难导致生命损失的原因之一是没有足够的救生艇给乘客和机组人员。虽然幸存下来的运气有一些因素,但一些人比其他人更有可能生存,比如妇女,儿童和上层阶级。数据集描述
转载 2023-08-13 15:31:06
738阅读
# Python泰坦尼克号数据分析实现指南 ## 1. 简介 在本文中,我们将介绍如何使用Python语言进行泰坦尼克号数据分析。泰坦尼克号是一艘著名的沉船事件,我们将使用相关的乘客数据进行分析。本文将逐步指导您完成整个数据分析过程。 ## 2. 数据准备 首先,我们需要获取泰坦尼克号乘客数据。您可以在Kaggle网站( ## 3. 导入所需的库 在开始分析之前,我们需要导入一些常用的Pyt
原创 2023-11-13 05:01:57
136阅读
具体详细可参考该篇博文:七、加载数据集①准备数据集以泰坦尼克号数据集(titanic.csv)为例 下载完解压,将解压后得到的压缩包放到指定的路径下,我这边放到了我的jupyter里面了里面有一些文本信息,仅使用数字信息,由于age有点缺失,故也不能用 输入:PassengerId、Pclass、SibSp、Parch、Fare 输出:Survived;1存活,0嘎了使用Pandas对数据进行处理
泰坦尼克号生存预测这是kaggle上面比较入门的一个比赛。今天让我们来看看怎么做吧。kaggle传送门。首先报名,下载数据集。数据载入及概述首先导入从Kaggle上面下载的数据集,在导入的过程中就需要先导入一些必备的包了。import numpy as np import pandas as pd # 接着导入我们的训练数据 filename = 'titanic/train.csv' # 这
接触数据挖掘内容较少,加之本次写作业较为匆忙,只能借鉴大佬思路进行相应的探索,后续会合理安排工作与学习时间,挤出时间认真完成作业!!数据探索之前断断续续做过中文文本分类项目,通过朴素贝叶斯原理,使用多项式算法建立模型对商品进行打标签,才算是首次接触数据挖掘,通过中文文本分类,第一次了解过拟合、交叉验证、TF-IDF、词向量等等术语,不断地加深对数据挖掘的认知,而本次泰坦尼克-数据挖掘项目,算是另一
泰坦尼克号数据可视化分析报告 1. 提出问题泰坦尼克号作为一部感人至深的电影流传至今,作为数据分析领域的一员,也站在数据分析的角度对其进行一些思考和分析,究竟什么样的人在泰坦尼克号更容易生还?2.理解数据2.1 采集数据从Kaggle泰坦尼克号项目界面下载数据:Kaggle泰坦尼克号项目2.2 导入数据 import 2.3 查看数据集信息 print 由上面信息可看出,数据
文章目录泰坦尼克号旅客生存预测1. 数据集1.1 获取1.2 数据展示及主要字段说明2. 数据预处理2.1 读入数据2.2 查看数据摘要2.3 筛选提取字段2.4 存在的问题及解决方案2.5 找出有 null 值的字段2.6 填充 null 值2.7 转换编码2.8 删除 name 字段2.9 打乱数据顺序2.10 分离特征值和标签值2.11 特征值标准化处理2.12 完整的数据预处理函数3.
hi everybody,这周开始了对随机森林算法的学习,kaggle网站上有一个关于泰坦尼克号幸存预测的案例很适合用随机森林算法来预测,所以我们本周的算法就以这个数据集开始讲解。定义问题本研究是利用泰坦尼克号乘客数据集,运用随机森林算法根据乘客的不同变量参数特征进行学习,最后得出预测是否幸存。本文运用的编程语言为 python所需要的包为:sklearn,numpy,matplotlib,sea
文章目录一、建模基本流程二、结构化数据建模流程2.1 泰塔尼克号数据2.2 数据处理2.3 建立模型2.4 训练模型2.5 评估模型2.6 模型预测27 保存模型 一、建模基本流程数据处理建立模型训练模型评估模型模型预测保存模型二、结构化数据建模流程数据文件:链接:https://pan.baidu.com/s/1H3QBVLPv4WeUnIYH92OKEA?pwd=wh77 提取码:wh77
数据描述# 导入pandas用于数据分析 import pandas as pd # 利用pandas的read_csv模块直接从互联网收集泰坦尼克号乘客数据 titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt') # 观察前几行数据,可以发现,数据种类各异,数值型
这是我做的第一个半完整的数据分析项目,里面包含数据获取,数据清洗,描述性统计,数据可视化,机器学习建模等内容。花了我两天时间,中间出了很多bug,而且原始数据也有问题,因此存在较多缺陷,还请各位大佬多多指教!目录: 1.数据获取 2.数据预处理 3.描述性统计 4.变量分布统计 5.探索变量间的关系 6.特征处理 7.机器学习建模 8.模型准确性评估第一步:数据获取 直接从互联网获取数据impor
转载 2023-12-28 10:01:12
284阅读
一,分析背景和目的分析背景:在上一篇里做过泰坦尼克号项目的数据清洗,模型训练,预估,链接如下https://zhuanlan.zhihu.com/p/157763714本篇着重于该项目的可视化分析目的:什么样的人在泰坦尼克号事件中的存活率较高?二,分析维度 三,导入数据 # Step1:导入数据处理包 四,理解数据1)理解字段 2)查看信息 #查看数据类型的信息 fu
(一)步骤流程:#(一) 目标确定:根据已有数据预测未知旅客生死 # (二)数据准备:1 数据获取,载入训练集csv,测试集csv # (三)数据清洗:补齐或抛弃缺失值,数据类型变化(字符串转数字) # (四)数据重构:根据需要重新构造数据(重组数据,构建新特性) #(五)数据分析: 1 描述性分析,画图,直观分析 2 探索性分析, 机器学习模型 # (六)成果输出
一、前言最近在B站看到一博主在讲数据分析的课程,跟着看了几节课,每节课很短,很适合通勤充电。 前几天看了节泰坦尼克分析,觉得很有意思就敲了几行代码。二、代码实现1.数据处理import pandas as pd import numpy as np # 特征最影响结果的K个特征 from sklearn.feature_selection import SelectKBest # 卡方检验,作为S
参考资料:https://github.com/AaronJny/simple_titanichttps://zhuanlan.zhihu.com/p/30538352https://www.jianshu.com/p/9a5bce0de13f1. 查看数据集import pandas as pd # 读取数据集 train_data = pd.read_csv('Data/train.csv'
泰坦尼克号和titanic2数据帧描述泰坦尼克号上的个别乘客的生存状态。这里使用的数据集是由各种研究人员开始的。其中包括许多研究人员创建的旅客名单,由Michael A. Findlay编辑。我们提取的数据集中的特征是票的类别,存活,乘坐班,年龄,登陆,home.dest,房间,票,船和性别。
转载 2021-10-19 21:26:00
478阅读
泰坦尼克号数据集,是kaggle(Titanic: Machine Learning from Disaster)上入门机器学习(ML)的一个好的可选数据集,当然,也是不错的练习数据分析的数据集。对 python ,在数据分析方面,作为一柄利器,涵盖了「数据获取→数据处理→数据分析→数据可视化」这个流程中每个环节,这个项目作为新生练习最好不过了。探索的问题主要探寻坦尼克号上的生还率和各因素(客舱等
这里写自定义目录标题泰坦尼克号Titanic读入数据1、读取数据2、读入csv\excel\txt数据可视化分析图数据分析1、数据处理—特征工程(feature engineering)2、线性回归3、逻辑回归4、随机森林 泰坦尼克号TitanicKaggle项目之泰坦尼克号titanic实践与相关知识点总结读入数据1、读取数据pandas是常用的python数据处理包 ,它能够把csv文件读入
虽然到处都是泰坦尼克号生存预测的案例,但是还是要再来一遍。哈哈哈。作为入门还是可以的。此篇文章为新手小白入门,大佬请指点。文章较长,下面进入正题。目录提出问题(Business Understanding )理解数据(Data Understanding)采集数据导入数据查看数据集信息3.数据清洗(Data Preparation )数据预处理特征工程(Feature Enginee
  • 1
  • 2
  • 3
  • 4
  • 5