ITPub博客

首页 > 大数据 > 数据挖掘 > R语言Kaggle泰坦尼克号性别阶级模型数据分析案例

R语言Kaggle泰坦尼克号性别阶级模型数据分析案例

原创 数据挖掘 作者:tecdat 时间:2020-10-24 23:07:50 0 删除 编辑

原文链接:

 

这场灾难以拯救“妇女和儿童第一”而闻名,所以让我们来看看性别和年龄变量。我们将从乘客的性别开始。将数据重新加载到R后,请查看此变量的摘要:

> summary(train$Sex)female male314 577

所以我们看到大多数乘客都是男性。对幸存的男性和女性进行双向比较:

> prop.table(table(train$Sex, train$Survived))0 1female 0.09090909 0.26150393male 0.52525253 0.12233446

我们希望看到的是行数比例,即存活的每个性别的比例。

> prop.table(table(train$Sex, train$Survived),1)0 1female 0.2579618 0.7420382male 0.8110919 0.1889081

我们现在可以看到大多数女性幸存下来,并且男性的比例非常低。

> test$Survived <- 0> test$Survived[test$Sex == 'female'] <- 1

在这里,我们开始像以前一样添加“everyone dies”预测列,除了我们将抛弃rep命令并将零指定给整个列。然后我们改变了相同的列,其中1为乘客的变量“Sex”等于“女性”。

现在让我们写一个新的提交并发送给Kaggle

 

现在让我们开始深入研究年龄变量:

> summary(train$Age)Min. 1st Qu. Median Mean 3rd Qu. Max. NA's0.42 20.12 28.00 29.70 38.00 80.00 177

数据分析中可能缺少值,这可能会导致现实世界中出现的各种问题,而这些问题有时很难处理。目前我们可以假设177个缺失值是其余乘客的平均年龄。

现在我们有一个连续的变量,我们创建一个新的变量“Child”来表明乘客是否低于18岁:

> train$Child <- 0> train$Child[train$Age < 18] <- 1

现在我们要创建一个包含性别和年龄的表,以查看不同子集的生存比例。首先让我们尝试找出不同子集的幸存者数量:

> aggregate(Survived ~ Child + Sex, data=train, FUN=sum)Child Sex Survived1 0 female 1952 1 female 383 0 male 864 1 male 23

但我们不知道每个子集中的总人数; 让我们来看看:

> aggregate(Survived ~ Child + Sex, data=train, FUN=length)Child Sex Survived1 0 female 2592 1 female 553 0 male 5194 1 male 58

我们需要创建一个函数,它将子集向量作为输入,并将sum和length命令应用于它,然后进行除法以给出一个比例。

> aggregate(Survived ~ Child + Sex, data=train, FUN=function(x) {sum(x)/length(x)})Child Sex Survived1 0 female 0.75289582 1 female 0.69090913 0 male 0.16570334 1 male 0.3965517

虽票价是一个连续变量,需要将其简化为可以轻松制表的内容。我们将票价收入不到10美元,10美元到20美元,20美元到30美元以及30美元以上,并将其存储到一个新变量中:

> train$Fare2 <- '30+'> train$Fare2[train$Fare < 30 & train$Fare >= 20] <- '20-30'> train$Fare2[train$Fare < 20 & train$Fare >= 10] <- '10-20'> train$Fare2[train$Fare < 10] <- '<10'

现在让我们运行一个更长的聚合函数,看看这里有什么有趣的东西:

> aggregate(Survived ~ Fare2 + Pclass + Sex, data=train, FUN=function(x) {sum(x)/length(x)})Fare2 Pclass Sex Survived1 20-30 1 female 0.83333332 30+ 1 female 0.97727273 10-20 2 female 0.91428574 20-30 2 female 0.90000005 30+ 2 female 1.00000006 <10 3 female 0.59375007 10-20 3 female 0.58139538 20-30 3 female 0.3333333 **9 30+ 3 female 0.1250000 **10 <10 1 male 0.000000011 20-30 1 male 0.400000012 30+ 1 male 0.383720913 <10 2 male 0.000000014 10-20 2 male 0.158730215 20-30 2 male 0.160000016 30+ 2 male 0.214285717 <10 3 male 0.111538518 10-20 3 male 0.236842119 20-30 3 male 0.125000020 30+ 3 male 0.2400000

虽然大多数男性,票价仍然做得不好。

让我们根据新的见解做出新的预测。

> test$Survived <- 0> test$Survived[test$Sex == 'female'] <- 1> test$Survived[test$Sex == 'female' & test$Pclass == 3 & test$Fare >= 20] <- 0

好的,让我们创建输出文件,看看我们是否做得更好!

 

有问题欢迎下方留言!

 


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69982319/viewspace-2729500/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论
拓端tecdat分享最in的大数据资讯,提供“一站式”的数据分析学习和咨询体验,让我们一起做有态度的数据人。关注公众号:拓端数据部落、拓端数据。

注册时间:2020-08-21

  • 博文量
    87
  • 访问量
    37430