Kaggle之旅3
文章目录
- Kaggle之旅3
- 前言
- 一、Predict survival on the Titanic and get familiar with ML basics
- 二、开始
- 1.基础知识
- 构造随机森林的4个步骤
- 2.结合教程继续
- 总结
前言
今天继续Kaggle之旅,尝试Titanic - Machine Learning from Disaster
一、Predict survival on the Titanic and get familiar with ML basics
预测泰坦尼克号上的生存者,了解基础的ML。
学习这篇教程《Titanic Tutorial》,并重点学习其中用到的一个算法:随机森林 – random forest model
二、开始
1.基础知识
随机森林是由很多决策树构成的,不同决策树之间没有关联。当我们进行分类任务时,新的输入样本进入,就让森林中的每一棵决策树分别进行判断和分类,每个决策树会得到一个自己的分类结果,决策树的分类结果中哪一个分类最多,那么随机森林就会把这个结果当做最终的结果。
构造随机森林的4个步骤
- 一个样本容量为N的样本,有放回的抽取N次,每次抽取1个,最终形成了N个样本。这选择好了的N个样本用来训练一个决策树,作为决策树根节点处的样本。
- 当每个样本有M个属性时,在决策树的每个节点需要分裂时,随机从这M个属性中选取出m个属性,满足条件m << M。然后从这m个属性中采用某种策略(比如说信息增益)来选择1个属性作为该节点的分裂属性。
- 决策树形成过程中每个节点都要按照步骤2来分裂(很容易理解,如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性,则该节点已经达到了叶子节点,无须继续分裂了)。一直到不能够再分裂为止。注意整个决策树形成过程中没有进行剪枝。
- 按照步骤1~3建立大量的决策树,这样就构成了随机森林了。
2.结合教程继续
按照教程所描述,下面示意图里三个决策树,输入同一个人的不同属性,第一个根据性别、兄弟姐妹、父母子女(保姆)确定是否生存;第二个根据舱位等级、兄弟姐妹、父母子女(保姆)确定是否生存;第三个根据兄弟姐妹、性别、舱位等级确定是否生存,最终投票最高的获得生存。
will individually consider each passenger’s data and vote on whether the individual survived.
最终 the random forest model makes a democratic decision: the outcome with the most votes wins!
关键代码,使用sklearn里的随机森林分类器,输入对应的字段作为特征量,就可以开始训练:
from sklearn.ensemble import RandomForestClassifier
y = train_data["Survived"]
features = ["Pclass", "Sex", "SibSp", "Parch"]
X = pd.get_dummies(train_data[features])
X_test = pd.get_dummies(test_data[features])
model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1)
model.fit(X, y)
predictions = model.predict(X_test)
总结
以上是今天学的内容记录,还发现了一个挺好的网站:产品经理的人工智能学习库。