Kaggle竞赛的工作流程:
1、加入竞赛:
看一下竞赛的描述,了解具体任务和数据集的情况之后,如果比较感兴趣这个比赛。点击Join Competition按钮,接受竞赛规则后,就可以访问比赛数据集啦。如下图所示:
2、训练模型:
下载数据后,可以选择在本地环境中进行数据处理和模型训练,或者使用Kaggle Notebooks。(推荐白嫖资源哦,kaggle每段时间给一部分白嫖的资源,非常好用)
Kaggle Notebooks 是一个在线的Jupyter Notebook环境,免去了本地设置的麻烦,并且提供了免费的GPU资源,方便直接在浏览器中进行实验,简单来说跟用jupyter一毛一样。
3、提交结果:
训练好模型后,需要生成预测结果文件,一般预测的文件都已经给提供了一个例子,并在Kaggle上点submit进行提交。系统会基于隐藏的测试集对模型的预测进行打分,让偶给出一个分数。
主要得先把那个在那个环境里跑一下,生成那个例子一样的文件,(保存他自己就运行一遍
运行完了之后就去提交处,可以提交修改的版本了,(代码要有那个样例文件生成,才能测评)
4、查看排行榜:
提交结果后,可以查看在排行榜中的位置,了解自己的模型表现如何与其他参赛者进行比较。
5、优化模型,提升分数:
通过分析竞赛讨论区中的教程和其他参赛者的分享,不断优化你的模型,提高预测性能。
社区中有许多讨论帖和公开的Kaggle Notebook,暗中观察各位大佬的操作!
Kaggle常见术语(Lingo):
为了帮助初学者快速掌握Kaggle的术语,Kaggle提供了由Dr. Rachael Tatman制作的视频,介绍常用的Kaggle术语。常见术语包括:
Kernel:指Kaggle上的Notebook环境,用于编写和运行代码。
Submission:上传到平台的预测结果文件。
Leaderboard:实时查看自己与其他参赛者的排名情况。
Public/Private Leaderboard:Kaggle的排行榜分为公开(Public)和私密(Private)排行榜。公开排行榜是基于部分测试集打分,私密排行榜则是在竞赛结束时揭晓,基于完整测试集打分。
Evaluation Metric:评估模型的指标,可能是准确率(accuracy)、对数损失(log loss)、均方误差(MSE)等。
看我最近一个比赛,感觉分数还是很高滴,等我比赛结束之后我就把代码分享出来,大家给我提提建议