📜  Kaggle 入门:初学者的快速指南

📅  最后修改于: 2022-05-13 01:58:07.418000             🧑  作者: Mango

Kaggle 入门:初学者的快速指南

Kaggle 是Google旗下的数据科学家和机器学习工程师的在线社区。机器学习和数据科学领域的初学者对网站的普遍感觉是犹豫不决。这种感觉主要是因为外界对网站的误解。这里是其中的一些 -

Kaggle 是一个机器学习竞赛主办网站——这种误解很普遍,因为许多组织举办机器学习竞赛要么是为了招募数据科学家,要么是为了解决面临的问题。拥有最佳解决方案的用户和团队通常会获得现金奖励。除了举办比赛外,该网站还提供大量数据集。用户还可以获得最佳数据集的奖励。

只有博士和数据科学家才能赢得比赛——这是一个对这门学科非常感兴趣的高中生自学的故事。他没有学习算法背后复杂的数学知识,而是对这些技术有了逻辑认识。

人们认为自己不够好,无法参加比赛——作为一个学习过程,应该关注机器学习项目的探索部分特征工程

要开始使用 Kaggle,你应该遵循一个大致的步骤大纲——

第 1 步:选择一种编程语言
PythonR是数据科学和机器学习领域最著名的两种编程语言。通常,如果一个人来自开发背景,则首选Python ,而如果一个人来自统计/分析背景,则首选 R。在普遍的共识中, Python是首选,因为它是一种通用编程语言,可以根据用户的需求进行调整。



第 2 步:学习探索性分析基础知识
如上所述,应该专注于对给定数据进行探索性分析。人们还应该学习如何可视化数据,通常, Python库 Matplotlib 和 Seaborn 被认为是很好的起点。

第 3 步:学习训练模型的基础知识
在深入了解 Kaggle 之前,应该有一点训练学习模型的经验。通常, Python库 Sklearn 被认为是最好的。

第 4 步:进入 Kaggle
Kaggle 有很多不同类别的比赛。其中之一是“入门”类别,其结构类似于主要的金钱奖励竞赛。这些比赛有更简单的数据集和社区创建的教程。

第五步:竞争学习——
一个人应该在网站上竞争,目的是学习而不是赚钱。

第 6 步:参考已投票的内核
Kaggle 中的内核是一种共享虚拟 Jupyter 笔记本并在云上运行它们的方式。许多获奖者接受了关于他们思考过程的公开采访。可以参考其他点赞的内核来学习和拓宽自己的思维空间。

Kaggle 是一个伟大的垫脚石,应该成为每一位即将到来的机器学习工程师和数据科学家的一部分。