📜  机器学习初学者应该如何开始使用 Kaggle?

📅  最后修改于: 2021-10-19 05:35:58             🧑  作者: Mango

你对数据科学着迷吗?你认为机器学习有趣吗?您想了解更多关于这些领域的信息,但不知道从哪里开始?好吧,从Kaggle开始吧!

Kaggle 是谷歌于 2010 年创立的致力于数据科学和机器学习的在线社区。它是世界上最大的数据社区,成员包括像你这样的机器学习初学者和世界上一些最优秀的研究人员。 Kaggle 也是开始处理数据的最佳场所,因为它拥有超过23,000 个公共数据集和超过200,000 个可以在线运行的公共笔记本!如果这还不够,Kaggle 还举办了许多数据科学竞赛,现金奖励非常高(曾经提供 150 万!)。

机器学习初学者应该如何入门 Kaggle

但是对于 Kaggle 仍然存在很多误解。有些人认为它只是一个竞赛托管网站,而另一些人则认为只有专家才能充分利用它。事实上,Kaggle 也是初学者的平台,因为它提供了与数据科学和机器学习相关的基础课程等资源。然后它在“入门”类别中也有基础比赛,慢慢使初学者成为专家。这就是为什么本文介绍了 Kaggle 以及您最终成为一名成熟的数据科学专家的途径。现在让我们开始吧!!!

Kaggle 上可用的资源

Kaggle 上有许多可用资源,可以帮助您从初学者成为数据科学家。首先,让我们详细了解所有这些资源。

1. 数据集: Kaggle 上有大约 23,000 个公共数据集,您可以免费下载。事实上,其中许多数据集已经被下载了数百万次。您可以使用搜索框搜索您想要的任何主题的公共数据集,从健康到科学再到流行卡通!您还可以在 Kaggle 上创建新的公共数据集,这些数据集可能会为您赢得奖牌,并引导您获得高级 Kaggle 头衔,如专家、大师和大师

2. Notebooks: Kaggle 上的 Notebooks 是虚拟的 Jupyter Notebooks,可以在云端运行,不需要下载。而且它们是免费的!因此,您可以使用“复制和编辑”按钮查看笔记本上的代码、编辑它或添加图像(基本上是您想要的任何内容!)。您还可以通过单击“新建笔记本”按钮从头开始创建一个新笔记本(也称为内核)。

3. 课程:在 Kaggle 上有一整套与数据科学和机器学习相关的免费课程,可以教你入门所需的任何知识。虽然这些课程并不深入,但它们是开始在 Kaggle 上练习的最快方式。微课程(正如它们的名字一样)从Python、机器学习、SQL、数据可视化等基础知识开始然后转向更复杂的主题,如Pandas、深度学习、地理空间分析等。

4. 讨论:除了 Notebooks 中的评论选项外,Kaggle 上还有一个完整的讨论部分。此讨论部分包括Kaggle 论坛、QnA ,您可以在其中向其他数据科学家寻求建议、入门(初学者的第一站)、产品反馈学习(与 Kaggle 课程相关的 QA)。查看此部分以提出问题并了解有关 Kaggle 的更多信息!

5. 比赛:在您使用 Kaggle 数据集和笔记本一段时间后,是时候进入比赛了。 Kaggle 竞赛是测试您的知识并了解您在数据科学世界中的地位的好方法!如果你是初学者,你应该从练习像泰坦尼克号:灾难中的机器学习这样的老比赛问题开始。之后,您可以继续进行活跃的比赛,甚至可能赢得丰厚的现金价格!!!

6. 博客: Kaggle 有一个官方博客,其中包含从“人工智能在非洲的未来”“教人工智能跳舞”等有趣的文章! Kaggle 博客也有各种关于神经网络、高维数据结构等主题的教程。 你也可以在这里查看一些 Kaggle 新闻,如对大师的采访、Kaggle 更新等。

7. 工作:最后,如果您正在招聘工作或正在寻找工作,Kaggle 也有一个工作门户!如果您正在招聘并访问 Kaggle 上的 150 万数据科学家,您可以创建职位列表。如果您正在寻找工作以获得可用的职业空缺,您可以订阅 Kaggle工作委员会

开始 Kaggle 时要遵循的基本大纲

现在您已经了解了 Kaggle 上的所有可用选项,以下是您刚开始时要遵循的基本大纲。对这个社区有了更多的了解后,你就可以根据自己的技能水平更多地关注问题和比赛。

1. 选择一种编程语言:

在开始 Kaggle 时你绝对不能跳过的一件事是学习编程语言! Python和 R是目前数据科学和机器学习领域最著名的两种编程语言。如果您具有开发背景,那么Python将是您更容易的选择;如果您具有分析背景,则首选 R。

然而, Python是目前最流行的机器学习语言。事实上,有很多Python库专门用于人工智能和机器学习,比如Keras、TensorFlow、Scikit-learn等,所以如果你想学 ML,最好还是学Python! Kaggle 上甚至还有一个免费的Python课程,它将教您入门所需的大部分知识!

2. 学习标准数据集

一旦你学会了Python (或 R),下一步就是掌握数据!您应该能够管理加载和导航数据以获得最佳结果。为此,学习不同的模型并在真实数据集上练习。这也将帮助您了解在不同情况下使用哪些模型。

Kaggle 上有大约23,000 个公共数据集可供您练习。现在,如果您是初学者,很难理解哪个数据集是好的,哪个不是。因此,您最好从可用的标准数据集开始您的实践,例如印度肝脏患者记录、虹膜物种、成人人口普查收入、威斯康星州乳腺癌等。

3. 练习旧的 Kaggle 竞赛题

并不是说你对 Kaggle 有一些基本的了解,是时候练习一些旧的比赛问题了。最好是解决过去几年流行的 Kaggle 问题,以便您对预期的内容有一个基本的了解。解决各种类型的问题,然后尝试改进您的解决方案。您可以通过查看论坛帖子、GitHub 存储库和获胜者博客帖子来解决该特定问题。这将教您如何以最有效的方式解决 Kaggle 问题,以便您将来甚至可以赢得比赛!

如果您对从哪些问题开始感到困惑,这里有一些基本的比赛可以帮助您建立信心。

  • Titanic: Machine Learning from Disaster :这个挑战是一个非常受欢迎的 ML 初学者项目,因为它有多个教程可用。因此,它很好地介绍了 ML 概念,例如数据探索、特征工程和模型调整。
  • Digit Recognizer :这是一个你应该在你了解一些Python和 ML 基础知识后尝试的项目。它使用包含预提取特征的经典数据集对令人兴奋的世界神经网络进行了很好的介绍。
  • Julia 的第一步:本次比赛将帮助您学习 Julia,这是一种相对较新的计算语言。 Julia 的第一步还包括两个关于 Julia 的教程,其中第一个侧重于语言的基础知识,第二个侧重于 K 最近邻算法。

像这3场比赛,有很多老比赛可以练,尤其是“入门”这一类。

4. 参加活跃的 Kaggle 比赛

现在您已经熟悉 Kaggle 了,是时候开始参加活跃的比赛了! Kaggle 比赛以疯狂的奖品而闻名,所以谁知道你会赢得什么!但最好从小处开始,因此一次只关注一项比赛。最初也要至少瞄准私人排行榜前 25%的位置,因为在开始时获胜是不合理的期望。

此外,请在论坛上分享您的想法和解决方案,因为它们可能会在未来带来新的想法和合作。最后,玩得开心,因为您的目标是学习而不是获胜。 (谁知道呢,你也可能会赢!!!)