作为初学者实施的 5 个机器学习项目
人工智能 (AI) 和机器学习 (ML) 正在以前所未有的方式影响我们的日常生活。从智能游戏和应用程序到自动驾驶汽车和医疗保健,机器学习为多个行业带来了令人难以置信的变革。
尤其是 IT 工程和开发这些年来见证了一些惊人的转变——从生成数据到利用数据,该行业已经走过了漫长的道路。将某种智能融入应用程序几乎已成为开发的一个重要方面,无论是基于常规表单的应用程序还是能够辅助决策的高级应用程序。
因此,ML 和 AI 重新引起了学术界和新手的兴趣。如果您不熟悉机器学习并且正在寻找项目来补充您的学习,那么您的搜索就到此结束。在本文中,我们将讨论 5 个有趣且富有洞察力的 ML 项目,让您了解作为 ML 工程师可能会遇到的各种挑战。让我们直接跳进去!
- 鸢尾花分类 –
鸢尾花数据集被认为是分类文献中最好的数据集之一,是初学者开始使用监督机器学习必须考虑的第一件事。 Iris 数据集通常被称为机器学习的“Hello World”,它包含了初学者需要相应处理和分类的几个数值属性。 Iris 数据集小巧紧凑,可以轻松放入内存中,并且不需要任何缩放/转换。
您可以在此处从 UCI ML 存储库下载 Iris 数据集。 - BigMart 销售预测 –
BigMart 销售数据集包含 2013 年各个城市 10 个不同网点的 1559 种产品的销售数据,以及某些产品和商店属性。 BigMart 销售预测项目旨在预测每家商店的这 1559 种产品中每一种来年的销售业绩。您需要使用无监督学习技术来计算预测,帮助 BigMart 识别有助于增加销售额的产品和网点的独特品质。 - 使用 Twitter 数据集进行情感分析 –
Twitter、Facebook 和 YouTube 等社交媒体平台是海量数据的温床。情感分析的主要目标是挖掘这些数据以学习和分析消费者行为,进而有助于品牌推广、营销甚至产品设计。
对于想要练习情感分析问题的初学者来说,Twitter 是一个完美的起点。 Twitter 数据集包含各种推文和元数据(主题标签、转推等)的全面混合,其中包含跨问题和主题的大量用户意见,有助于数据分析和推理,从而帮助生成相关见解。作为初学者项目,您可以从识别推文并将其分类为正面或负面开始。 - 使用沃尔玛数据集进行销售预测 -
销售数据显示了每个商店、每个部门在 45 个网点中超过 98 种产品的每周销售额,如果推断得当,沃尔玛数据集提供了一个非常全面的销售情况。销售预测项目的主要目标是预测每个门店每个部门的销售情况,以帮助进行有效的、数据驱动的决策,从而帮助优化渠道和库存。然而,数据集的挑战在于选定的降价事件,这可能对销售产生负面影响,因此应予以考虑。 - 带有 Movielens 数据集的电影推荐系统 -
随着 Netflix、Hulu、Prime Video 等各种流媒体平台的出现,世界正在见证数字电影流媒体的惊人增长。消费者现在可以通过指尖访问他们最喜欢的电影和类型。这导致对精简高效的电影推荐系统的需求呈指数增长。
Movielens 数据集可能是网络上最流行和最全面的电影数据集,拥有超过 100 万个电影评分,包括超过 6,000 名用户制作的约 4,000 部全球电影。这就是为什么 Movielens 数据集非常适合机器学习初学者学习如何构建电影推荐系统。
最后的想法 -
机器学习将继续存在,并在整个 IT 行业的发展中发挥关键作用。智能机器曾经是科幻和民间传说的一部分的日子已经一去不复返了。我们已经在多个平台上定期与 AI 和基于 ML 的应用程序进行交互。因此,机器学习领域肯定会吸引许多爱好者和专业人士;然而,问题就在这里。目前该行业存在巨大的技能差距,因为对更智能的“机器人”的需求似乎一直在上升。然而,未来已经到来,球就在你的球场上。