ML |了解数据处理 - 芒果文档

📌 相关文章

📜 ML |了解数据处理

📅 最后修改于: 2021-04-17 03:27:57 🧑 作者: Mango

数据处理是将数据从给定格式转换为更有用和更理想的格式(即使其更有意义和更有意义)的任务。使用机器学习算法，数学建模和统计知识，可以使整个过程自动化。根据我们正在执行的任务和机器的要求，此完整过程的输出可以采用任何所需的形式，例如图形，视频，图表，表格，图像等。这似乎很简单，但是当涉及到像Twitter，Facebook，Paliament，UNESCO和卫生部门组织这样的大型组织时，整个过程需要以结构化的方式进行。因此，要执行的步骤如下：

收藏：
开始使用ML时，最关键的步骤是拥有高质量和准确性的数据。可以从任何经过身份验证的来源收集数据，例如data.gov.in，Kaggle或UCI数据集存储库。例如，在准备竞争性考试时，学生将从可以访问的最佳学习材料中学习，从而学习到最好的学习方法最好的结果。同样，高质量，准确的数据将使模型的学习过程变得更加轻松，更好，并且在测试时，该模型将产生最先进的结果。
收集数据会消耗大量的资金，时间和资源。组织或研究人员必须决定执行任务或研究所需的数据类型。
示例：使用面部表情识别器，需要大量具有多种人类表情的图像。良好的数据可确保模型的结果有效并值得信赖。
准备：
收集的数据可以是原始格式，不能直接输入到计算机中。因此，这是一个从不同来源收集数据集，分析这些数据集，然后构建新的数据集以进行进一步处理和探索的过程。可以手动或从自动方法进行此准备。数据也可以以数字形式准备，这也可以加快模型的学习速度。
示例：可以将图像转换为NXN尺寸的矩阵，每个像元的值将指示图像像素。
输入：
现在，准备的数据可以采用机器无法读取的形式，因此要将这些数据转换为可读形式，需要一些转换算法。为了执行该任务，需要高计算量和准确性。示例：可以通过诸如MNIST Digit数据(图像)，twitter注释，音频文件，视频剪辑之类的来源来收集数据。
加工：
在这一阶段，需要算法和ML技术来以准确和最佳计算的方式执行大量数据上提供的指令。
输出：
在此阶段，结果由机器以有意义的方式获得，用户可以轻松推断出结果。输出可以是报告，图形，视频等形式
贮存：
这是最后一步，其中将获取的输出和数据模型数据以及所有有用的信息保存起来，以备将来使用。