📜  科学与工程中的数据挖掘

📅  最后修改于: 2022-05-13 01:57:03.068000             🧑  作者: Mango

科学与工程中的数据挖掘

数据挖掘是在存储库中存储的大量数据中发现隐含模式、相关性、异常和统计信息的自动过程。这些信息可以通过假设或理论来解释,并用于进行预测。它是一个跨学科领域,融合了一系列数学和计算学科的思想,包括统计学、机器学习和数据库检索、优化和可视化方法等。数据挖掘可以帮助发现基本查询和报告技术无法提供的关系和趋势相关见解。术语数据挖掘通常与 KDD 或知识数据发现同义使用,它实际上是指更一般的过程,其中挖掘是其中的一个组成部分。

现在,许多科学都变得数据密集型。数据科学为科学提供的变革能力被称为“第四范式”。

可用数据量呈指数增长;它的体积、速度和准确性也是如此。当今数据的激增使其规模和维度太大而无法由人类直接分析,这使得数据挖掘成为跨多个领域的科学研究项目不可或缺的工具:从天文学和生物信息学到金融和社会科学。数据挖掘可用于从每天收集和存储的大量原本难以理解的科学数据中得出相关的结论和预测。

数据挖掘在科学与工程中的应用:

  • 数据缩减:卫星和显微镜等科学仪器可以轻松获取数百万个数据点并高速生成 TB 级数据。有条理的、自动化的方法可以在不破坏信息质量的情况下简化观察。数据挖掘技术可以作为科学家和海量数据集之间的有效接口。
  • 研究: Web 数据挖掘简化了从 Internet 上不一致和非结构化数据中挖掘知识和用户查询信息的过程。文本数据挖掘涉及使用自然语言处理 (NLP) 等工具专门从文本中获取结构化信息。这些应用程序使研究人员能够以更快、更准确的方式从文献数据库中找到现有的科学数据。
  • 模式识别:智能算法可以检测数据集中人类由于高维而无法检测到的模式。这也有助于发现异常。
  • 遥感:数据挖掘技术适用于航空遥感影像进行土地覆盖自动分类,对于夜间灯光,遥感用于研究社会经济领域。
  • 意见挖掘:自然语言处理、信息检索和文本挖掘的一个子领域,意见挖掘是从非结构化文本中提取人类思想和感知的过程,可用于分析社交媒体用户的情绪。

数据挖掘技术的应用领域

  • 高能物理:涉及在大型强子对撞机的加速器和探测器内模拟碰撞的实验记录了需要存储、校准和重建的 PB 数据,然后才能对其进行分析。全球 LHC 计算网格通过采用数据缩减算法来处理体积。称为ROOT的特殊高性能软件是一种开源数据挖掘工具,有助于对大量数据进行科学分析和可视化。
  • 天文学:对宇宙物体进行完整和高效的分类是一个利用数据挖掘算法的过程,用于星星系分离、星系形态和其他类型的分类。从星系和类星体的光度数据估计红移使用模板方法或经验集训练方法。除了这些应用之外,数据挖掘还被用于分析宇宙微波背景、预测太阳耀斑和进行天文模拟。
  • 生物信息学:生物信息学是生物学和信息技术交叉的一门科学。可以挖掘基因组学和蛋白质组学研究中产生的数据,以发现序列中的基序、预测蛋白质结构、基因组注释、分析基因/蛋白质表达、模拟生物系统以及探索遗传机制以更深入地了解疾病。
  • 医疗保健:医疗保健行业生成的数据包括有关患者人口统计、治疗计划、付款和保险范围的有用信息。已有研究记录了数据挖掘在临床医学、药物不良反应信号检测、糖尿病和皮肤病等方面的应用。此类别中最常用的挖掘技术是回归、分类、顺序模式挖掘、关联、聚类和数据仓库。
  • 地理空间分析:数据挖掘算法已用于生成风暴尘源的空间地图,以减轻其在干旱环境中的影响,易受引发土地退化的沟壑侵蚀的位置已使用 GIS 和 R 编程进行空间建模,

更多数据挖掘的应用领域请参考文章数据挖掘的应用。