📜  文本数据挖掘

📅  最后修改于: 2020-12-21 09:53:25             🧑  作者: Mango

文本数据挖掘

文本数据挖掘可以描述为从标准语言文本中提取基本数据的过程。我们通过短信,文档,电子邮件,文件生成的所有数据均以通用语言文字编写。文本挖掘主要用于从此类数据中得出有用的见解或模式。

在过去的几年中,文本挖掘市场经历了指数级的增长和采用,并且预计在未来的将来还将获得显着的增长和采用。采用文本挖掘背后的主要原因之一是商业市场上的竞争加剧,许多组织寻求增值解决方案来与其他组织竞争。随着业务完成的增加和客户观点的变化,组织正进行大量投资以寻找一种能够分析客户和竞争对手数据以提高竞争力的解决方案。数据的主要来源是电子商务网站,社交媒体平台,已发表的文章,调查等等。生成的数据的大部分是非结构化的,这使得组织在人员帮助下进行分析非常困难且昂贵。这一挑战与数据生成的指数级增长相结合,导致分析工具的增长。它不仅能够处理大量文本数据,而且有助于决策目的。文本挖掘软件使用户能够从大量可用数据源中提取有用的信息。

数据挖掘中的文本挖掘领域:

这些是文本挖掘的以下领域:

  • 信息提取:从非结构化源自动提取结构化数据(例如实体,实体关系和描述实体的属性)称为信息提取。
  • 自然语言处理: NLP代表自然语言处理。计算机软件可以像说的一样理解人类的语言。 NLP主要是人工智能(AI)的组成部分。 NLP应用程序的开发很困难,因为计算机通常希望人们以准确,清晰且结构异常的编程语言向他们“讲话”。人的言语通常是不真实的,因此它可能取决于许多复杂的变量,包括语,社交环境和区域方言。
  • 数据挖掘:数据挖掘是指从大型数据集中提取有用数据,隐藏模式。数据挖掘工具可以预测行为和未来趋势,使企业可以做出更好的数据驱动决策。数据挖掘工具可用于解决传统上过于费时的许多业务问题。
  • 信息检索:信息检索涉及从存储在我们系统中的数据中检索有用的数据。或者,作为类比,我们可以查看在电子商务网站或任何其他网站等网站上出现的搜索引擎,作为信息检索的一部分。

文本挖掘过程:

文本挖掘过程包含以下步骤,以从文档中提取数据。

  • 文本转换文本转换是一种用于控制文本大写的技术。这里给出了两种主要的文档表示方式。
    1. 词袋
    2. 向量空间
  • 文本预处理预处理是文本挖掘,自然语言处理(NLP)和信息检索(IR)中的重要任务和关键步骤。在文本挖掘领域,数据预处理用于从非结构化文本数据中提取有用的信息和知识。信息检索(IR)是选择应检索集合中的哪些文档以满足用户需要的问题。
  • 特征选择:特征选择是数据挖掘的重要组成部分。特征选择可以定义为减少处理输入或找到基本信息源的过程。特征选择也称为变量选择。
  • 数据挖掘:现在,在此步骤中,文本挖掘过程与常规过程合并。结构数据库中使用经典数据挖掘程序。
  • 评估:之后,它评估结果。一旦评估了结果,就放弃结果。
  • 应用程序:这些是以下文本挖掘应用程序:
  • 风险管理:风险管理是系统,逻辑的过程,用于分析,识别,处理和监视组织中任何操作或过程中涉及的风险。风险分析不足通常是令人失望的主要原因。在金融组织中尤其如此,采用基于文本挖掘技术的风险管理软件可以有效增强降低风险的能力。它可以管理数百万个源和数PB的文本文档,并具有连接数据的功能。它有助于在正确的时间访问适当的数据。
  • 客户服务:文本挖掘方法(尤其是NLP)在客户服务领域中的重要性日益提高。组织正在花费大量精力进行文本分析编程,以通过访问来自不同来源(例如客户反馈,调查,客户电话等)的文本数据来改善整体体验。文本分析的主要目的是减少组织的响应时间并帮助他们快速有效地解决客户的投诉。
  • 商业智能:公司和商业公司已开始使用文本挖掘策略作为其商业智能的主要方面。文本挖掘策略除了提供对客户行为和趋势的重要见解之外,还支持组织分析竞争对手的质量和劣势,从而在市场上获得竞争优势。
  • 社交媒体分析:社交媒体分析有助于跟踪在线数据,并且有许多文本挖掘工具专门设计用于社交媒体网站的性能分析。这些工具有助于监视和解释通过互联网从新闻,电子邮件,博客等生成的文本。文本挖掘工具可以在社交媒体平台上准确分析您的品牌的帖子,关注者和喜欢的总数使您能够了解与您的品牌和内容互动的个人的反应。

数据挖掘中的文本挖掘方法:

这些是数据挖掘中使用的以下文本挖掘方法。

1.基于关键字的关联分析:

它收集经常一起出现的一组关键字或术语,然后发现它们之间的关联关系。首先,它通过解析,提取,删除停用词等对文本数据进行预处理。对数据进行预处理之后,便会引入关联挖掘算法。在此,不需要人工,因此减少了不想要的结果的数量和执行时间。

2.文件分类分析:

自动文件分类:

此分析用于对大量在线文本文档(例如,网页,电子邮件等)进行自动分类。文本文档的分类随关系数据的分类而变化,因为文档数据库不是根据属性值对来组织的。

文字数字化:

  • 词干算法在对输入文档进行排序之前,重要的预处理步骤始于词干。术语“词干”可以定义为词根减少。例如,单词的不同语法形式和顺序是相同的。词干的主要目的是通过文本挖掘程序确保单词相似。
  • 支持不同的语言:有一些高度依赖语言的操作,例如词干,同义词,单词中允许的字母。因此,对各种语言的支持很重要。
  • 排除某些字符:可以在订购输入文档之前完成数字,特定字符或一系列字符,或比特定数目的字母短或长的单词。
  • 包括列表,排除列表(停用词):可以表征要列出的特定单词列表,当我们要搜索特定单词时,该列表很有用。它还根据这些单词出现的频率对输入文档进行分类。另外,可以定义“停用词”,这表示要从排序中拒绝的术语。通常,英语停用词的默认列表包含“ the”,“ a”,“ since”等。这些词经常以相应的语言使用,但是在文档中传达的数据很少。