📅  最后修改于: 2020-11-10 04:24:45             🧑  作者: Mango
Apache Tika是一个库,用于文档类型检测和从各种文件格式中提取内容。
在内部,Tika使用现有的各种文档解析器和文档类型检测技术来检测和提取数据。
使用Tika,可以开发一种通用类型的检测器和内容提取器,以在一定程度上从电子表格,文本文档,图像,PDF甚至是多媒体输入格式等不同类型的文档中提取结构化文本以及元数据。
Tika提供了一个用于解析不同文件格式的通用API。它为每种文档类型使用现有的专用解析器库。
所有这些解析器库都封装在一个称为Parser接口的接口下。
根据filext.com,大约有1万5千至5万1千种内容类型,并且这一数字正在逐日增长。数据以各种格式存储,例如文本文档,excel电子表格,PDF,图像和多媒体文件。因此,诸如搜索引擎和内容管理系统之类的应用程序需要额外的支持,以便轻松地从这些文档类型中提取数据。 Apache Tika通过提供通用API来定位和提取多种文件格式的数据来实现此目的。
有许多使用Apache Tika的应用程序。在这里,我们将讨论一些严重依赖Apache Tika的杰出应用程序。
Tika在开发搜索引擎以索引数字文档的文本内容时被广泛使用。
搜索引擎是旨在从Web搜索信息和索引文档的信息处理系统。
爬网程序是搜索引擎的重要组成部分,它通过Web进行爬网以获取要使用某种索引技术建立索引的文档。此后,搜寻器将这些索引文档传送到提取组件。
提取组件的职责是从文档中提取文本和元数据。这样提取的内容和元数据对于搜索引擎非常有用。此提取成分包含Tika。
然后,将提取的内容传递到搜索引擎的索引器,该索引器使用它来构建搜索索引。除此之外,搜索引擎还以许多其他方式使用提取的内容。
在人工智能领域,有一些工具可以在语义级别自动分析文档并从中提取各种数据。
在这样的应用中,基于文档的提取内容中的显着术语对文档进行分类。
这些工具利用Tika进行内容提取,以分析从纯文本到数字文档的各种文档。
一些组织使用称为数字资产管理(DAM)的特殊应用程序管理其数字资产,例如照片,电子书,绘图,音乐和视频。
这样的应用程序借助文档类型检测器和元数据提取器来对各种文档进行分类。
像亚马逊这样的网站会根据个人兴趣向个人用户推荐其网站的最新发布内容。为此,这些网站遵循机器学习技术,或借助Facebook之类的社交媒体网站来提取所需信息,例如用户的喜好和兴趣。这些收集的信息将采用html标签或其他格式的形式,这些格式需要进一步的内容类型检测和提取。
对于文档的内容分析,我们拥有实现机器学习技术的技术,例如UIMA和Mahout 。这些技术可用于对文档中的数据进行聚类和分析。
Apache Mahout是一个在Apache Hadoop(云计算平台)上提供ML算法的框架。 Mahout通过遵循某些群集和过滤技术提供了一种体系结构。通过遵循这种体系结构,程序员可以编写自己的ML算法以通过采用各种文本和元数据组合来产生建议。为了向这些算法提供输入,最新版本的Mahout使用Tika从二进制内容中提取文本和元数据。
Apache UIMA分析和处理各种编程语言并生成UIMA注释。在内部,它使用Tika Annotator提取文档文本和元数据。
Year | Development |
---|---|
2006 | The idea of Tika was projected before the Lucene Project Management Committee. |
2006 | The concept of Tika and its usefulness in the Jackrabbit project was discussed. |
2007 | Tika entered into Apache incubator. |
2008 | Versions 0.1 and 0.2 were released and Tika graduated from the incubator to the Lucene sub-project. |
2009 | Versions 0.3, 0.4, and 0.5 were released. |
2010 | Version 0.6 and 0.7 were released and Tika graduated into the top-level Apache project. |
2011 | Tika 1.0 was released and the book on Tika “Tika in Action” was also released in the same year. |