Apache Tika教程 - 芒果文档

📅 最后修改于: 2020-11-10 04:24:12 🧑 作者: Mango

本教程对Apache Tika库，其支持的文件格式以及使用Apache Tika的内容和元数据提取提供了基本的了解。本教程适用于所有希望使用Apache Tika学习文档类型检测和内容提取的Java爱好者。先决条件为了充分利用本教程，读者应该先了解使用JDK 1.6和Java IO概念的Java编程。...

TIKA-概述

📅 最后修改于: 2020-11-10 04:24:45 🧑 作者: Mango

什么是Apache Tika?Apache Tika是一个库，用于文档类型检测和从各种文件格式中提取内容。在内部，Tika使用现有的各种文档解析器和文档类型检测技术来检测和提取数据。使用Tika，可以开发一种通用类型的检测器和内容提取器，以在一定程度上从电子表格，文本文档，图像，PDF甚至是多媒体输入格式等不同类型的文档中提取结构化文本以及元数据。Tika提供了一个用于解析不同文件格式的通用API...

TIKA-建筑

📅 最后修改于: 2020-11-10 04:25:17 🧑 作者: Mango

Tika的应用程序级架构应用程序程序员可以轻松地将Tika集成到他们的应用程序中。 Tika提供了命令行界面和GUI，以使其变得用户友好。在本章中，我们将讨论构成Tika架构的四个重要模块。下图显示了Tika的体系结构及其四个模块-语言检测机制。MIME检测机制。解析器接口。蒂卡门面课。语言检测机制每当将文本文档传递给Tika时，它都会检测其编写语言。它接受没有语言注释的文档，并通过检测语言将该信...

TIKA-环境

📅 最后修改于: 2020-11-10 04:25:54 🧑 作者: Mango

本章将引导您完成在Windows和Linux上设置Apache Tika的过程。安装Apache Tika时需要用户管理。系统要求JDKJava SE 2 JDK 1.6 or aboveMemory1 GB RAM (recommeneded)Disk SpaceNo minimum requirementOperating System VersionWindows XP or above, ...

TIKA-引用的API

📅 最后修改于: 2020-11-10 04:26:25 🧑 作者: Mango

用户可以使用Tika门面类将Tika嵌入其应用程序中。它具有探索Tika的所有功能的方法。由于是外观类，因此Tika提取了其功能背后的复杂性。除此之外，用户还可以在其应用程序中使用各种类别的Tika。提卡(立面)这是提卡图书馆中最杰出的一类，遵循立面设计模式。因此，它抽象了所有内部实现，并提供了访问Tika功能的简单方法。下表列出了此类的构造函数及其描述。包-org.apache.tika课-蒂卡...

TIKA-文件格式

📅 最后修改于: 2020-11-10 04:26:43 🧑 作者: Mango

Tika支持的文件格式下表显示了Tika支持的文件格式。File formatPackage LibraryClass in TikaXMLorg.apache.tika.parser.xmlXMLParserHTMLorg.apache.tika.parser.html and it uses Tagsoup LibraryHtmlParserMS-Office compound documen...

TIKA-文档类型检测

📅 最后修改于: 2020-11-10 04:27:09 🧑 作者: Mango

MIME标准多功能Internet邮件扩展(MIME)标准是识别文档类型的最佳可用标准。这些标准的知识有助于浏览器进行内部交互。每当浏览器遇到媒体文件时，它都会选择一个与其兼容的兼容软件来显示其内容。如果它没有任何合适的应用程序来运行特定的媒体文件，则建议用户为其获取合适的插件软件。Tika中的类型检测Tika支持MIME中提供的所有Internet媒体文档类型。每当文件通过Tika传递时，它都会...

TIKA-内容提取

📅 最后修改于: 2020-11-10 04:27:54 🧑 作者: Mango

Tika使用各种解析器库从给定的解析器中提取内容。它选择正确的解析器以提取给定的文档类型。为了分析文档，通常使用Tika Facade类的parseToString()方法。下面显示的是解析过程中涉及的步骤，这些步骤由Tika ParsertoString()方法抽象化。抽象解析过程-最初，当我们将文档传递给Tika时，它会使用合适的类型检测机制来检测文档类型。一旦知道了文档类型，它将从其解析器存...

TIKA-元数据提取

📅 最后修改于: 2020-11-10 04:28:49 🧑 作者: Mango

除内容外，Tika还从文件中提取元数据。元数据不过是文件随附的其他信息。如果考虑音频文件，则艺术家名称，专辑名称，标题位于元数据之下。XMP标准可扩展元数据平台(XMP)是用于处理和存储与文件内容有关的信息的标准。它是由Adobe Systems Inc.创建的。 XMP提供了用于定义，创建和处理元数据的标准。您可以将此标准嵌入几种文件格式，例如PDF，JPEG，JPEG，GIF，jpg，HTML...

TIKA-语言检测

📅 最后修改于: 2020-11-10 04:29:29 🧑 作者: Mango

需要语言检测为了基于在多语言网站中编写的语言对文档进行分类，需要一种语言检测工具。该工具应接受没有语言注释(元数据)的文档，并通过检测语言将该信息添加到文档的元数据中。分析语料库的算法什么是语料库?为了检测文档的语言，构建语言配置文件并将其与已知语言的配置文件进行比较。这些已知语言的文本集称为语料库。语料库是一种书面语言文本的集合，它解释了在实际情况下如何使用该语言。语料库是根据书籍，成绩单和其他...

TIKA-GUI

📅 最后修改于: 2020-11-10 04:29:46 🧑 作者: Mango

图形用户界面(GUI)Tika在以下链接https://tika.apache.org/download.html中提供了一个jar文件及其源代码。下载两个文件，设置jar文件的类路径。解压缩源代码zip文件夹，打开tika-app文件夹。在解压缩的文件夹“ tika-1.6 \ tika-app \ src \ main \ java \ org \ apache \ Tika \ gui”中，...

TIKA-提取PDF

📅 最后修改于: 2020-11-10 04:30:05 🧑 作者: Mango

下面给出的是从PDF中提取内容和元数据的程序。将以上代码另存为PdfParse.java，并使用以下命令在命令提示符下进行编译-下面给出的是example.pdf的快照我们通过的PDF具有以下属性-编译程序后，您将获得如下所示的输出。输出–...

TIKA-提取ODF

📅 最后修改于: 2020-11-10 04:30:24 🧑 作者: Mango

下面给出了从Open Office Document Format(ODF)提取内容和元数据的程序。将以上代码另存为OpenDocumentParse.java，并使用以下命令在命令提示符下进行编译-下面给出的是example_open_document_presentation.odp文件的快照。本文档具有以下属性-编译程序后，您将获得以下输出。输出–...

TIKA-提取MS-Office文件

📅 最后修改于: 2020-11-10 04:30:43 🧑 作者: Mango

下面给出的是从Microsoft Office文档中提取内容和元数据的程序。将以上代码另存为MSExelParse.java，并使用以下命令在命令提示符下进行编译-在这里，我们传递了以下示例Excel文件。给定的Excel文件具有以下属性-执行完上述程序后，您将获得以下输出。输出–...

TIKA-提取文本文档

📅 最后修改于: 2020-11-10 04:31:00 🧑 作者: Mango

下面给出的是从文本文档中提取内容和元数据的程序-将以上代码另存为TextParser.java，并使用以下命令在命令提示符下进行编译-下面给出的是sample.txt文件的快照-文本文档具有以下属性-如果执行上述程序，它将提供以下输出。输出–...