📅  最后修改于: 2023-12-03 14:47:58.877000             🧑  作者: Mango
TIKA是一个用Java编写的开源文本提取库,可以自动探测文档格式并提取其中的文本内容。它可以处理的文件格式包括但不限于:PDF、Microsoft Office文档、HTML、XML、Email消息、JPEG、MP3等。
TIKA还可以提取元数据信息,例如作者、标题、创建日期等。
TIKA可以处理的常见文件格式包括:
在Java代码中使用TIKA非常简单。下面是一个基本的例子:
import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;
public class TikaExample {
public static void main(String[] args) throws IOException {
Tika tika = new Tika();
File file = new File("example.pdf");
String fileContent = tika.parseToString(file);
System.out.println("Content: " + fileContent);
}
}
这个例子演示了如何使用TIKA提取一个PDF文件中的文本内容。
如果你想提取文件的元数据,可以这样做:
import org.apache.tika.Tika;
import org.apache.tika.metadata.Metadata;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;
public class TikaExample {
public static void main(String[] args) throws Exception {
Tika tika = new Tika();
File file = new File("example.pdf");
Metadata metadata = new Metadata();
InputStream stream = new FileInputStream(file);
tika.parse(stream, metadata);
System.out.println("Title: " + metadata.get("title"));
System.out.println("Author: " + metadata.get("Author"));
System.out.println("Created: " + metadata.get("Creation-Date"));
}
}
这个例子演示了如何使用TIKA提取一个PDF文件的元数据信息。
无论你是需要从各种文件格式中提取文本内容,还是需要获取文件的元数据信息,TIKA都是一个非常有用的工具。它适用于多种商业和开源项目,并且可以轻松地与Java应用程序集成。