Apache Tika使用报告
实验对象:Apache Tika 实验目的:通过尝试使用Apache Tika进行文件格式转换,加深对搜索引擎的理解和认识 目录 Apache Tika简介 配置Apache Tika运行环境 用GUI图形界面进行文件格式转换的尝试 用命令行使用Tika 在java工程中使用Tika 1. Apache Tika 简介 Apache Tika是一个用java编写的内容检测和分析框架,是 Apache的 Lucene项目的子项目。它能够检测很多不同文件类型的文件,并提取文件的元数据和结构化文本。它提供了一个命令行界面和一个GUI界面,还提供一个java库。可用于 自然语言处理过程中文本内容的抽取,以及 搜索引擎进行数据抓取后的处理步骤。 Tika诞生历程 Tika 架构 Tika 体系结构的四个模块 语言检测机制 MIME检测机制 Parser接口 Tika Facade类 Tika主要功能 文档类型检测 内容提取 元数据提取 语言检测 2. 配置Apache Tika运行环境 验证java环境 如果没有配置java环境,请 下载并 配置Java JDK 下载Tika的源代码 Mirro...