文档向量化工具(一):Apache Tika介绍

Apache Tika是什么?能干什么?

Apache Tika是一个内容分析工具包。

该工具包可以从一千多种不同的文件类型(如PPT、XLS和PDF)中检测并提取元数据和文本。

所有这些文件类型都可以通过同一个接口进行解析,这使得Tika在搜索引擎索引、内容分析、翻译等方面非常有用。

基于Apache License 2.0

Apache Tika releases are available under the Apache License, Version 2.0

Apache Tika的安装

Apache Tika支持多种方式与业务集成。

Build artifacts说明

tika-core/target/tika-core-*.jar
Tika核心库。包含Tika的核心接口和类,但没有解析器实现。

tika-parsers/tika-parsers-standard/tika-parsers-standard-package/target/tika-parsers-standard-package-*.jar

Tika解析器。基于各种外部解析器库实现Tika Parser接口的类集合。这包括最常用的解析器。用户可能希望添加tika-parser-sqlite3-package和tika-parser-scientific-package科学包或其他解析器模块。

tika-app/target/tika-app-*.jar

Tika应用程序。将上述组件和标准解析器库组合成一个具有GUI和命令行接口的可运行jar。

tika-server/tika-server-standard/target/tika-server-standard-*.jar

Tika JAX-RS REST应用程序。这是一个Jetty web服务器,运行Tika REST服务。

tika-bundles/tika-bundle-standard/target/tika-bundle-standard-*.jar

Tika捆绑包。一个OSGi捆绑包,它将tika解析器与非OSGified解析器库相结合,使它们易于在OSGi环境中部署。

tika-eval/tika-eval-app/target/tika-eval-app-*.jar

Tika评估模块。命令行工具,用于评估Tika的输出或比较两个不同版本的Tika或其他文本提取包的输出。

试用建议用app模式,命令行直接运行。下载地址:

https://dlcdn.apache.org/tika/2.9.1/tika-app-2.9.1.jar​​​​​​​

Apache Tika试用

java -jar tika-app-2.9.1.jar --gui

启动图形界面

直接拖拽一个文件进去

若文件较大,或内容复杂(包括图,表)等,处理过程会比较慢。

GUI会卡主,没关系,等一会就好了

可以切换不同模式显示输出内容。

​​​​​​​

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/163866.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何将vscode和Linux远程链接:

如何将vscode和Linux远程链接: Remote - SSH - 远程登录Linux 安装Remote - SSH 我们下载完后,就会出现这些图标 这里点一下号 查看一下我们的主机名,并复制 输入ssh 用户名主机名 这里是要将ssh这个文件要放在主机下的哪个路径下&#xff…

漆包线工厂生产管理MES系统解决方案

漆包线行业老板痛点: 1.漆包线比较传统的行业,一般都是靠人工去管理,老板想及时知道工厂的生产,销售、出入库、库存情况; 2.型号多称重打印易错,没有系统前 :称重打印,出入库&…

Word 2016 删除标注

步骤: 菜单栏--审阅--删除--删除文档中的所有标注

4.5每日一题(幂指函数(复合函数)求导)

方法一 :把幂指函数用e改写 方法二:用对数改写

Nacos入门

Nacos:以“服务”为中心的现代应用架构的服务基础设施 1、Nacos功能 Nacos主要功能在微服务中主要体现:配置中心、注册中心 1.1、Nacos优点 简单易用、特性丰富、超高性能、超大容量、高可用(这里几个特点下面会提到) 有些友…

C语言每日一题(33)随机链表的复制

力扣138 随机链表的复制 题目描述 给你一个长度为 n 的链表,每个节点包含一个额外增加的随机指针 random ,该指针可以指向链表中的任何节点或空节点。 构造这个链表的 深拷贝。 深拷贝应该正好由 n 个 全新 节点组成,其中每个新节点的值都…

Java 11及更高版本的Oracle JDK版本

2021 年 9 月 14 日,Oracle 发布了可以长期支持的 JDK17 版本,那么从 JDK11 到 JDK17,到底带来了哪些特性呢?亚毫秒级的 ZGC 效果到底怎么样呢?值得我们升级吗?而且升级过程会遇到哪些问题呢?带…

PyTorch微调权威指南3:使用数据增强

如果你曾经参与过 PyTorch 模型的微调,可能会遇到 PyTorch 的内置变换函数,这使得数据增强变得轻而易举。 即使你之前没有使用过这些功能,也不必担心。 在本文中,我们将深入研究 PyTorch 变换换函数的世界。 我们将探索你可以使用…

Ubuntu20.04 安装微信 【deepin-wine方式极简安装】推荐,两行命令就解决了。

参考git仓库地址: GitHub - zq1997/deepin-wine: 【deepin源移植】Debian/Ubuntu上最快的QQ/微信安装方式【deepin源移植】Debian/Ubuntu上最快的QQ/微信安装方式. Contribute to zq1997/deepin-wine development by creating an account on GitHub.https://github.com/zq199…

指针与多维数组练习

例题一: 矩阵相乘 首先,如果你没学过线代的话,这边建议你去B站把宋浩的矩阵运算学了再来看题 如果有个矩阵A和一个矩阵B,当A的列数和B的行数相同时,生成一个新矩阵C,且C是通过矩阵乘法得来的 A[3][2]{3…

Schrodinger Shape Screen 工具使用方法

schrodinger的shape screen方法是一种基于ligand的筛选方法。需要提供一个参考分子,和需要筛选的分子库。shape screen可以根据原子类型、药效团对分子的形状相似度进行打分。 shape screen面板 shape screen面板如下: 1. 参考分子来源,可以…

【Linux】C文件系统详解(三)——如何理解缓冲区以及自主封装一个文件接口

文章目录 如何理解缓冲区现象概念:文件缓冲区为什么要有缓冲区缓冲区在哪里 自己封装一个简单的文件接口自主封装目标 代码关于缓冲区强制刷新内核 关于字符串格式化函数printf和scanf函数 如何理解缓冲区 以前写过一个进度条, 有一个输出缓冲区->这个缓冲区在哪里,为什么要…

十三、Linux文件目录指令

pwd 指令 基本语法:pwd (功能描述:显示当前工作目录的绝对路径) 应用实例:案例:显示当前工作目录的绝对路径 ls 指令 基本语法:ls 【选项】【目录或是文件】 常用选项 -a :显示当…

卡片排列-第15届蓝桥第二次STEMA测评Scratch真题精选

[导读]:超平老师的《Scratch蓝桥杯真题解析100讲》已经全部完成,后续会不定期解读蓝桥杯真题,这是Scratch蓝桥杯真题解析第159讲。 第15届蓝桥杯第2次STEMA测评已于2023年10月29日落下帷幕,编程题一共有6题,分别如下&…

最强人工智能ChatGPT引领AIGC发展

从公众号转载,关注微信公众号掌握更多技术动态 --------------------------------------------------------------- ——AI不会淘汰所有人,但会淘汰不懂AI的人 一、最强人工智能GPT-4 Turbo 在前不久的OpenAI开发者大会,正值Chatgpt3.5发布一…

UDS 14229-1定义的请求的响应行为

UDS服务响应规则 重要提示服务器一般响应行为包含子功能的请求响应行为物理寻址请求功能寻址请求 没有子功能参数的服务响应行为物理寻址客户端请求功能寻址客户端请求 伪代码示例 重要提示 服务应当支持物理寻址方式请求,部分服务也支持功能寻址方式请求。在功能寻…

Java集合大总结——List的简单使用

List简单介绍 鉴于Java中数组用来存储数据的局限性,我们通常使用java.util.List替代数组List集合类中元素有序、且可重复,集合中的每个元素都有其对应的顺序索引。JDK API中List接口的实现类常用的有:ArrayList、LinkedList和Vector。 List…

五、Linux目录结构

1.基本介绍 1.Linux的文件系统是采用级层式的树状目录结构,在此结构中的最上层是根目录"r/",然后在此目录下再创建其他的目录。 2.深刻理解linux树状文件目录是非常重要的 3.记住一句经典的话:在Linux世界里,一切皆文件…

asp.net智能考试系统VS开发sqlserver数据库web结构c#编程计算机网页项目

一、源码特点 asp.net 智能考试系统 是一套完善的web设计管理系统,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。 系统运行视频 https://www.bilibili.com/video/BV1gz4y1A7Qp/ 二、功能介绍 本系统使用Microsoft Visual Studio 201…