pdf解析可以用来读取PDF文件中字符串文本,图片数据。Apache PDFbox是一个开源的、基于Java的、支持PDF文档生成的工具库,它可以用于创建新的PDF文档,修改现有的PDF文档,还可以从PDF文档中提取所需的内容。Apache PDFBox还包含了数个命令行工具。
Apache PDFBox主要有以下特征:
PDF读取、创建、打印、转换、验证、合并分割等特征。
(1) 读取文本数据

读取文本并没有特别需要说明的地方,就是获取PDF文本起始页,结束页,通过getText函数直接获取PDF的所有文本。
(2) 获取PDF的中图片

将获取的PDF中图片对象保存到另一个PDF中

此方法可以取出源PDF中图片对象PDImageXObject,然后可以对该对象进行相关处理,本代码实现了将提取出来的每一个图片对象,插入到一个空白的PDF文档中。
-
数据
+关注
关注
8文章
7315浏览量
94001 -
字符串
+关注
关注
1文章
594浏览量
23046 -
PDF
+关注
关注
1文章
177浏览量
35310
原文标题:PDF解析思路
文章出处:【微信号:gh_757915171cb5,微信公众号:FPGA自学笔记】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
怎么把图片jpg转换成pdf文件呢
strtok拆分字符串

使用pdf解析可以用来读取PDF文件中字符串文本,图片数据
评论