0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TET PDF IFilter支持所有相关风格的PDF输入

工程师邓生 来源:哲想软件 作者:哲想软件 2022-08-22 16:22 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

接受的PDF输入

TET PDF IFilter 支持所有相关风格的PDF 输入:

直到 AcrobatDC 的所有 PDF版本,包括 ISO32000-1 和 32000-2(PDF 2.0)

无需密码即可打开文档的受保护PDF

修复损坏的 PDF文档

国际化

除了西文文本 TETPDF IFilter 完全支持中文、日文和韩文(CJK) 文本。识别所有CJK 编码;支持水平和垂直书写模式。自动检测文本的区域设置ID(语言和区域标识符)改进了Microsoft 的分词和词干算法的结果,这对于东亚文本尤其重要。

还支持从右到左的语言,例如希伯来语和阿拉伯语。上下文字符形式被规范化,文本按逻辑顺序传递。

PDF 不仅仅是一堆页面

TET PDF IFilter 将 PDF文档视为容器,其中可能包含比普通页面更多的信息。TETPDF IFilter 索引 PDF文档中的所有相关项目:

页面内容

书签、注释(评论)和表单域中的文本

元数据(见下文)

嵌入式 PDF 和PDF 包(组合)以递归方式处理,以便可以搜索所有嵌入式PDF 文档中的文本。

XMP 文档元数据和文档信息

TET PDF IFilter 中的高级元数据实现支持元数据的Windows 属性系统。它索引XMP 元数据以及标准或自定义文档信息条目。元数据索引可以在多个级别上配置:

文档信息条目、DublinCore 字段和其他常见XMP 属性映射到Windows shell 属性,例如标题、主题、作者。

TET PDF IFilter 添加了有用的特定于PDF 的伪属性,例如页面大小、PDF/A一致性级别、字体名称。

可以索引所有相关的预定义XMP 属性。

可以搜索用户定义的XMP 或基于PDF 的属性,例如公司特定的分类属性、数字签名或ZUGFeRD/Factur-X 一致性。

TET PDF IFilter 可选择将元数据集成到全文索引中。因此,即使是不支持元数据的全文搜索引擎(例如SQL Server)也可以搜索元数据。

Unicode 后处理

TET PDF IFilter 支持各种Unicode 后处理步骤,可用于改进提取的文本:

折叠保留、删除或替换字符,例如从不相关的脚本中删除标点符号或字符。

分解用一个或多个其他字符的等效序列替换一个字符,例如用它们各自的标准对应物替换窄、宽或垂直的日文字符或拉丁上标变体。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 嵌入式
    +关注

    关注

    5188

    文章

    20187

    浏览量

    329396
  • 编码
    +关注

    关注

    6

    文章

    1020

    浏览量

    56707
  • PDF
    PDF
    +关注

    关注

    1

    文章

    177

    浏览量

    35331

原文标题:​PDFlib TET PDF IFilter 5 功能

文章出处:【微信号:哲想软件,微信公众号:哲想软件】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    公网访问开源 Stirling-PDF 工具,提升办公效率

    本文介绍了如何在Windows本地部署Stirling-PDF服务器,并通过内网穿透实现外网访问,提升PDF处理效率。
    的头像 发表于 12-09 14:25 290次阅读
    公网访问开源 Stirling-<b class='flag-5'>PDF</b> 工具,提升办公效率

    求助CS32L010的相关资料(数据手册、用户手册、Pack包和例程等)

    求助CS32L010的相关资料(数据手册、用户手册、Pack包和例程等) 另外发现按照<应用笔记:芯海通用MCUGCC编译支持开发指南_1667977800.pdf>搭建
    发表于 09-26 09:59

    还在用PDF文档查资料?飞凌嵌入式「产品在线文档」让您的开发效率狂飙

    Ctrl+J(或者点击目录左上角的搜索框)快捷搜索; ③输入关键词,如“命令行测试”。 完成以上操作,系统便能瞬间匹配标题、正文、图表甚至案例中的相关内容,并按相关性排序呈现,十分高效和便捷
    发表于 09-26 08:57

    这么地道的ADC资料被我找到了?400页原创pdf原理到应用全覆盖!

    ,如宽带通信中的高速ADC、精密测量中的高分辨率ADC以及未来发展趋势。 全文太长,完整PDF可以直接点击下方附件下载,资料包里还有内容非常丰富,码住慢慢看,沧海拾遗,学到赚到。如果内容有帮助可以关注、点赞、评论支持一下哦~
    发表于 08-22 13:52

    请问 sotAP(CYW55512)模式是否支持“b only”和“b/g”?

    请问 sotAP(CYW55512)模式是否支持“b only”和“b/g”? Infineon_Wi-Fi_Software_UserGuide.pdf 和 Infineon_5557x_Wi-Fi_6_6E_User_Guide.p
    发表于 07-17 06:35

    Altium智能导出PDF料单是空白

    大家用Altium有没有遇到过智能导出PDF包含的料单是空白的情况? AD16没有料单,AD25是空白.
    发表于 07-03 16:18

    漫画图解 电感器 抗干扰元器件指南(全彩PDF版)

    漫画图解电感基础知识(高清PDF) 内容:很形象的漫画和语言图解关于电感器的入门基础知识,让电子初学者也能轻松的看懂电子电路。 纯分享贴,有需要可以直接下载附件获取完整资料! (如果内容有帮助可以关注、点赞、评论支持一下哦~)
    发表于 05-13 15:49

    CY7C68013A无PID和VID,如何制作PDF

    我用 CY7C68013A MCU 设计了一个 PCB,所以这意味着我不是程序员之类的。 但是我尝试上传一些代码,但没有 PID 和 VID。 我找到了一些关于如何制作的 PDF,但那些对我来说很难。 有人可以帮我吗?
    发表于 05-13 07:50

    PanDao:输入透镜参数

    pdf”功能生成) d) 载入系统预设的标准模板透镜,并根据需求修改其参数值及公差范围 e) 直接手动输入光学元件的参数值及公差范围 完成上述操作后,点击“ask PanDao“即可启动系统,获取兼顾最低成本与制造风险的最优光学元件制造链方案。
    发表于 05-06 08:47

    电子电路实用原理图300例(PDF版)

    电子电路实用原理图300例(PDF版),都是些常见的电路,从简单到复杂,且元器件名称大小都标识清楚。非常适合电子爱好者参考使用。
    发表于 04-09 13:47

    典型模电电路应用108例,附Protel DXP原理图和pdf文件

    资料介绍 108个典型经典应用电路实例,内附附Protel DXP原理图和pdf文件,初学适用。 资料部分截图展示: 纯分享贴,有需要可以直接下载附件获取资料! (如果内容有帮助可以关注、点赞、评论支持一下哦~)
    发表于 03-20 13:21

    华为PCBA检验规范.pdf

    华为PCBA检验规范.pdf
    的头像 发表于 02-26 13:54 1357次阅读
    华为PCBA检验规范.<b class='flag-5'>pdf</b>

    Spire.PDFViewer for ASP.NET强大的PDF查看组件

    Spire.PDFViewer for ASP.NET 是一款强大的 PDF 查看组件,它允许开发人员从文件中加载各种 PDF 文档并且可以在网页上浏览 PDF 文档。该组件还支持浏览
    的头像 发表于 02-13 09:17 723次阅读
    Spire.PDFViewer for ASP.NET强大的<b class='flag-5'>PDF</b>查看组件

    输出PDF文档时,如果点选1:1比例时,镜像的功能就没作用

    #为什么输出PDF文档时,如果点选1:1比例时,镜像的功能就没用了呢
    发表于 12-27 16:21

    DELL 1464独显图纸.pdf

    DELL 1464 独显图纸.pdf
    发表于 12-20 14:44 1次下载