Java使用IText生产PDF时,中文标点符号出现在行首的问题处理

Java使用IText生成PDF时,中文标点符号出现在行首的问题处理

使用itext 5进行html转成pdf时,标点符号出现在某一行的开头 但这种情况下显然不符合中文书写的规则,主要问题出在itext中的DefaultSplitCharacter类,该方法主要用来判断字符是否为可拆分字符。

itext 版本:5.5.13

解决办法:
1、可以通过修改源码的方式,可以参考
如何修改jar包源码以及解决iText生成pdf时中文标点存在行首问题

2、在自己项目中创建与itext中DefaultSplitCharacter相同的包路径,并在该包下重新DefaultSplitCharacter类,能这样处理的原因,与类的加载顺序有关。
在这里插入图片描述

package com.itextpdf.text.pdf;

import com.itextpdf.text.SplitCharacter;

public class DefaultSplitCharacter implements SplitCharacter {

    /**
     * An instance of the default SplitCharacter.
     */
    public static final SplitCharacter DEFAULT = new DefaultSplitCharacter();

    // line of text cannot start or end with this character
    static final char u2060 = '\u2060'; // - ZERO WIDTH NO BREAK SPACE

    // a line of text cannot start with any following characters in
    // NOT_BEGIN_CHARACTERS[]
    static final char u30fb = '\u30fb'; // ・ - KATAKANA MIDDLE DOT
    static final char u2022 = '\u2022'; // • - BLACK SMALL CIRCLE (BULLET)
    static final char uff65 = '\uff65'; // ・ - HALFWIDTH KATAKANA MIDDLE DOT
    static final char u300d = '\u300d'; // 」 - RIGHT CORNER BRACKET
    static final char uff09 = '\uff09'; // ) - FULLWIDTH RIGHT PARENTHESIS
    static final char u0021 = '\u0021'; // ! - EXCLAMATION MARK
    static final char u0025 = '\u0025'; // % - PERCENT SIGN
    static final char u0029 = '\u0029'; // ) - RIGHT PARENTHESIS
    static final char u002c = '\u002c'; // , - COMMA
    static final char u002e = '\u002e'; // . - FULL STOP
    static final char u003f = '\u003f'; // ? - QUESTION MARK
    static final char u005d = '\u005d'; // ] - RIGHT SQUARE BRACKET
    static final char u007d = '\u007d'; // } - RIGHT CURLY
    static final char uff61 = '\uff61'; // 。 - HALFWIDTH IDEOGRAPHIC FULL STOP

    static final char uff70 = '\uff70'; // ー - HALFWIDTH KATAKANA-HIRAGANA PROLONGED SOUND MARK
    static final char uff9e = '\uff9e'; // ゙ - HALFWIDTH KATAKANA VOICED SOUND MARK
    static final char uff9f = '\uff9f'; // ゚ - HALFWIDTH KATAKANA SEMI-VOICED SOUND MARK
    static final char u3001 = '\u3001'; // 、 - IDEOGRAPHIC COMMA
    static final char u3002 = '\u3002'; // 。 - IDEOGRAPHIC FULL STOP
    static final char uff0c = '\uff0c'; // , - FULLWIDTH COMMA
    static final char uff0e = '\uff0e'; // . - FULLWIDTH FULL STOP
    static final char uff1a = '\uff1a'; // : - FULLWIDTH COLON
    static final char uff1b = '\uff1b'; // ; - FULLWIDTH SEMICOLON
    static final char uff1f = '\uff1f'; // ? - FULLWIDTH QUESTION MARK
    static final char uff01 = '\uff01'; // ! - FULLWIDTH EXCLAMATION MARK
    static final char u309b = '\u309b'; // ゛ - KATAKANA-HIRAGANA VOICED SOUND MARK
    static final char u309c = '\u309c'; // ゜ - KATAKANA-HIRAGANA SEMI-VOICED SOUND MARK
    static final char u30fd = '\u30fd'; // ヽ - KATAKANA ITERATION MARK

    static final char u2019 = '\u2019'; // ’ - RIGHT SINGLE QUOTATION MARK
    static final char u201d = '\u201d'; // ” - RIGHT DOUBLE QUOTATION MARK
    static final char u3015 = '\u3015'; // 〕 - RIGHT TORTOISE SHELL BRACKET
    static final char uff3d = '\uff3d'; // ] - FULLWIDTH RIGHT SQUARE BRACKET
    static final char uff5d = '\uff5d'; // } - FULLWIDTH RIGHT CURLY BRACKET
    static final char u3009 = '\u3009'; // 〉 - RIGHT ANGLE BRACKET
    static final char u300b = '\u300b'; // 》 - RIGHT DOUBLE ANGLE BRACKET
    static final char u300f = '\u300f'; // 』 - RIGHT WHITE CORNER BRACKET
    static final char u3011 = '\u3011'; // 】 - RIGHT BLACK LENTICULAR BRACKET
    static final char u00b0 = '\u00b0'; // ° - DEGREE SIGN
    static final char u2032 = '\u2032'; // ′ - PRIME
    static final char u2033 = '\u2033'; // ″ - DOUBLE PRIME

    static final char[] NOT_BEGIN_CHARACTERS = new char[] { u30fb, u2022, uff65, u300d, uff09, u0021, u0025, u0029,
            u002c, u002e, u003f, u005d, u007d, uff61, uff70, uff9e, uff9f, u3001, u3002, uff0c, uff0e, uff1a, uff1b,
            uff1f, uff01, u309b, u309c, u30fd, u2019, u201d, u3015, uff3d, uff5d, u3009, u300b, u300f, u3011, u00b0,
            u2032, u2033, u2060 };

    // a line of text cannot end with any following characters in
    // NOT_ENDING_CHARACTERS[]
    static final char u0024 = '\u0024'; // $ - DOLLAR SIGN
    static final char u0028 = '\u0028'; // ( - LEFT PARENTHESIS
    static final char u005b = '\u005b'; // [ - LEFT SQUARE BRACKET
    static final char u007b = '\u007b'; // { - LEFT CURLY BRACKET
    static final char u00a3 = '\u00a3'; // £ - POUND SIGN
    static final char u00a5 = '\u00a5'; // ¥ - YEN SIGN
    static final char u201c = '\u201c'; // “ - LEFT DOUBLE QUOTATION MARK
    static final char u2018 = '\u2018'; // ‘ - LEFT SINGLE QUOTATION MARK
    static final char u300a = '\u300a'; // 《 - LEFT DOUBLE ANGLE BRACKET
    static final char u3008 = '\u3008'; // 〈 - LEFT ANGLE BRACKET
    static final char u300c = '\u300c'; // 「 - LEFT CORNER BRACKET
    static final char u300e = '\u300e'; // 『 - LEFT WHITE CORNER BRACKET
    static final char u3010 = '\u3010'; // 【 - LEFT BLACK LENTICULAR BRACKET
    static final char u3014 = '\u3014'; // 〔 - LEFT TORTOISE SHELL BRACKET
    static final char uff62 = '\uff62'; // 「 - HALFWIDTH LEFT CORNER BRACKET
    static final char uff08 = '\uff08'; // ( - FULLWIDTH LEFT PARENTHESIS
    static final char uff3b = '\uff3b'; // [ - FULLWIDTH LEFT SQUARE BRACKET
    static final char uff5b = '\uff5b'; // { - FULLWIDTH LEFT CURLY BRACKET
    static final char uffe5 = '\uffe5'; // ¥ - FULLWIDTH YEN SIGN
    static final char uff04 = '\uff04'; // $ - FULLWIDTH DOLLAR SIGN

    static final char[] NOT_ENDING_CHARACTERS = new char[] { u0024, u0028, u005b, u007b, u00a3, u00a5, u201c, u2018,
            u3008, u300a, u300c, u300e, u3010, u3014, uff62, uff08, uff3b, uff5b, uffe5, uff04, u2060 };



    @Override
    public boolean isSplitCharacter(int start, int current, int end, char[] cc, PdfChunk[] ck) {


        // Note: If you don't add an try/catch and there is an issue with
        // isSplitCharacter(), iText silently fails and
        // you have no idea there was a problem.
        try {

            char c = getCharacter(current, cc, ck);

            int next = current + 1;
            if (next < cc.length) {
                char charNext = getCharacter(next, cc, ck);
                for (char not_begin_character : NOT_BEGIN_CHARACTERS) {
                    if (charNext == not_begin_character) {
                        return false;
                    }
                }
            }

            for (char not_ending_character : NOT_ENDING_CHARACTERS) {
                if (c == not_ending_character) {
                    return false;
                }
            }

            if (c <= ' ' || c == '-' || c == '\u2010') {
                return true;
            }
            if (c < 0x2002)
                return false;
            return ((c >= 0x2002 && c <= 0x200b)
                    || (c >= 0x2e80 && c < 0xd7a0)
                    || (c >= 0xf900 && c < 0xfb00)
                    || (c >= 0xfe30 && c < 0xfe50)
                    || (c >= 0xff61 && c < 0xffa0));
        } catch (Exception ex) {
            ex.printStackTrace();
        }

        return true;
    }

    /**
     * Returns a character int the array (Note: modified from the iText default
     * version with the addition null check of '|| ck[Math.min(position, ck.length -
     * 1)] == null'.
     *
     * @param position position in the array
     * @param ck       chunk array
     * @param cc       the character array that has to be checked
     * @return the character
     */
    protected char getCharacter(int position, char[] cc, PdfChunk[] ck) {
        if (ck == null || ck[Math.min(position, ck.length - 1)] == null) {
            return cc[position];
        }
        return (char) ck[Math.min(position, ck.length - 1)].getUnicodeEquivalent(cc[position]);
    }
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/309193.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于ChatGPT4+Python近红外光谱数据分析及机器学习与深度学习建模

2022年11月30日&#xff0c;可能将成为一个改变人类历史的日子——美国人工智能开发机构OpenAI推出了聊天机器人ChatGPT3.5&#xff0c;将人工智能的发展推向了一个新的高度。2023年4月&#xff0c;更强版本的ChatGPT4.0上线&#xff0c;文本、语音、图像等多模态交互方式使其在…

C# Open Vocabulary Object Detection 部署开放域目标检测

目录 介绍 效果 模型信息 owlvit-image.onnx owlvit-post.onnx owlvit-text.onnx 项目 代码 Form1.cs OWLVIT.cs 下载 C# Open Vocabulary Object Detection 部署开放域目标检测 介绍 训练源码地址&#xff1a;https://github.com/google-research/scenic/tree/…

性格是如何形成的?能不能改变性格?

有一句话叫“性格决定命运”&#xff0c;广泛流传&#xff0c;也就是说 “命运”与“性格”是紧密相连的&#xff0c;可见“性格”对于一个人的重要性。 性格是怎么来的&#xff1f; 1、遗传基因 根据一些心理学家的最新研究&#xff0c;认为性格与人体内的基因有关系&#x…

浏览器缓存引发的odoo前端报错

前两天&#xff0c;跑了一个odoo16项目&#xff0c;莫名其妙的前端报错&#xff0c; moment.js 报的错&#xff0c; 这是一个时间库&#xff0c;不是我自己写的代码&#xff0c;我也没做过任何修改&#xff0c;搞不清楚为什么报错。以为是odoo的bug&#xff0c;所以从gitee下载…

【Python】编程练习的解密与实战(一)

​&#x1f308;个人主页&#xff1a;Sarapines Programmer&#x1f525; 系列专栏&#xff1a;《Python | 编程解码》⏰诗赋清音&#xff1a;云生高巅梦远游&#xff0c; 星光点缀碧海愁。 山川深邃情难晤&#xff0c; 剑气凌云志自修。 目录 &#x1fa90;1. 初识Python &a…

RuntimeError: CUDA error: invalid device ordinal解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

C#基础-空处理

在c#中&#xff0c;值对象是没有办法赋值为null的。比如说&#xff0c;你想要定义一个布尔值&#xff0c;你的赋值数据要么得是true、要么就得是false&#xff0c;默认情况下我们永远没可能给这个布尔赋值为null&#xff0c;即使只是对这个变量进行声明而不初始化数据&#xff…

ChatGPT会给教育界带来怎样的冲击,又将与教育碰撞出怎样的火花?

11 月 7 日凌晨&#xff0c;美国人工智能公司 OpenAI 的开发者大会正式开启&#xff0c;创始人 Sam Altman 和其同事&#xff0c;发布了团队最新的成果GPT-4 Turbo&#xff0c;新一代的GPT不仅更快、有更长的上下文、而且更好的控制。而随之推出的「GPTs」——让人们能用自然语…

服务器执行rm命令时自动记录到审计日志中

目的 当在服务器上执行类似于 rm 命令时&#xff0c;自动记录该命令执行的时间&#xff0c;在哪里执行的&#xff0c;删除的什么文件&#xff0c;记录到审计日志中&#xff0c;能够查找到某些文件丢失原因 配置 # 需要root权限&#xff0c;sudo不行&#xff0c;这里假设执行…

Java:爬虫htmlunit实践

之前我们已经讲过使用htmlunit及基础&#xff0c;没有看过的可以参考Java&#xff1a;爬虫htmlunit-CSDN博客 我们今天就来实际操作一下&#xff0c;爬取指定网站的数据 1、首先我们要爬取一个网站数据的时候我们需要对其数据获取方式我们要进行分析&#xff0c;我们今天就拿双…

注册中心(Nacos)

简介 Dynamic Naming and Configuration Service的首字母简称,一个更易于构建云原生应用的动态服务发现、配置管理和服务管理平台。 Nacos 致力于帮助您发现、配置和管理微服务。Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现、服务配置、服务元数据及流量管…

基于DNA的密码学和隐写术综述

摘要 本文全面调研了不同的脱氧核糖核酸(DNA)-基于密码学和隐写术技术。基于DNA的密码学是一个新兴领域,利用DNA分子的大规模并行性和巨大的存储容量来编码和解码信息。近年来,由于其相对传统密码学方法的潜在优势,如高存储容量、低错误率和对环境因素的抗性,该领域引起…

网络之路28:二层链路聚合

正文共&#xff1a;1666 字 14 图&#xff0c;预估阅读时间&#xff1a;2 分钟 目录 网络之路第一章&#xff1a;Windows系统中的网络 0、序言 1、Windows系统中的网络1.1、桌面中的网卡1.2、命令行中的网卡1.3、路由表1.4、家用路由器 网络之路第二章&#xff1a;认识企业设备…

Elasticsearch windows开箱即用【记录】

一、准备工作 安装ES之前要在本机安装好JDK&#xff0c;对应的兼容性见官网链接&#xff1a;https://www.elastic.co/cn/support/matrix ES官网链接&#xff1a;https://www.elastic.co/cn/, 我本机安装的是JDK8&#xff0c;测试使用的是7.3.0版本的ES和Kibana。 1、首先去…

Spring Boot 2.6 以上整合 Swagger + Knife4j 报错

Spring Boot 2.6 以上整合 Swagger Knife4j 报错 报错信息报错原因解决办法 报错信息 org.springframework.context.ApplicationContextException: Failed to start bean documentationPluginsBootstrapper; nested exception is java.lang.NullPointerException: Cannot inv…

premiere简约大气3D动画logo片头Pr模板Mogrt免费下载

Premiere简约大气3D动画logo片头pr模板mogrt下载&#xff0c;无需插件&#xff0c;高清分辨率&#xff0c;易于自定义&#xff0c;包括教程&#xff0c;不包括音频和图像。免费下载&#xff1a;https://prmuban.com/37065.html

centos下系统全局检测工具dstat使用

目录 一&#xff1a;没有需要安装 二&#xff1a;dstat命令参数 三、监测界面各参数含义&#xff08;部分&#xff09; 四、dstat的高级用法 一&#xff1a;没有需要安装 yum install dstat 二&#xff1a;dstat命令参数 有默认选项&#xff0c;执行dstat命令不加任何参数…

C语言初始化效率问题以及关键字解释

一、初始化效率 1、在静态变量的初始化中&#xff0c;我们可以把可执行程序文件想要初始化的值放在当程序执行时变量将会使用的位置。当可执行文件载入到内存时&#xff0c;这个已经保存了正确初始值的位置将赋值给那个变量&#xff0c;完成这个任务并不需要额外的时间&#xf…

自动化的运维管理:探究Kubernetes工作机制的奥秘

1 云计算时代的操作系统 Kubernetes 是一个生产级别的 容器编排平台 和 集群管理系统 &#xff0c;能够 创建、调度容器&#xff0c;监控、管理服务器。 容器是什么&#xff1f;容器是软件&#xff0c;是应用&#xff0c;是进程。服务器是什么&#xff1f;服务器是硬件&#…

CMake入门教程【高级篇】管理MSVC编译器警告

😈「CSDN主页」:传送门 😈「Bilibil首页」:传送门 😈「动动你的小手」:点赞👍收藏⭐️评论📝 文章目录 1.什么是MSVC?2.常用的屏蔽警告3.MSVC所有警告4.target_compile_options用法5.如何在CMake中消除MSVC的警告?6.屏蔽警告编写技巧