【办公类-21-05】20240227单个word按“段落数”拆分多个Word(成果汇编 只有段落文字 1拆5)

作品展示

背景需求

前文对一套带有段落文字和表格的word进行13份拆分

【办公类-21-04】20240227单个word按“段落数”拆分多个Word(三级育婴师操作参考题目1拆13份)-CSDN博客文章浏览阅读293次,点赞8次,收藏3次。【办公类-21-04】20240227单个word按“段落数”拆分多个Word(三级育婴师操作参考题目1拆13份)https://blog.csdn.net/reasonsummer/article/details/136331041现在我随便找一份docx文件(全部都是段落文字,没有表格),

试试没表格干扰,是否直接读取段落就可以将加粗部分的文字另存多份

素材准备:

有几个加粗标题(不能是一级标题这种,一定清除格式,加粗)

错误的

# https://blog.csdn.net/lau_jw/article/details/114383781

'''成果汇编word题目拆分成多个表格(根据标题(加粗)所在行数拆分-没有表格,只有段落文字)
作者:阿夏
时间:2024年2月27日
'''

from docx import Document
from openpyxl import load_workbook
import glob
import re,os
 
print('----1、word数据清洗------')
a='成果汇编'

path = r"C:\Users\jg2yXRZ\OneDrive\桌面\三级操作题"
file=path + r'\{}.docx'.format(a)  # 必须是docx
print(file)
# C:\Users\jg2yXRZ\OneDrive\桌面\三级操作题\电子屏安全管理制度(样本)2.docx


 # 提取四个加粗标题所在的行数    # 参考https://www.shouxicto.com/article/96876.html
doc= Document(file)
  
# 遍历每个段落并判断是否为空白行,如果有空白行,就删除
for paragraph in doc.paragraphs:
    if not paragraph.text.strip():
        # 如果是空白行则将其从文档中移除
        p = paragraph._element
        p.getparent().remove(p)     


doc.save(path + r'\{}(去掉回车).docx'.format(a))



print('----2、读取word里面标题加粗段落的行数------')

filename=path + r'\{}(去掉回车).docx'.format(a)

    # 打开Word文档
doc = Document(filename)

d=len(doc.paragraphs)
print(d)
# docx没有去掉空行前,一共有258段文字
# docx去掉空行后,一共有244段文字


h=[]
s=[]
# 遍历文档中的段落
for i, paragraph in enumerate(doc.paragraphs):
    if paragraph.runs:
        # 检查段落中的所有运行对象
        for run in paragraph.runs:
            if run.bold:
                # 如果运行对象的文字为加粗,则打印段落索引
                # print("段落", i, "的文字被加粗了")
                h.append(i)
                # 提取每一份的加粗标题
                t=doc.paragraphs[i].text                
                # print(t)
                s.append(t)
s=list(set(s))
s.sort()
# print(s)
# ['3.1.1 运用发育诊断法对2岁婴儿的以不同步子行走能力进行测试', '3.1.2 为2岁婴儿编制规范、适宜的个别化游戏活动计划(5分钟)', '3.1.3 设计生活中婴儿动手自理的活动(5分钟)', '3.1.4 六个月以内
# 的婴儿的精细动作的日常练习活动设计(5分钟)', '3.1.5 列举两种感统练习器械,并简述其活动功能(5分钟)', '3.2.1 请阐述对婴儿语言发展水平的观察与记录方法(5分钟)', '3.2.2 如何制定婴幼儿个别化
# 语言培养计划(5分钟)', '3.2.3 设计一份记录表格,观察一个6个月左右的宝宝寻找不同声源的感知练习过程(5分钟)', '3.2.4 设计一个观察表,观察并调整婴儿在视动协调方面的练习(5分钟)', '3.2.5 设 
# 计一个观察表,记录孩子可能发生的行为(5分钟)', '3.3.1 如何对待任性的孩子(5分钟)', '3.3.2 如何对待爱哭的孩子(5
# print(len(s))
# 13

h=list(set(h))
h.sort()
j=h[1:]
j.append(d)

print(h)
print(len(h))
print(j)
print(len(j))
# # 去掉空行前
# # [1, 25, 48, 64, 77, 95, 117, 136, 158, 179, 200, 218, 238]
# # 13
# # [25, 48, 64, 77, 95, 117, 136, 158, 179, 200, 218, 238, 258]
# # 13
# # 去掉空行后
# # [1, 23, 45, 60, 72, 89, 110, 127, 148, 168, 188, 205, 224]
# # 13
# # [23, 45, 60, 72, 89, 110, 127, 148, 168, 188, 205, 224, 244]


print('----3、读取word里面标题加粗段落的行数+表格占的段落数------')
# 拆分docx(读取加粗的行,这些行还要加上表格的行数)
# 13张表格里面分别有几个表格

# bg=[2,1,0,1,1,1,1,1,1,1,0,0,0]

# # 第一张表是原来的段落数,所以就是0
# bg.insert(0,0)
# # print(bg)

# # 数字累加
# o = []
# sum = 0
# for num in bg:
#     sum += num
#     o.append(sum)
# print(o)
# # [0, 2, 3, 3, 4, 5, 6, 7, 8, 9, 10, 10, 10, 10]
# # # # 没有空行的内容


print('----3、读取word里面标题加粗段落的行数+表格占的段落数------')
# 拆分docx(读取加粗的行,这些行还要加上表格的行数)
# 13张表格里面分别有几个表格

imagePath1=path+r'\{}拆分'.format(a)
if not os.path.exists(imagePath1):  # 判断存放图片的文件夹是否存在
    os.makedirs(imagePath1)  # 若图片文件夹不存在就创建



# for  x in range(len(s)):
    # 获取第一页的段落和表格
# a=int(j[x]+o[x])
for x in range(len(s)):
    doc = Document(filename)
    first_page_paragraphs = []
    first_page_tables = []
    for element in doc.element.body:
        if element.tag.endswith(('}p', '}tbl')):
            
            if element.getparent().index(element) >int(j[x]) :
            # if element.getparent().index(element) >int(j[x]+o[x]) :
                if element.tag.endswith('p'):
                    first_page_paragraphs.append(element)
                else:
                    first_page_tables.append(element)
            if element.getparent().index(element)<int(h[x]):
            # if element.getparent().index(element)<int(h[x]+o[x]):
                if element.tag.endswith('p'):
                    first_page_paragraphs.append(element)
                else:
                    first_page_tables.append(element)
        # print(int(j[x]+o[x]))
        # print(int(h[x]+o[x]))
        

    # 删除第一页的段落和表格
    for paragraph in first_page_paragraphs:
        p = paragraph.getparent()
        p.remove(paragraph)
        

    for table in first_page_tables:
        t = table.getparent()
        t.remove(table)

    # # 保存修改后的文档为新文件
    # doc.save(path+r'01.docx')
    doc.save(imagePath1+r'\{} {}.docx'.format('%02d'%x,s[x]))






结果显示及调整

1、结果显示题目与数字顺序不符合

1、解决思路

2、内容多一行

2、解决思路

正确代码全部

# https://blog.csdn.net/lau_jw/article/details/114383781

'''成果汇编word题目拆分成多个表格(根据标题(加粗)所在行数拆分-没有表格,只有段落文字)
作者:阿夏
时间:2024年2月27日
'''

from docx import Document
from openpyxl import load_workbook
import glob
import re,os
 
print('----1、word数据清洗------')
a='成果汇编'

path = r"C:\Users\jg2yXRZ\OneDrive\桌面\三级操作题"
file=path + r'\{}.docx'.format(a)  # 必须是docx
print(file)
# C:\Users\jg2yXRZ\OneDrive\桌面\三级操作题\电子屏安全管理制度(样本)2.docx


 # 提取四个加粗标题所在的行数    # 参考https://www.shouxicto.com/article/96876.html
doc= Document(file)
  
# 遍历每个段落并判断是否为空白行,如果有空白行,就删除
for paragraph in doc.paragraphs:
    if not paragraph.text.strip():
        # 如果是空白行则将其从文档中移除
        p = paragraph._element
        p.getparent().remove(p)     


doc.save(path + r'\{}(去掉回车).docx'.format(a))



print('----2、读取word里面标题加粗段落的行数------')

filename=path + r'\{}(去掉回车).docx'.format(a)

    # 打开Word文档
doc = Document(filename)

d=len(doc.paragraphs)
print(d)
# docx没有去掉空行前,一共有258段文字
# docx去掉空行后,一共有244段文字


h=[]
s=[]
n=1
# 遍历文档中的段落
for i, paragraph in enumerate(doc.paragraphs):
    if paragraph.runs:
        # 检查段落中的所有运行对象
        for run in paragraph.runs:
            if run.bold:
                # 如果运行对象的文字为加粗,则打印段落索引
                # print("段落", i, "的文字被加粗了")
                h.append(i)
                # 提取每一份的加粗标题
                t=doc.paragraphs[i].text                
                print(t)
                b=str('%02d'%n)+t
                s.append(b)
                # 没有按照顺序排列
                # ['一、案例汇编对象', '三、案例提炼流程', '二、案例提炼要求', '四、相关事宜', '活动背景']
                # 所以加了一个数字序号
                # ['01活动背景', '02一、案例汇编对象', '03二、案例提炼要求', '04三、案例提炼流程', '05四、相关事宜']
                n+=1
s=list(set(s))
s.sort()
print(s)
# ['3.1.1 运用发育诊断法对2岁婴儿的以不同步子行走能力进行测试', '3.1.2 为2岁婴儿编制规范、适宜的个别化游戏活动计划(5分钟)', '3.1.3 设计生活中婴儿动手自理的活动(5分钟)', '3.1.4 六个月以内
# 的婴儿的精细动作的日常练习活动设计(5分钟)', '3.1.5 列举两种感统练习器械,并简述其活动功能(5分钟)', '3.2.1 请阐述对婴儿语言发展水平的观察与记录方法(5分钟)', '3.2.2 如何制定婴幼儿个别化
# 语言培养计划(5分钟)', '3.2.3 设计一份记录表格,观察一个6个月左右的宝宝寻找不同声源的感知练习过程(5分钟)', '3.2.4 设计一个观察表,观察并调整婴儿在视动协调方面的练习(5分钟)', '3.2.5 设 
# 计一个观察表,记录孩子可能发生的行为(5分钟)', '3.3.1 如何对待任性的孩子(5分钟)', '3.3.2 如何对待爱哭的孩子(5
# print(len(s))
# 13

h=list(set(h))
h.sort()
j=h[1:]
j.append(d)

print(h)
print(len(h))
print(j)
print(len(j))
# # 去掉空行前
# # [1, 25, 48, 64, 77, 95, 117, 136, 158, 179, 200, 218, 238]
# # 13
# # [25, 48, 64, 77, 95, 117, 136, 158, 179, 200, 218, 238, 258]
# # 13
# # 去掉空行后
# # [1, 23, 45, 60, 72, 89, 110, 127, 148, 168, 188, 205, 224]
# # 13
# # [23, 45, 60, 72, 89, 110, 127, 148, 168, 188, 205, 224, 244]


print('----3、读取word里面标题加粗段落的行数+表格占的段落数------')
# 拆分docx(读取加粗的行,这些行还要加上表格的行数)
# 13张表格里面分别有几个表格

# bg=[2,1,0,1,1,1,1,1,1,1,0,0,0]

# # 第一张表是原来的段落数,所以就是0
# bg.insert(0,0)
# # print(bg)

# # 数字累加
# o = []
# sum = 0
# for num in bg:
#     sum += num
#     o.append(sum)
# print(o)
# # [0, 2, 3, 3, 4, 5, 6, 7, 8, 9, 10, 10, 10, 10]
# # # # 没有空行的内容


print('----3、读取word里面标题加粗段落的行数+表格占的段落数------')
# 拆分docx(读取加粗的行,这些行还要加上表格的行数)
# 13张表格里面分别有几个表格

imagePath1=path+r'\{}拆分'.format(a)
if not os.path.exists(imagePath1):  # 判断存放图片的文件夹是否存在
    os.makedirs(imagePath1)  # 若图片文件夹不存在就创建



# for  x in range(len(s)):
    # 获取第一页的段落和表格
# a=int(j[x]+o[x])
for x in range(len(s)):
    doc = Document(filename)
    first_page_paragraphs = []
    first_page_tables = []
    for element in doc.element.body:
        if element.tag.endswith(('}p', '}tbl')):
            
            if element.getparent().index(element) >=int(j[x]) :
            # if element.getparent().index(element) >int(j[x]+o[x]) :
                if element.tag.endswith('p'):
                    first_page_paragraphs.append(element)
                else:
                    first_page_tables.append(element)
            if element.getparent().index(element)<int(h[x]):
            # if element.getparent().index(element)<int(h[x]+o[x]):
                if element.tag.endswith('p'):
                    first_page_paragraphs.append(element)
                else:
                    first_page_tables.append(element)
        # print(int(j[x]+o[x]))
        # print(int(h[x]+o[x]))
        

    # 删除第一页的段落和表格
    for paragraph in first_page_paragraphs:
        p = paragraph.getparent()
        p.remove(paragraph)
        

    for table in first_page_tables:
        t = table.getparent()
        t.remove(table)

    # # 保存修改后的文档为新文件
    # doc.save(path+r'01.docx')
    doc.save(imagePath1+r'\{}.docx'.format(s[x]))






本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/413680.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

jmeter(四)HTTP请求

启动jmeter&#xff0c;建立一个测试计划 这里再次说说怎么安装和启动jmeter吧&#xff0c;昨天下午又被人问到怎样安装和使用&#xff0c;我也是醉了&#xff1b;在我看来&#xff0c;百度能解决百分之八十的问题&#xff0c;特别是基础的问题。。。 安装&#xff1a;去官网…

云服务器ECS价格表出炉_2024年最新价格表——阿里云

2024年最新阿里云服务器租用费用优惠价格表&#xff0c;轻量2核2G3M带宽轻量服务器一年61元&#xff0c;折合5元1个月&#xff0c;新老用户同享99元一年服务器&#xff0c;2核4G5M服务器ECS优惠价199元一年&#xff0c;2核4G4M轻量服务器165元一年&#xff0c;2核4G服务器30元3…

Idea报错

在处理项目中Idea报错&#xff1a; 问题1&#xff1a; Error starting ApplicationContext. To display the conditions report re-run your application with debug enabled. 2024-02-27 17:16:54.427 ERROR 11472 --- [ restartedMain] o.s.b.d.LoggingFailureAnalysisRepo…

京东数据分析(电商数据分析):2024年1月京东白酒TOP10品牌销量销额排行榜

在公布2024年1月京东白酒品牌排行榜之前&#xff0c;分享一个有点意思的现象&#xff1a;在今年龙年春晚“黄金5分钟”的广告片里&#xff0c;白酒局知名的品牌基本都亮相了&#xff08;茅台、五粮液、洋河股份、郎酒、古井贡酒、水井坊&#xff09;&#xff0c;但今年汾酒却缺…

4核8G服务器多少钱?腾讯云和阿里云哪家便宜?

4核8G云服务器多少钱一年&#xff1f;阿里云ECS服务器u1价格955.58元一年&#xff0c;腾讯云轻量4核8G12M带宽价格是646元15个月&#xff0c;阿腾云atengyun.com整理4核8G云服务器价格表&#xff0c;包括一年费用和1个月收费明细&#xff1a; 云服务器4核8G配置收费价格 阿里…

Qt RGB三色灯上位机

今天突发奇想做一个Qt RGB三色灯上位机&#xff0c;刚好手上有一个RGB三色灯和arduion开发板。 我是想实现一个颜色选择器界面然后鼠标点击颜色区域就可以发出rgb的值&#xff0c;然后把这个值通过串口线发送给arduion,arduion再解析出数据发送给RGB三色灯。 实现界面如下&…

代码随想录算法训练营day24

题目&#xff1a;77. 组合 参考链接&#xff1a;代码随想录 回溯法理论基础 回溯三部曲&#xff1a;回溯函数模板返回值以及参数、回溯函数终止条件、回溯搜索的遍历过程。 模板框架&#xff1a; void backtracking(参数) {if (终止条件) {存放结果;return;}for (选择&…

基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的生活垃圾检测与分类系统(Python+PySide6界面+训练代码)

摘要&#xff1a;本篇博客详细讲述了如何利用深度学习构建一个生活垃圾检测与分类系统&#xff0c;并且提供了完整的实现代码。该系统基于强大的YOLOv8算法&#xff0c;并进行了与前代算法YOLOv7、YOLOv6、YOLOv5的细致对比&#xff0c;展示了其在图像、视频、实时视频流和批量…

人工智能之Tensorflow程序结构

TensorFlow作为分布式机器学习平台&#xff0c;主要架构如下&#xff1a; 网络层&#xff1a;远程过程调用(gRPC)和远程直接数据存取(RDMA)作为网络层&#xff0c;主要负责传递神经网络算法参数。 设备层&#xff1a;CPU、GPU等设备&#xff0c;主要负责神经网络算法中具体的运…

IDEA基础——创建Maven项目卡在导入Maven依赖项的解决方案

解决方案 方案一&#xff1a;添加阿里云maven镜像源&#xff08;推荐&#xff09;1. 找到你maven的用户配置文件路径&#xff0c;一般为maven仓库路径的父路径&#xff1a;./xxx/repository的上一个目录2. 在配置文件中添加阿里云镜像&#xff1a; 方案二&#xff1a;下载模板配…

【MySQL】DCL

DCL英文全称是Data Control Language(数据控制语言)&#xff0c;用来管理数据库用户、控制数据库的访问权限。 1. 管理用户 在MySQL数据库中&#xff0c;DCL&#xff08;数据控制语言&#xff09;是用来管理用户和权限的语句集合。通过DCL语句&#xff0c;可以创建、修改、删…

word中的表格跨页了,要如何维持每一页的表头都有标题

在制作 Word 的表格时&#xff0c;因为内容很长&#xff0c;会一直往下延伸&#xff0c; 不过因为是混合内容&#xff0c;也不适合用 Excel 来制作表格&#xff0c;而在延伸表格时有个问题&#xff0c;当表格遇到跨页时&#xff0c;跨页后的第一行是不会像第一页打好的标题列显…

Springboot 多级缓存设计与实现

&#x1f3f7;️个人主页&#xff1a;牵着猫散步的鼠鼠 &#x1f3f7;️系列专栏&#xff1a;Java全栈-专栏 &#x1f3f7;️个人学习笔记&#xff0c;若有缺误&#xff0c;欢迎评论区指正 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&…

Arcgis实现点位空间位置从上到下从左到右排序

效果 背景 工作项目中经常会遇到需要对网格进行编号&#xff0c;而编号是有一定原则的&#xff0c;比如空间位置从上到下从左到右&#xff0c;或者其它原则&#xff0c;那么都可以通过下面的方式来实现 1、准备数据 点shp文件&#xff0c;查看初始FID字段标注&#xff0c;目…

雾锁王国Enshrouded服务器几核几G够用?

雾锁王国/Enshrouded服务器CPU内存配置如何选择&#xff1f;阿里云服务器网aliyunfuwuqi.com建议选择8核32G配置&#xff0c;支持4人玩家畅玩&#xff0c;自带10M公网带宽&#xff0c;1个月90元&#xff0c;3个月271元&#xff0c;幻兽帕鲁服务器申请页面 https://t.aliyun.com…

Scrapy与分布式开发(1.1):课程导学

Scrapy与分布式开发&#xff1a;从入门到精通&#xff0c;打造高效爬虫系统 课程大纲 在这个专栏中&#xff0c;我们将一起探索Scrapy框架的魅力&#xff0c;以及如何通过Scrapy-Redis实现分布式爬虫的开发。在本课程导学中&#xff0c;我们将为您简要介绍课程的学习目标、内容…

Element UI中 el-tree 组件 css 实现横向溢出滚动实现

限制 el-tree 的父容器宽度为 100px 之后 el-tree 组件内数据溢出后隐藏&#xff0c;不出现滚动条 、overflow 为 auto 也无效 overflow 无效是因为 el-tree 宽度 也是 100px 本来也就没有溢出 给 el-tree 添加样式 width: fit-content; min-width: -webkit-fill-available; …

代码随想录算法训练营第四天

● 自己看到题目的第一想法 24.两两交换链表中的节点 方法&#xff1a;虚拟头节点 思路&#xff1a; 设置虚拟头节点dummyhead 设置临时指针cur dummyhead; cur每次向前移动两步 循环条件&#xff1a; cur ! nullptr && cur->next ! nullptr && cur->…

【Java设计模式】四、适配器模式

文章目录 1、适配器模式2、举例 1、适配器模式 适配器模式Adapter Pattern&#xff0c;是做为两个不兼容的接口之间的桥梁目的是将一个类的接口转换成客户希望的另外一个接口适配器模式可以使得原本由于接口不兼容而不能一起工作的那些类可以一起工作 最后&#xff0c;适配器…

【软件测试】--功能测试3

一、用例执行 说明&#xff1a;执行结果与用例的期望结果不一致&#xff08;含义&#xff09;&#xff0c;为缺陷。 执行失败的用例 提示&#xff1a;用例执行不通过为缺陷&#xff0c;需要进行缺陷管理 二、缺陷 2.1 定义 软件中存在的各种问题&#xff0c;都为缺陷&#…