背景需求:
最近学校组织老师们学习“育婴员”高级,每周学习2题操作,所以我是把每个学习内容单独做在一个word文件里
上周8套保健操作学完了,需要整理,并将8份Word文件合并
第一步:doc装docx
合并时程序报错,我才发现这8份里面有的是docx,有的是doc,所以需要全部转成docx
'''doc转docx'''
import os
from win32com import client as wc
import time
# 注意:目录的格式必须写成双反斜杠
path="C:\\Users\\jg2yXRZ\\OneDrive\\桌面\\育婴师操作题目\\" # 使用绝对地址(可更改)
files=[]
for file in os.listdir(path):
# 找出文件中以.doc结尾并且不以~$开头的文件(~$是为了排除临时文件)
if file.endswith('.doc') and not file.startswith('~$'):
files.append(path+file)
for file in files:
word = wc.Dispatch("Word.Application")
print("已处理文件:"+files[0])
# 打开文件
doc = word.Documents.Open(files[0])
# 将文件另存为.docx
doc.SaveAs("{}x".format(files[0]), 12) # 12表示docx格式
doc.Close()
# 删除原doc文件
os.remove(files[0])
# 在files数组中删除第一个文件地址(已处理的文件地址)
del files[0]
word.Quit()
time.sleep(0.5) # 暂停0.5秒
第二步,word合并在一起
问了AI对话大师找了很多代码,测试很多次,发现合并后,原来每个word里面的红蓝字体都消失了……
现在是最后的结果
1、获取8份文件的路径
2、读取第一份01酒精擦浴,作为模板
然后把第2-8个文件内容复制到酒精擦浴内容的的后面
第3步:由于每份的字体、间距不同,所以最后合并版里面也需要整理统一格式
结果展示:
代码展示:
'''
目的:1.0育婴师操作题8套Word合并在一起,便于打印整理.
作者:阿夏(AI对话大师)
日期:2024年1月17日
'''
from docx import Document
import os
from docx.enum.text import WD_BREAK# 换页符号
from docx.enum.section import WD_SECTION
from docx.shared import Pt,Inches, Cm
# 指定要读取的文件夹路径
folder_path = r'C:\Users\jg2yXRZ\OneDrive\桌面\育婴师操作题目'
# 获取文件夹内所有文件名
file_names = os.listdir(folder_path)
# 拼接文件路径
doc_paths = [os.path.join(folder_path, file_name) for file_name in file_names]
# ['C:\\Users\\jg2yXRZ\\OneDrive\\桌面\\育婴师操作题目\\01酒精擦浴 - 副本.docx', 'C:\\Users\\jg2yXRZ\\OneDrive\\桌面\\育婴师操作题目\\01酒精擦浴.docx', 'C:\\Users\\jg2yXRZ\\OneDrive\\桌面\\育婴师操作题目\\02小儿发高热置冰袋降温.docx', 'C:\\Users\\jg2yXRZ\\OneDrive\\桌面\\育婴师操作题目\\03小儿在喂食时突然惊厥如何处理.docx', 'C:\\Users\\jg2yXRZ\\OneDrive\\桌面\\育婴师操作题目\\04怎样做晨检,怎样问简单病史,怎样处理.docx', 'C:\\Users\\jg2yXRZ\\OneDrive\\桌面\\育婴师操作题目\\05咽喉和气管异物急救方法.docx', 'C:\\Users\\jg2yXRZ\\OneDrive\\桌面\\育婴师操作题目\\06下肢股骨骨折的包扎.docx', 'C:\\Users\\jg2yXRZ\\OneDrive\\桌面\\育婴师操作题目\\07心脏按摩和人工呼吸操作.docx', 'C:\\Users\\jg2yXRZ\\OneDrive\\桌面\\育婴师操作题目\\08休克的急救处理程序.docx', 'C:\\Users\\jg2yXRZ\\OneDrive\\桌面\\育婴师操作题目\\模板.docx']
# 打开一个新的文档
merged_doc = Document(r'C:\Users\jg2yXRZ\OneDrive\桌面\育婴师操作题目\01酒精擦浴.docx')
# 要复制的多个Word文件列表
file_list = doc_paths
for file in file_list[1:]:
doc = Document(file)
# # 在每个文件内容之前插入分页符号
# if merged_doc.paragraphs:
# merged_doc.add_paragraph().add_run().add_break(WD_BREAK.PAGE)
# 复制文件的内容和格式到合并文档
for element in doc.element.body:
merged_doc.element.body.append(element)
merged_doc.save(r'C:\Users\jg2yXRZ\OneDrive\桌面\育婴师操作题目\20240117育婴师三级保健操作题8道(需要彩色打印).docx')
gs_doc = Document(r'C:\Users\jg2yXRZ\OneDrive\桌面\育婴师操作题目\20240117育婴师三级保健操作题8道(需要彩色打印).docx')
# 遍历文档中的所有段落和运行
for paragraph in gs_doc .paragraphs:
for run in paragraph.runs:
# 将字体改为宋体,字号改为20磅
run.font.name = '宋体'
run.font.size = Pt(12)
paragraph.paragraph_format.line_spacing = Pt(24)
# # 设置整个文档的页边距为1英寸
# section = gs_doc.sections[0]
# section.left_margin = Cm(1)
# section.right_margin =Cm(1)
# section.top_margin = Cm(1)
# section.bottom_margin = Cm(1)
gs_doc.save(r'C:\Users\jg2yXRZ\OneDrive\桌面\育婴师操作题目\20240117育婴师三级保健操作题8道(需要彩色打印).docx')
问题:
1、字体、字体大小、行距可以用代码设置,
2、但是页边距、分页符还是手动调整的。不方便。
3、手动另存为pdf
后续继续探索Word合并的格式保留问题、自动格式,自动转pdf