凯发真人娱乐

python 如何提取ppt中所有文字的方法 -凯发真人娱乐

2024-01-04

这篇文章主要介绍“python 如何提取中所有文字的方法”,在日常操作中,相信很多人在python 如何提取ppt中所有文字的方法问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”python 如何提取ppt中所有文字的方法”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

我就废话不多说了,大家还是直接看代码吧~

# 导入pptx包
from pptx import presentation
prs = presentation(path_to_presentation)
text_runs = []
for slide in prs.slides:
 for shape in slide.shapes:
  if not shape.has_text_frame:
   continue
  for paragraph in shape.text_frame.paragraphs:
   for run in paragraph.runs:
    text_runs.append(run.text)

补充:使用 python-pptx-interface 将ppt转换成图片

▌00 简单方法

最简单的方法就是使用pptx的file中的saveas命令,将pptx文件另存为jpeg格式。

▲ 使用ppt的saveas将pptx存储为jpeg

注意,在最后一步的时候需要选择“所有幻灯片(a)”。

▲ 选择所有幻灯片

最后,pptx的每张幻灯片都以独立文件方式保存到文件中。x

这部分的内容可以参照: how to export powerpoint slides as jpg or other image formats 中的介绍。

▌01 使用python-pptx

1.简介

python-pptx是用于创建和更新pointpoint(pptx)文件的python库。

一种常用的场合就是从数据库内容生成一个客户定制的pointpoint文件,这个过程通过点击web应用上的连接完成。许多开发之 通过他们日常管理系统生成工程状态汇报ppt。它也可以用于批量生成ppt或者产品特性说明ppt。

python-ppt license:

the mit license (mit) 凯发真人娱乐 copyright © 2013 steve canny, https://github.com/scanny

python-pptx对应的官方网络网址: python-pptx https://python-pptx.readthedocs.io/en/latest/user/intro.html#

2.安装

使用pip进行安装:

pip install python-pptx

对于python要求: python2.7,3.3,3.4,3.6

依赖库:

python 2.6, 2.7, 3.3, 3.4, or 3.6
lxml
pillow
xlsxwriter (to use charting features)

▌02 测试

下面的例子来自于: get start 。

1. hello word

from pptx     import presentation
prs = presentation()
title_slide_layout = prs.slide_layouts[0]
slide = prs.slides.add_slide(title_slide_layout)
title = slide.shapes.title
subtitle = slide.placeholders[1]
title.text = 'hello world!'
subtitle.text = 'python-pptx was here.'
prs.save(r'd:\temp\test.pptx')
printf("\a")

2.add_textbox

from pptx import presentation
from pptx.util import inches, pt
prs = presentation()
blank_slide_layout = prs.slide_layouts[6]
slide = prs.slides.add_slide(blank_slide_layout)
left = top = width = height = inches(1)
txbox = slide.shapes.add_textbox(left, top, width, height)
tf = txbox.text_frame
tf.text = "this is text inside a textbox"
p = tf.add_paragraph()
p.text = "this is a second paragraph that's bold"
p.font.bold = true
p = tf.add_paragraph()
p.text = "this is a third paragraph that's big"
p.font.size = pt(40)
prs.save(r'd:\temp\test1.pptx')

▌03 输出jpeg

1.安装 python-pptx-interface

pip install python-pptx-interface

2.转换pptx

注意:转换生成的目录必须使用新的目录。否则就会出现:

folder d:\temp\pptimage already exists. set overwrite_folder=true, if you want to overwrite folder content.

from pptx_tools import utils
pptfile = r'd:\temp\如何搭建自己的电子实验室_20210102r10.pptx'
png_folder = r'd:\temp\pptimage'
utils.save_pptx_as_png(png_folder, pptfile, overwrite_folder=true)

生成后的ppt对应的pngimage。

▲ 生成后的pptx对应的png图片

※ 结论

将pptx转换成图片,可以便于后期将文件上载到csdn,或者用于dop文件的制作。

到此,关于“python 如何提取ppt中所有文字的方法”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注本站网站,小编会继续努力为大家带来更多实用的文章!

网站地图