python docx文档转html页面
说到word文档转html的,网上一搜一大把,各种在线word转html页面,使用起来也方便。但是在实际项目中要使用的话,需要自己开发,这里就提供一个简单的方法。
后缀 .doc 和 .docx 都是word文档,doc是word2003以及之前版本保存的文档,docx是word2007、word2010等保存的新型文档,本质都是属于文字排版的文件。注意 这里提供的方法暂时是针对docx的。
这里使用pydocx
的库,安装pip3 install pydocx
,可以直接对docx文件进行处理,简单粗暴,PyDocX.to_html("**.docx")
,返回值就是转换后的html的源码,然后再通过写文件,写到html文件里面。
from pydocx import PyDocX html = PyDocX.to_html("test.docx") f = open("test.html", 'w', encoding="utf-8") f.write(html) f.close()
这里对文件的处理都是当前文件夹下面的,得到的html文件可以直接打开查看,通过对html查看,可以发现文字转换成了P标签,图片使用base64 的方式显示的。
这里是对本地的文件进行处理,进一步部署到服务器上,我使用的是Django的项目,前端页面通过form 表单进行上传docx 文件。
<form method="post" enctype="multipart/form-data"> <input type="file" name="file" accept="application/vnd.openxmlformats-officedocument.wordprocessingml.document"> </form>
<input>
type属性定为file,accept="application/vnd.openxmlformats-officedocument.wordprocessingml.document"
筛选docx 的文件。
使用地址:https://www.manjiexiang.cn/blog/wordtohtml
这里上传的文件是docx格式的word文档,针对doc 的文档,可以手动改成docx后缀名,进行上传使用。 尝试用代码转换成docx,window平台下有相应的库,ubantu 暂时无果,欢迎码友提供解决方法。
介绍下window平台下的代码转换方法,pip3 install pypiwin32
安装这个库,里面有win32com,将doc文档转成docx 的。
from win32com import client word = client.Dispatch("Word.Application") doc = word.Documents.Open("D:\\***\\**.doc") //绝对路径 doc文件 doc.SaveAs("D:\\***\\**.docx",16) //保存的docx 文件,绝对路径 doc.Close() word.Quit()
欢迎关注我的个人博客:https://www.manjiexiang.cn/
更多精彩欢迎关注微信号:春风十里不如认识你
一起学习,一起进步,欢迎上车,有问题随时联系,一起解决!!!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
JavaScript学习(十三)---RegExp对象
目录 创建RegExp对象 1.使用RegExp的显式构造函数 2.使用RegExp的隐式构造函数,采用纯文本格式 RegExp对象的属性 静态属性: index属性: input属性: lastIndex属性: lastMath属性: lastParen属性: leftContext属性: rightContext属性: $1...$9属性: 实例属性: global属性: ignoreCase属性: multiline属性: source属性: RegExp对象的方法 1.exec()方法 语法:rgExp.exec(str) rgExp: str: 例子: 2.test()方法 语法:rgexp.test(str) 例子: 创建RegExp对象 每一条正则表达式模式对应一个RegExp实例,有两种方式可以创建RegExp对象的实例。 1.使用RegExp的显式构造函数 语法:newRegExp("pattern"[,"flags"]) //即newRegExp(" 模式 "[," 标记 "]) 2.使用RegExp的隐式构造函数,采用纯文本格式 语法:/pattern/[fl...
- 下一篇
AspectJ在Spring中的使用
在上一篇AspectJ的入门中,简单的介绍了下AspectJ的使用,主要是以AspectJ的example作为例子。介绍完后也留下了几个问题:1)我们在spring中并没有看到需要aspectj之类的关键词,而是使用java代码就可以了,这是如何做到的2)Spring中如何做到不使用特殊的编译器实现aop的(AspectJ如何在运行期使用)3)Spring源码中与aspectJ 相关的AjType究竟是啥? 这篇文章会继续试着解决这几个问题。 aspectJ的几种织入方式 compile-time、post-compile 和 load-time Weavers 首先了解下AspectJ的几种织入方式,分别是compile-time、post-compile 和 load-time,分别对应着编译期、后编译期、加载期织入 编译期织入 首先是编译期织入,上一篇博客所介绍的方式就是使用的编译期织入。很容易理解,普通的java源码 + aspectJ特殊语法的‘配置’ 文件 + aspectJ特殊的编译器,编译时候生成已织入后的.class文件,运行时直接运行即可。 后编译期织入 后编译期织...
相关文章
文章评论
共有0条评论来说两句吧...