docx4j 是一个解压的docx包(docx本身是zip包)和解析WordprocessingML格式XML的Java库 。 最新版本的 docx4j 也支持PowerPoint pptx文件。
它类似于微软的.NET的OpenXML SDK。
docx4j 严重依赖 JAXB(一个Java JCP标准的XML绑定的)。 你可以认为 docx4j 是一个JAXB的实现和扩展
开放打包协议
OpenXML的WordprocessingML(docx)部分
OpenXML的Presentation ML (pptx) 部分
该库是为了用100%保真度来解析docx文件,支持所有2007 WordML。 我们会尽快为Word 2010添加支持。