有一点必须提到,美国专利局对DOCX档案的处理,跟我们一般操作不太相同。因为元数据(meta data),宏病毒(macro virus),不小心包括的隐私(privacy)等的考虑,他们不会笨笨的用 Microsoft Office 打开档案,而是直接就把 docx 文档用 xml parser 程序处理。
一个根据 ISO/IEC 29500 “
Strict”(Office Open XML,OOXML)规格制作出来的 docx 档案可以用 Nautilus 解压缩成数个 xml 档案,内容不必经过 Office 就可以 parse 出来,如下:
ryzen@L32:~/Documents$ unzip test.docx
Archive: test.docx
inflating: _rels/.rels
inflating: docProps/core.xml
inflating: docProps/app.xml
inflating: word/_rels/document.xml.rels
inflating: word/document.xml
inflating: word/styles.xml
inflating: word/fontTable.xml
inflating: word/settings.xml
inflating: [Content_Types].xml
如果我们期待别人读我们的 docx 档案时,其实(根据上面的考虑)LibreOffice 比 Microsoft office 更适合大家(最少包括律师事务所及国际性企业)。我在另帖提过(很可能是在 UbuntuKylin 论坛),2007~8时我们曾经与中国智权律师协会几位领导讨论,由 Sun Microsystems 主导,在北京中国政法大学成立一个基于 OpenOffice 的 OpenSolaris 实验室,主要卖点之一即使用 Office 时很容易不小心在最后储存时忘了把 meta data 跟 private data 除掉。以后有空再补充,不过如果有 LibreOffice 高手愿意先跟大家解释一下或反驳我的认知,非常欢迎。
另外,docx 的格式其实有两个版本,一个是上面所提 ISO 认定完全公开的严格版(“strict”),另外一个则是让微软保留部分的秘密(“transitional”)。LibreOffice 储存 docx 档案时,只能根据前者,因此,用 Office 或一般 xml parsing 程序来读不会有问题。但用 Office 制作出来的 docx 档案,因为根据的是 transitional 版本,其他的程序要读入时相容性就不一定有保证了。WPS 因为是私人的密闭软件,可以付一些权利金跟微软买一些非公开的 docx 秘密规格,因此跟 Office 相容性好一点,但也可能产生其他的问题。WPS 不在美国专利局公布的四种软件之内,出了问题,只能自己负责。
中国有一句俗话:”外行看热闹,行家看门道“。美国专利局这项专利申请提出时必须使用DOCX格式档案的新规定,其实对 LibreOffice 是有利的 (Advantage LibreOffice)。微软在提出 ooxml/docx 国际规格申请时留了一手(当时流言甚传说微软收买了ISO评审委员),的确占了很多便宜,但也显露了严重的缺点。一般人对办公室软件只是噼里啪啦拿来用,看不出来的。