【已解决】pdf转txt有不合理的断行,应该如何解决?
发表于 : 2021-11-12 18:04
最近想把英文版的 LibreOffice 电子表格《 Calc 7.0 指南》PDF文件上传到国内的谷歌文档翻译,
结果提示“超过10M”无法翻译,压缩图片文件6.3M能上传了,但等了半天的结果是断开服务器。
于是用 pdftotext 命令转换为 txt 文件,发现pdf转txt有不合理的断行,
似乎一句话不能超过一行,超长的英文句子在第二行被算作另一句了。
用网上的“在线pdf转txt”也是这样的结果,不知应该如何解决?
这个PDF英文原版地址:
https://documentation.libreoffice.org/a ... rGuide.pdf
【解决方法】
先用这个网站 https://www.alltoall.net/ 把PDF转为word格式,
(这网站不限文件大小,几百页的书籍也能转,很棒!)
然后用 LibreOffice 的 Writer 把 docx 转为 txt 就行了,段落句子很完整,没有不合理的强制断行。
结果提示“超过10M”无法翻译,压缩图片文件6.3M能上传了,但等了半天的结果是断开服务器。
于是用 pdftotext 命令转换为 txt 文件,发现pdf转txt有不合理的断行,
似乎一句话不能超过一行,超长的英文句子在第二行被算作另一句了。
用网上的“在线pdf转txt”也是这样的结果,不知应该如何解决?
这个PDF英文原版地址:
https://documentation.libreoffice.org/a ... rGuide.pdf
【解决方法】
先用这个网站 https://www.alltoall.net/ 把PDF转为word格式,
(这网站不限文件大小,几百页的书籍也能转,很棒!)
然后用 LibreOffice 的 Writer 把 docx 转为 txt 就行了,段落句子很完整,没有不合理的强制断行。