Ubuntu中文论坛

发表于： **2008-01-18 21:09**

用Evince看文档，并不是所有的文档中的文字都能拷贝出来的。有时候看比较早期的英文文献，是扫描版本，而且没有OCR的，要做个笔记，引用其中的内容还要手动输入。想偷下懒，用OCR软件来识别，直接拷贝。

这个脚本是用 tesseract OCR 来实现识别的。首先用 import （ImageMagick包提供的命令），通过鼠标选取需要识别的英文文字块，得到图片；然后用 tesseract （tesseract-ocr）来识别，得到文本文件；最后调用文本编辑器显示识别的文字，这里用的 gvim，也可以改成自己喜欢的编辑器程序。

要正常使用这个脚本，系统路径中要能找到以下几个程序：
import
tesseract
gvim
自己查找相关的包安装就可以了。这里抓图程序、OCR程序、显示文本程序都可以替换成自己喜欢的。

具体使用，我是在面板上创建了个启动器。要使用的时候，点一下启动器，等3秒（编译切换到需要选取的界面），出现十字鼠标，选取相应的图片文字部分，大概2秒后就有识别的文字在编辑器窗口显示出来了。

注意，临时文件默认存放在
/tmp/OCRs/
下面，如果没有写权限，可以改下路径。

这样的脚本方便阅读的时候记笔记。不过，还不支持中文的OCR识别。
[/code]

发表于： **2008-01-18 21:22**

顶！！！如果有能识别中文的版本就完美了

发表于： **2008-01-18 21:58**

中文的才是正道。

发表于： **2008-11-15 9:01**

急切需要一个能在ubuntu下识别中文的识别软件，期待中。。。

发表于： **2008-11-15 10:31**

不支持中文的有什么用？我还老看外国扫描版本不成？

发表于： **2008-11-15 19:24**

识别中文，现在可以这样。
OCR识别是将图片中的文字转化为可以编辑的文本，在写书时很有用。
LINUX下的英文OCR识别软件已经很好用了，但是中文OCR尚不成熟，现在提供一种在龙芯下OCR中文的解决办法——利用网络OCR识别。
1、登录网站http://www.netocr.com
2、注册用户
3、上传图片
4、得到识别结果
图像一般由扫描得到，扫描分辨率越高，识别效果越好，但图像也就越大，上传较慢。尽量存成tif格式，图像较小。另外也支持bmp, jpg格式。其他格式暂不支持。

发表于： **2009-08-07 2:26**

wine 个尚书七号？

发表于： **2009-08-07 5:25**

yinliang108 写了：不支持中文的有什么用？我还老看外国扫描版本不成？

然

发表于： **2009-08-07 8:53**

很早就试过。中文的，都做梦去。

发表于： **2009-08-07 13:49**

中文抄英文，好好学英文。

发表于： **2009-08-08 14:14**

可以wine尚书7号，wine汉王也可以，其他的ocr我就没试过了

Ubuntu中文论坛

桌面OCR脚本------实现图片文字的拷贝

桌面OCR脚本------实现图片文字的拷贝

Re: 桌面OCR脚本------实现图片文字的拷贝

Re: 桌面OCR脚本------实现图片文字的拷贝

Re: 桌面OCR脚本------实现图片文字的拷贝

Re: 桌面OCR脚本------实现图片文字的拷贝

Re: 桌面OCR脚本------实现图片文字的拷贝

Re: 桌面OCR脚本------实现图片文字的拷贝

Re: 桌面OCR脚本------实现图片文字的拷贝

Re: 桌面OCR脚本------实现图片文字的拷贝