当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 6 篇帖子 ] 
作者 内容
1 楼 
 文章标题 : 如何提取扫描件里面的文字?
帖子发表于 : 2011-01-08 14:54 

注册: 2009-06-13 19:17
帖子: 84
送出感谢: 0 次
接收感谢: 0 次
手头上有扫描的TIF图片,想把里面的文字提取出来,怎么办?
pdf里面的汉字可以提取么?


页首
 用户资料  
 
2 楼 
 文章标题 : Re: 如何提取扫描件里面的文字?
帖子发表于 : 2011-01-08 15:54 
头像

注册: 2007-07-11 21:43
帖子: 3382
地址: 东江边
系统: archlinux
送出感谢: 15
接收感谢: 7
gImageReader:从PDF和图像文件中导出文字(Tesseract OCR图形界面版)

Tesseract是一个OCR引擎,它可以识别图形中的文字。但不带文档输出分析,没有输出格式和图形用户界面。

gImageReader可以从图像或PDF文件中导出文字。它支持列选择和部分文档的功能,也可以打开多页面的PDF或图像文件,支持所有的图形格式,能只转化选定区域的文字。

可选项:在UBUNTU 10.04和10.10中安装Tesseract OCR 3.0 SVN

尽管Tesseract OCR 3.0仍在开发中,但比现在的稳定版要好很多。而且这个PPA中还包括很多语言包,所以,尽管这是一个可选项,仍然强力推荐。

警告:安装完最新版Tesseract之后要马上禁用这个PPA源,因为它还包含一些很有风险的程序包。

添加PPA源并安装Tesseract OCR 3.0 SVN:

sudo add-apt-repository ppa:alex-p/notesalexp

sudo apt-get update

sudo apt-get install tesseract-ocr

这个源中还包含了一些其他的语言包,比如德文,法文之类的(可惜没有中文)。在新立得中搜索tesseract-ocr,找到你需要的语言包,安装即可。

现在,需要禁用这个PPA,按ALT + F2,输入:

gksu software-properties-gtk

然后,在“其它软件”选项卡中找到”http://ppa.launchpad.net/alex-p/notesalexp”这一行,去掉前面的勾或者直接删除它。

gImageReader

gImageReader既可以在LINUX中使用也可以在WINDOWS中使用。可以在这里下载(.deb, .rpm 或 .exe 文件都有)

安装之后,选择你想要转化成文本的PDF或图像,如果转化整个文件就点击”Recognize all”,如果不是,用鼠标选中你想转化的那一部分点击”Recognize selection”

如果PDF文件或图像文件对应的语言包尚未安装,gImageReader会自动探测语言。


_________________
我来了,我看见了,我征服了!
求勾搭,不管饭。


页首
 用户资料  
 
3 楼 
 文章标题 : Re: 如何提取扫描件里面的文字?
帖子发表于 : 2011-01-08 15:59 
头像

注册: 2008-04-26 12:41
帖子: 11000
送出感谢: 11
接收感谢: 38
momova 写道:
gImageReader:从PDF和图像文件中导出文字(Tesseract OCR图形界面版)

Tesseract是一个OCR引擎,它可以识别图形中的文字。但不带文档输出分析,没有输出格式和图形用户界面。

gImageReader可以从图像或PDF文件中导出文字。它支持列选择和部分文档的功能,也可以打开多页面的PDF或图像文件,支持所有的图形格式,能只转化选定区域的文字。

可选项:在UBUNTU 10.04和10.10中安装Tesseract OCR 3.0 SVN

尽管Tesseract OCR 3.0仍在开发中,但比现在的稳定版要好很多。而且这个PPA中还包括很多语言包,所以,尽管这是一个可选项,仍然强力推荐。

警告:安装完最新版Tesseract之后要马上禁用这个PPA源,因为它还包含一些很有风险的程序包。

添加PPA源并安装Tesseract OCR 3.0 SVN:

sudo add-apt-repository ppa:alex-p/notesalexp

sudo apt-get update

sudo apt-get install tesseract-ocr

这个源中还包含了一些其他的语言包,比如德文,法文之类的(可惜没有中文)。在新立得中搜索tesseract-ocr,找到你需要的语言包,安装即可。

现在,需要禁用这个PPA,按ALT + F2,输入:

gksu software-properties-gtk

然后,在“其它软件”选项卡中找到”http://ppa.launchpad.net/alex-p/notesalexp”这一行,去掉前面的勾或者直接删除它。

gImageReader

gImageReader既可以在LINUX中使用也可以在WINDOWS中使用。可以在这里下载(.deb, .rpm 或 .exe 文件都有)

安装之后,选择你想要转化成文本的PDF或图像,如果转化整个文件就点击”Recognize all”,如果不是,用鼠标选中你想转化的那一部分点击”Recognize selection”

如果PDF文件或图像文件对应的语言包尚未安装,gImageReader会自动探测语言。

:em11 :em11 :em11


_________________
[新手必读]wubi安装常见问题(FAQ)
[分享]装双系统的同学必看——Windows与Linux系统共享交换分区的方法
kde下唯美的暗黑内透主题(无需编译)
无穷老机上的Trinity Desktop Environment


页首
 用户资料  
 
4 楼 
 文章标题 : Re: 如何提取扫描件里面的文字?
帖子发表于 : 2011-11-27 0:08 

注册: 2011-02-04 14:08
帖子: 132
送出感谢: 4
接收感谢: 0 次
不行,我裝不3.0之後,新立得找不到,裝gimagereader時,提示還要裝tesseract-ocr,而他裝的新立得裡面的舊版。用aptitude也查不到新裝的3.0,但在命令界面下,可以運行。怎麼回事?


页首
 用户资料  
 
5 楼 
 文章标题 : Re: 如何提取扫描件里面的文字?
帖子发表于 : 2011-11-28 8:47 
头像

注册: 2010-07-15 13:31
帖子: 1401
送出感谢: 77
接收感谢: 23
:em11


_________________
Ubuntu 命令技巧: http://wiki.ubuntu.org.cn/index.php?title=UbuntuSkills&variant=zh-cn
Ubuntu 桌面指南: https://help.ubuntu.com//


页首
 用户资料  
 
6 楼 
 文章标题 : Re: 如何提取扫描件里面的文字?
帖子发表于 : 2011-11-28 10:16 
头像

注册: 2005-08-14 21:55
帖子: 58428
地址: 长沙
送出感谢: 4
接收感谢: 274
汉字的,别太认真。
英文的gocr都够了。
tesseract-ocr太复杂,不好用。


_________________
● 鸣学


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 6 篇帖子 ] 

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 3 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译