提取图片中的文字及工具软件下载软件

SEO新闻
昨天有位同学问我有没有办法能快速把 图片中的文字提取出来 ,一说这个就知道是在解决原创文章来源问题:)相信很多做 seo 的朋友都会遇到这个问题吧?于是我就想着把研...

昨天有位同学问我有没有办法能快速把图片中的文字提取出来,一说这个就知道是在解决原创文章来源问题:)相信很多做seo的朋友都会遇到这个问题吧?于是我就想着把研究心得写成文章跟大家分享一下。

要想知道如何提取图片中的文字,一定要先知道图片文字识别的原理,这其中有一个概念首先要提一下,那就是OCR,如果知道或听说过什么是OCR,想必你也不会很认真的看这篇文章了,因以下面所提到的方法,可能你已经在用,对吧?

什么是OCR

OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。

概念普及完毕,接下来我们就正式开工。

工具/软件

1、Microsoft OneNote 2010(microsoft office2010完整版自带,点击下载,796M)

2、ABBYY FineReader 11.102.519 中文版(228M,OCR文字识别软件免费下载,点击链接直接下载)

3、本文案例图片文件,是ZAC老师的《SEO实战密码》图片版中的其中三张,点击下载,351K

步骤/方法
方法1:用Microsoft OneNote 2010

第1步:下载安装office2010,已经安装成功的同学自行跳过,如果连安装都不会,不用继续往下看了。

第2步:打开Microsoft OneNote 2010,新建一个笔记本,如下图所示:


第3步:下载上面提到的本文案例图片文件,打开一张,用QQ截图截取你要提取文字的部分,粘贴到OneNote中,然后在图片上面点右键,选择“复制图片中的文本”。

第4步:打开记事本(强烈建议用notepad++替换系统自带的记事本!)这样就顺利提取到图片中的文字了!

总结

使用Microsoft OneNote提取图片中的文字这个办法简单好用,速度也快,如果你需要识别的图片不多的话,用起来非常顺手。然而它的不足也是显而易见的,我总结下来有以下3点:

1、识别率有待提高;

2、对大篇幅的英文认识不好,中间几乎没有空格,完全没办法阅读;

3、如果待识别的图片达大或者文字过多的话,会出现提取不到图片上的文本的问题。

为了解决以上问题,我又另找了一个功能强大的软件,很好的解决了这些问题。这就是我接下来要讲到的ABBYY FineReader。

方法2:用ABBYY FineReader

ABBYY FineReader是一款真正的专业OCR,它不仅支持多国文字,还支持彩色文件识别、自动保留原稿插图和排版格式以及后台批处理识别功能,能够直接在 MS Word、MS Excel、WordPerfect 及 Word Pro 中扫描和读取文件、信件或各类表格,并且能存成 RTF、TXT、DOC、CSV、XLS 或 HTML 等格式。它能保持表格与图片中原始的多栏页面设计。FineReader Professional 在识别方面支持 ADF (自动进纸)扫描仪,批处理,拼音检查,强大的表格工具,多语言文件,背景运算和学习新的字体。它也完全支持 TWAIN 扫描仪。ABBYY 是世界文档识别、数据捕获和语言软件技术开发商的领航者。其获奖产品 FineReader OCR 软件可以把静态纸文件和 PDF 文件转换成可编辑可管理的电子文档形式,可以大大节省您的时间和精力。

关于这个软件的使用问题,我想大家应该是会安装就会用,我觉得我最大的作用是给大家找到这个好用的工具而已。为了找到一个靠谱的图片文字提取软件,我安装测试了不下10款,这一款是功能最为强大的!

其他提取图片中的文字软件介绍

1、慧眼图像文字识别软件:骗人的,坑爹的货

我是在这篇文章中看到这个软件的,基本上可以判断为是有人故意发的软文了,引导我们去搜索这个软件,基本能找到的地址不是病毒就是需要购买,购买链接打开还是过期的,特别坑爹。其实这个软件就是下面第3个软件(文通慧视)的人为修改版本。

2、尚书七号:国产老牌的OCR软件,在没有找到ABBYY FineReader之前,一直用它。

1
联系我们