TH-OCR文字识别系统介绍
一.TH-OCR
TH-OCR是英文Optical Character Recognition的缩写,意思为光学字符识别,通称为文字识别,它的工作原理为通过扫描仪或数码相机等光学输入设备获取纸张上的文字图片信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,由此可以看出,OCR实际上是让计算机认字,实现文字自动输入。它是一种快捷、省力、高效的文字输入方法。
TH-OCR的突出特点:
◇ 汉英双语同时混排,识别率最高,居世界领先水平。
◇ 可以识别黑白、灰度、彩色图像,可以读取多种图像格式。
◇ 首创对识别结果进行电子文档版面复原功能,所见即所得。
◇ 首创日文、韩文、日英混排、韩英混排识别功能,识别率98%以上。
TH-OCR的几大优势:
1. 是唯一可以识别2万多汉字的多体文字识别系统,汉字识别国内最优。
2. 汉字和英文混排、日文和英文混排、韩文和英文混排同时识别。
3. 汉字识别率最高。文通TH-OCR经过"863"智能专家组对数十万字的指标评测和中国软件评测中心对产品的严格测试,识别正确率超过99.5%,代表了目前印刷体文字识别的最高水平。
4. 支持多种环境接口。文通TH-OCR支持WINDOWS环境和GB、BIG5、GBK、JIS、 SHIFT-JIS和KSC等多种内码,可以用于 WINDOWS NT和WINDOWS 98/2000/XP,适合全球各个地区使用。TH-OCR还具有自学习功能,不论什么生僻字,都可以通过键盘输入进行学习,大大拓宽了OCR系统的识别字符集。
二.汉王OCR文本王
汉王文本王。汉王文本王是汉王公司采用最新的印刷体字符识别技术,集成文本阅读校对开发的一套高效输入、快捷办公的精品软件系统。汉王文本王识别率高,识别速度快,并且为用户定制了多种简捷的工作模式:自动、单步智能工作模式和专业批量工作模式自由选择。相信会成为您办公的好助手。
技术指标:
● 识别字符:
简体字符集:国标GB2312-80的全部一、二级汉字6800多个。
纯英文字符集。
简繁字集:除了简体汉字外,还可以混识台湾繁体字5400多个以及香港繁体字。
● 识别字体种类:
能识别宋体、仿宋、楷、黑、魏碑、隶书、圆体、行楷等一百多种字体,并支持多种字体混排。
● 识别字号:
初号——小六号字体。
● 表格识别:
可以自动判断、识别各种通用型印刷体表格。电子表格还原准确精美,输出的电子表格可随意编辑。
● 正确识别率:
一般的识别条件下,对印刷体文稿都能达到很高的识别正确率。
● 识别速度:
在PII-233计算机上,印刷文稿识别速度达120字/秒。
产品特点:
1.智能识别,准确无误:全智能化识别核心,识别速度快,识别效率高
2.一键扫入,WORD输出:用户操作简单快捷,与WORD无缝连接,只需轻松按下一键,文档自动输出到WORD
3.多种模式,任君选择:用户可根据工作需要或个人习惯选择自动、单步智能工作模式或专业批量工作模式
4.复杂版面,自动分析:智能分析各种中、英、繁、表、图混排格式的文本,无需过多人工干预
5.表格输入,轻松实现:多样化的表格判识,完美精确的表格还原,瞬间即可转化成为可任意编辑的电子表格
6.批量输入,快速高效:大批量的文件扫描,全自动化的文字识别,速度快,效率更高
7.版面还原,原文重现:精确保留了原版面格式,准确恢复文本原貌
8.文件保存,多种格式:识别完的文档可以保存为多种格式(PDF、HTML、RTF、XLS、TXT)的文件,方便实用
9.工程管理,更加轻松:工程文件方便管理,工作进度随时保存,打开工程文件即可继续工作
10.文本朗读、翻译,省时省力:汉王阅读小精灵,避免眼睛疲劳,让您随心所欲听;翻译软件助您跨越语言障碍
- 12位串行A/D转换器MAX187的应用(10-06)
- AGC中频放大器设计(下)(10-07)
- 低功耗、3V工作电压、精度0.05% 的A/D变换器(10-09)
- PIC16C5X单片机睡眠状态的键唤醒方法(11-16)
- 用简化方法对高可用性系统中的电源进行数字化管理(10-02)
- 利用GM6801实现智能快速充电器设计(11-20)