文档识别
科学名词
文档识别主要应用于学习工作等一些关于文档处理的办公领域,可以快速高效利用OCR技术对文案文档、证书、票据、病历、说明书、简历、合同等各类纸质文档进行识别,另外可以通过云端技术将识别后的内容以及图像上传到服务器进行备份储存,并具备方便的检索功能,可以使用户简单方便的找到备份的内容。
科学名词定义
原理
图像输入:读取不同图像格式文件的算法。
图像预处理:主要包括图像二值化,噪声去除,倾斜较正等算法。
版面分析:将文档图片分段落,分行的算法就叫版面分析算法。
字符切割:字符切割算法主要处理因字符粘连、断笔造成字符难以简单切割的问题。
字符特征提取:对字符图像提取多维的特征用于后面的特征匹配模式识别算法。
字符识别:将当前字符提取的特征向量与特征模板库进行模板粗分类和模板细匹配,识别出字符的算法。
版面恢复:识别原文档的排版,按原排版格式将识别结果输出到word或pdf等格式文档,叫做版面恢复算法。
后处理校正: 根据特定的语言上下文的关系,对识别结果进行较正的算法。
参考资料
最新修订时间:2023-07-19 14:24
目录
概述
科学名词定义
原理
参考资料