摘要:手写汉字识别属于大类别(或者称超多类)方式识别不足,汉字识别涉及到图像处理、人工智能、形式语言和自动机等学科,是一门综合性的技术。汉字识别需要一定规模的样本对核心算法进行训练,这些样本数据称之为基础数据(样本数据库),有了汉字样本库,才能对各种识别策略进行比较统一的、客观的评价。而且实验数据的好坏直接影响到识别系统性能的优劣,所以建立一个大规模有广泛代表性的数据库不仅是开展手写汉字识别探讨的前提和基础,还有助于引导识别系统做得更加改善。然而,与手写识别算法相比,手写识别数据库的进展相对缓慢,目前我们能够利用的汉字手写识别数据很有限,而且数据库的存储格式各不相同,早期的数据库还有着样本类型单一,样本数量不足、样本缺乏无约束性等。本论文采取的是华南理工大学HCII实验室开发的大规模、联机、无约束的SCUT gPen数据库。通过对网络采集到的gPen数据库进行整理、统计并对整理后的数据进行了大量的比较实验,以而达到提升识别系统的适应性、稳定性和识别率的目标。本论文主要完成的工作,及革新点包括:(1)主要完成了对SCUT gPen数据库第一期简体数据库的整理工作。首先介绍了本论文gPen数据库的来源以及特点,并根据gPen数据库的特点,制定了详细、可行的整理对策。通过对工作量的浅析和统计,确定人员数量,工作量的分配,时间的安排,整理标准以及检查验收,合并数据,进行实验。具体步骤是:先机器识别,然后分类(首选字、候选前10、候选10以后的字),分工进行人工手动整理,合并整理好的数据,进行比较实验。(2)对gPen数据进行大量的基础性统计工作,浅析了gPen数据库的样本特点,例如:gPen数据库样本的分布特点;数据库样本的笔画数分布特点等;以及对整理中出现的七种不同的样本类型的统计,通过对不同类型的数据库样本的抓图,更加直观的说明了数据库的大规模、多样性和无约束的特点,同时说明了整理工作的复杂程度和整理工作的必要性。(3)通过对整理过的gPen数据库进行整体测试,并分别以四个方面进行比较实验。经过具体的实验充分证明了gPen数据库具有数据样本丰富、用户数量大、书写个性化强(无约束性)等特点,同时系统识别率得到大幅提升;充分说明了SCUT gPen数据库具备了一个标准的、良好的手写汉字数据库的重要特性,并且作为一种联机手写汉字识别数据库还具有很好的实验、测试价值。关键词:联机汉字识别论文汉字样本库论文样本整理论文统计论文实验浅析论文
摘要5-7
Abstract7-11
插图清单11-13
表格清单13-14
第一章 绪论14-17
1.1 探讨背景和进展近况14-15
1.2 探讨目的和作用15-16
1.3 探讨的主要内容16-17
第二章 联机手写汉字识别策略及探讨17-28
2.1 探讨汉字识别的目的和作用17-18
2.2 联机手写汉字识别的特点和难点:18-20
2.3 汉字识别的基本原理20-27
2.3.1 预处理技术20-21
2.3.2 特点提取——8 方向特点提取21-24
2.3.3 特点选择——LDA24-25
2.3.4 识别分类——MQDF25-27
2.4 本章小结27-28
第三章 SCUT GPEN 数据库介绍及数据整理工作28-35
3.1 SCUT gPen 数据库介绍28-29
3.2 SCUT gPen 总体架构29-31
3.3 gPenDataCleanUp 软件及利用策略介绍31-32
3.4 gPen 数据库整理算法32-33
3.5 置信度的基本原理33-34
3.6 本章小结34-35
第四章 SCUT GPEN 数据库统计浅析35-42
4.1 gPen 数据样本在 GB1 和 GB2 上的分布35
4.2 gPen 数据样本在 GB1 子集的两个等级分布35-36
4.3 gPen 数据样本的笔画分布36-39
4.4 整理历程中几种样本的统计39-41
4.5 本章小结41-42
第五章 实验浅析与结果42-51
5.1 gPen 数据库训练的测试结果42-43
5.2 其他数据库训练的测试结果43-44
5.3 具体类别的测试与浅析44-47
5.3.1 书写频率最高的前 20 个字符的识别率44-45
5.3.2 识别率最低的 20 个字符统计45
5.3.3 实验结果浅析45-47
5.4 特定用户的测试与增量学习47-49
5.5 本章小结49-51
第六章 总结与展望51-53