收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于局部特征的场景文本分析方法研究

张博宇  
【摘要】:图像中的文本包含大量有价值的信息,是智能控制系统和信息检索系统的重要处理对象。手机等便携式图像采集设备的普及使图像和视频数据的数量高速增长。利用计算机代替人来处理、识别和理解图像中文本信息的需求越来越强烈。现有技术条件下,计算机识别和理解图像中文本信息的能力仍然难以满足实际应用的要求,有效地分析和提取图像中文本信息,尤其是场景图像中文本的分析技术是当前急需解决的技术难题。局部特征具有位移、尺度、旋转乃至仿射不变等优良特性,基于局部特征的方法能够在很大程度上克服场景图像中不利因素的影响,有必要对局部特征方法在场景文本分析技术的应用进行系统化的研究。本文的研究工作着眼于利用局部特征的特性来提高场景文本分析方法的性能,对不同条件下基于局部特征的场景文本分析方法进行了系统化的研究。本文针对视频中字幕文本的分析与处理问题,提出一种基于宽进严出的策略的视频文本检测方法。该方法针对视频帧中存在多种不同尺度的文本内容的情况,通过在多个尺度上进行基于局部特征的文本区域检测来提高系统的召回率。在此基础上,本文提出一种基于笔划宽度特征的文本区域鉴别方法,引入候选区域内部笔划宽度的分布信息来提高文本区域鉴别的准确率。由于笔划宽度提取过程中存在未知的极性参数,本文提出一种半监督多示例学习算法,该方法能够在监督信息不完整的情况下获取有效的文本区域分类器,从而更准确地剔除候选区域中的非文本内容。实验表明上述方法具有较快的运行效率和较高的召回率,准确率也达到较高水平。场景字符具有类别多,类内差异大的特点。传统的OCR方法难以在场景字符识别任务中取得理想的效果。本文对场景字符的识别问题进行研究,提出一种基于集成学习和模型压缩的场景字符分类方法。集成学习方法能够显著地提高分类器的泛化能力,但集成分类器往往速度较慢,占用空间较多。为了解决这一问题,本文提出基于边界样本和局部分类器的模型压缩方法,该方法能够显著地减少需要的伪样本数量,高效地将集成分类器压缩为更简洁的压缩分类器。此外,本文提出一种基于局部特征和时空直方图的字符特征。实验结果证明上述两种方法的结合能够显著地提高场景字符识别的准确率。受到图像质量和现有技术水平的限制,部分场景文本难以被准确地分割成独立的字符。本文针对这一现象提出了一种基于词图像的文本分析方法。该方法以词图像作为文本分析的最小单位,在视觉词袋模型的基础上,利用随机森林投影方法对局部特征进行编码并计算词图像的的特征矢量。在训练随机森林的过程中,该方法采用无监督的方式,解决了场景图像词图像样本收集困难的问题。该方法具有快速性的特点,并且能够有效地描述词图像,具有良好的可靠性。词图像无监督聚类实验的结果证明了基于词图像的场景文本分析方法的可行性。在复杂场景图像中,文本区域检测往往难以得到精确的结果,导致整个场景文本分析系统的性能下降。本文提出了基于Constellation字符模型的文本分析方法。该模型用局部特征的集合描述整个字符,使用概率模型对局部特征的表观信息以及位置关系建模,进而计算字符出现的概率。与基于全局特征的方法相比,Constellation字符模型更加灵活,能够更有效地处理复杂场景图像中的文本内容。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期
2 蒋志方;祝翠玲;吴强;;一个对不带类别标记文本进行分类的方法[J];计算机工程;2007年12期
3 赵钢;;从复杂文本中导入数据的方法[J];中国审计;2007年18期
4 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期
5 李建中,杨艳,张艳秋;并行文本管理原型系统PDoc的功能与总体框架[J];哈尔滨工业大学学报;2004年09期
6 覃晓;元昌安;彭昱忠;丁超;;基于基因表达式编程的Web文本分类研究[J];网络安全技术与应用;2009年03期
7 谌志群;;文本趋势挖掘综述[J];情报科学;2010年02期
8 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期
9 江伟;潘昊;;基于优化的多核学习方法的Web文本分类的研究[J];计算机技术与发展;2013年10期
10 陈福海;C++中用>>和<<重载实现文本文件的方便存取[J];现代计算机;1997年05期
11 孟志青;楼婷渊;胡强;;多粒度时间文本数据的周期模式挖掘算法[J];计算机科学;2013年S2期
12 靳小波;;文本分类综述[J];自动化博览;2006年S1期
13 唐亮;段建国;许洪波;梁玲;;基于信息论的文本分类模型[J];计算机工程与设计;2008年24期
14 施化吉;王贤川;李星毅;;基于规则重构的关联文本分类[J];计算机工程与设计;2009年03期
15 刘伍颖;王挺;;适于垃圾文本流过滤的条件概率集成方法[J];计算机科学与探索;2010年05期
16 张征杰;王自强;;文本分类及算法综述[J];电脑知识与技术;2012年04期
17 彭其华;;关联挖掘下的海量文本信息深入挖掘实现[J];微电子学与计算机;2013年10期
18 汪明霓;BASIC文本系统[J];计算机应用研究;1988年01期
19 王东兴,冷惠文;大量编程用文本数据的统一处理[J];鞍山钢铁学院学报;1997年06期
20 周鹏;数据库中不规范文本文件的数据转换[J];电脑编程技巧与维护;2005年05期
中国重要会议论文全文数据库 前10条
1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年
2 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年
3 郑立洲;短文本信息抽取若干技术研究[D];中国科学技术大学;2016年
4 韩磊;汉语句义结构模型分析及其文本表示方法研究[D];北京理工大学;2016年
5 刘林;面向论坛文本的大学生情绪识别研究[D];华中师范大学;2016年
6 张博宇;基于局部特征的场景文本分析方法研究[D];哈尔滨工业大学;2015年
7 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
8 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
9 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
10 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 王轶霞;基于半监督递归自编码的情感分类研究[D];内蒙古大学;2015年
2 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年
3 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年
4 董秦涛;基于文本的个人情感状态分析研究[D];兰州大学;2015年
5 钟文波;搜索引擎中关键词分类方法评估及推荐应用[D];华南理工大学;2015年
6 黄晨;基于新词识别和时间跨度的微博热点研究[D];上海交通大学;2015年
7 陈红阳;中文微博话题发现技术研究[D];重庆理工大学;2015年
8 王珺瑶;面向微博文本的分类技术应用研究[D];广西大学;2015年
9 梅荣月;基于集成方法的文本蕴涵识别[D];北京理工大学;2015年
10 木回提;哈萨克语文本分类系统的设计与实现[D];电子科技大学;2014年
中国重要报纸全文数据库 前1条
1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978