收藏本站
《湖南大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

面向特定领域的文本识别和分类

褚金正  
【摘要】:随着互联网的快速发展,越来越多的信息可以从网络上获得。但如何从大量的信息中抽取有用的信息仍然是一个问题。互联网上的信息大部分都是以文本方式存在的,文本的内容识别就构成了高效信息获取的基础。本文设计了一个面向特定领域的文本内容识别系统。该系统可以有效地将我们所需要的文本从大量的文本中分离出来。我们还可以把自动识别得到的文本进行更进一步细分,并对每一个文本生成一个摘要,这样就大大提高了信息获取的效率。 文本识别不但要考虑属于该领域的文本的内容特征,而且还要对不属于该领域的文本的内容特征进行研究。考虑不属于该领域的文本特征,可以有效地增加不同类文本特征模式之间的距离并优化其概率分布。文本表示方面采用近年来应用较多且效果较好的向量空间模型(VSM),给出了基于几何距离的可分性判据和基于后验概率的可分性判据。根据这些可分性判据,阐述了基于熵概念的特征提取方法和直接特征挑选法。 中文分词技术是文本识别的技术基础,也是近年来的研究热点。本文比较详细地介绍了分词的算法和步骤,并对多个分词算法的优劣进行了比较。阐述了分词中的难点。最后,在基于词典的分词算法的基础上,改进并给出了全词索引词典结构,大大提高了分词算法的速度。根据可分性判据,作者采用了直接次优搜索算法对初步特征进行提取和选择,还采用中文信息处理常用的标准TF-IDF公式进行特征提取和选择。 特征项权重的确定没有太多的理论基础,大多是根据训练样本库的统计知识和中文信息本身的语言特点来确定的。本文除了介绍了中文信息处理中的常用权重确定算法,还提出一种基于特征词语长度的权重确定方法。该方法主要基于较长的词语是由较短的词语或词根所组成这一特点而提出的。 本文以通信领域的文本识别为例,给出了文本识别的方法和整个过程。通过对文本的识别实验,验证了算法的有效性。本文还给出了文本的分类算法,并简要介绍了文本摘要的自动生成。
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 肖戎,唐朝京;获得前馈序列最大周期的一般方法[J];国防科技大学学报;1990年04期
2 朱高峰;关于通信发展的几个政策性问题[J];电信技术;1994年01期
3 黄永亨,曾秋江;冷库微机测控[J];计算技术与自动化;1995年03期
4 孙秀杰;电信技术进步的定量研究[J];长春邮电学院学报;1996年02期
5 邱才邦;;百强争辉鸿雁多,江西荣当领头雁——江西省通信学会被评为全国学会300强工科第一名[J];江西通信科技;1996年01期
6 世健;用于通信、成像和显示的16位DAC[J];世界电子元器件;1997年11期
7 ;抗洪前线保通信─—吉林省无委办抗洪保通信纪实[J];中国无线电管理;1998年05期
8 晓罗;我部新发布6项通信行标[J];电子标准化与质量;2000年05期
9 ;以色列电信2000——通信和信息展览会[J];现代通信;2000年08期
10 项立刚;我们应该承担起社会责任[J];通信世界;2002年25期
中国重要会议论文全文数据库 前10条
1 文学;;IP网络业务质量评估方法研究[A];2008年中国通信学会无线及移动通信委员会学术年会论文集[C];2008年
2 高伟新;张宏;;伺服电机控制器测试系统的设计与实现[A];科技创新与节能减排——吉林省第五届科学技术学术年会论文集(上册)[C];2008年
3 莫世禹;黄崇敬;;通信和控制系统的抗干扰设计技术[A];第六届全国电磁兼容性学术会议2004EMC论文集[C];2004年
4 李瑛;楼建东;;UWB接收机模板信号选择方法研究[A];探索创新交流--中国航空学会青年科技论坛文集[C];2004年
5 侯典来;;LC卡通信中断问题探讨[A];中国仪器仪表学会2005年学术年会测控技术与节能环保学术会议论文集[C];2005年
6 刘林海;;有线遥测中的避雷技术[A];地方水利技术的应用与实践(第3辑)[C];2005年
7 洪小明;;西门子6SE70系列变频器在电炉狗窝门控制中的应用[A];自动化技术与冶金流程节能减排——全国冶金自动化信息网2008年会论文集[C];2008年
8 王兆怀;;长江南浏VHF通信秩序现状及整治初探[A];中国航海学会内河港航监督专业委员会98年度学术交流论文集[C];1998年
9 冯梅;米玉华;姜联成;;CC-Link现场总线的通信初始化方法及应用[A];第二届全国信息与电子工程学术交流会暨第十三届四川省电子学会曙光分会学术年会论文集[C];2006年
10 崔宏魁;;综合自动化系统效率低下的改进措施[A];第二届全国延长铝电解槽使用寿命学术研讨会论文集[C];2007年
中国重要报纸全文数据库 前10条
1 Vicen;提高文本识别率“三板斧”[N];电脑报;2004年
2 本报记者 毛晓春;唤醒文明记忆 创新文化未来[N];中华新闻报;2007年
3 王宇;技术开拓市场文通推动OCR产业化[N];科技日报;2006年
4 ;扫描文字全攻略[N];中国电脑教育报;2003年
5 教科;清华大学多体蒙古文印刷文档识别平台通过鉴定[N];中国新闻出版报;2007年
6 钱丽花;统一平台的多民族文字文档识别系统研制成功[N];中国民族报;2007年
7 记者  赵凤华;少数民族文字识别系统研制成功[N];科技日报;2007年
8 李强;携手技术厂商 涉足数字教育[N];中国新闻出版报;2008年
9 技恒;如何挑选家用扫描仪[N];中国消费者报;2002年
10 ;“微步进驱动”还原真实[N];中国计算机报;2002年
中国博士学位论文全文数据库 前10条
1 吴锐;自然场景中文本识别技术研究及实现[D];哈尔滨工业大学;2010年
2 黄伟建;多Agent技术在供应链管理中的应用研究[D];天津大学;2004年
3 王有维;混沌保密通信理论及方法研究[D];吉林大学;2007年
4 丛伟;广域保护系统结构及故障判别算法研究[D];山东大学;2005年
5 吴锋涛;超宽带天线频域和时域算法理论与应用研究[D];国防科学技术大学;2007年
6 陈纯毅;无线光通信中的大气影响机理及抑制技术研究[D];长春理工大学;2009年
7 胡志刚;基于协同的并行设计环境理论与方法研究[D];中南大学;2002年
8 詹亚锋;通信信号自动制式识别及参数估计[D];清华大学;2004年
9 丁晓宁;面向CFD的交互式并行化技术研究[D];西北工业大学;2002年
10 廖泽友;高压输电线路电流纵差保护装置的研究[D];华北电力大学;2000年
中国硕士学位论文全文数据库 前10条
1 褚金正;面向特定领域的文本识别和分类[D];湖南大学;2005年
2 王晓敏;基于微通信元系统构架的路由器模型的设计与实现[D];电子科技大学;2004年
3 石文国;基于ARM的嵌入式Internet系统研究[D];西南交通大学;2005年
4 刘兵;低压电器监测保护装置的开发[D];郑州大学;2005年
5 杨瑞;基于Web Service的分布式信息集成发布系统[D];苏州大学;2004年
6 吴晓儒;智能化电源的过电压检测与防护技术研究[D];武汉大学;2005年
7 刘俊卿;矿用电动机智能综合保护装置的设计[D];中北大学;2006年
8 焦平平;多机器人通信与编队问题研究[D];北京交通大学;2008年
9 喻永成;智能医用通信及护理信息管理系统研究与开发[D];武汉理工大学;2003年
10 郭喜铎;通信小企业营销策略研究[D];电子科技大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026