收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于统计的NLP技术在中文信息检索中的应用研究

孙越恒  
【摘要】:中文信息检索是信息检索领域的一个重要分支。尽管中文信息检索的技术和研究已经取得了相当多的成果,但目前中文信息检索的效果却并不乐观。本文就中文信息检索的几个主要问题,在NLP技术的基础上,利用统计学和代数学方法,从词语层和文档层对信息检索中文档和文档集的处理方法进行了深入研究。 本文首先从理论上对中文信息检索索引单位的选择做了详细分析,改进了传统的最大匹配分词算法,一定程度上解决了切分歧义的问题,同时在改进算法中引入了一种基于统计的窗口移动扩展方法,简单而有效地改善了未登录词的识别问题。 信息抽取已成为制约信息检索性能的一个瓶颈,而关键词提取则是信息抽取的一个重要环节。本文针对中文,实现了基于χ2统计的单文档关键词提取算法,其主要基础是词与词之间的共现次数的统计,并使用χ2统计量来衡量两个词语之间的关联。同时改进了传统的KEA算法,扩展了标示关键词的特征,实现了基于朴素贝叶斯理论的中文多文档关键词提取模型。 文本分类是对信息检索中的文档集进行组织的一项关键技术。本文首先对文本分类算法进行了研究,探讨了文本特征抽取方法,其中综合考虑了频度、分散度和集中度三项指标,设计并实现了一种新的特征抽取算法,使得选出的特征项整体优化。另外,提出了一种基于向量空间模型的词共现模型,并将通过该模型统计出的共现词信息应用于文本分类研究中。上述技术都在一定程度上提高了文本分类系统的性能。最后,本文把分类技术应用到了信息检索中的用户查询歧义消除方面,实现了一个分类检索系统,使用户可以快速获取自己真正需要的信息。 针对高维词-文档矩阵所造成的高存储空间和运算时间开销,本文将线性(LSI)和非线性(Isomap、SIE)维数约减算法引入到高维文档数据的降维处理中,并在文档聚类方面对三种算法处理后的数据进行了性能比较。实验结果表明,采用了局部嵌入技术的SIE算法取得了与LSI相当的性能,优于全局优化的Isomap算法,并且降维处理时的运算复杂度也大大降低。 最后,本文实现了基于N层向量空间模型的Windows上的信息检索系统。该系统对Web文档采用了一种分层处理机制,重点改进了Web文档中的关键信息的权重计算。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 ;统计学[J];全国新书目;2005年14期
2 ;作者书写统计学符号须知[J];肝胆外科杂志;1999年06期
3 本刊编辑部;论文中计量单位和统计学符号的用法[J];中国医学科学院学报;2001年05期
4 ;作者书写统计学符号须知[J];右江医学;2001年03期
5 曹桂宏,何丕廉,吴光远,聂颂;中文分词对中文信息检索系统性能的影响[J];计算机工程与应用;2003年19期
6 本刊编辑部;论文中计量单位和统计学符号的用法[J];中国医学科学院学报;2003年05期
7 周英智;医学论文中常见统计学问题分析[J];科技与出版;2003年03期
8 本刊编辑部;作者书写统计学符号须知[J];泰山医学院学报;2003年04期
9 本刊编辑部;作者书写统计学符号须知[J];河南预防医学杂志;2004年01期
10 阮志鹏;采用Excel软件计算半数致死量[J];河北医科大学学报;2005年04期
11 龙草芳;辛玲;;数据挖掘与统计方法[J];电脑知识与技术;2010年28期
12 龚著琳;陈瑛;苏懿;刘雅琴;徐立钧;;数据挖掘在生物医学数据分析中的应用[J];上海交通大学学报(医学版);2010年11期
13 ;本刊使用的统计学符号[J];中国冶金工业医学杂志;1996年01期
14 本刊编辑部;作者书写统计学符号须知[J];成都医药;1999年01期
15 ;本刊对统计学符号的要求[J];中国普外基础与临床杂志;2004年05期
16 张丽君;黄文涌;;2000-2007年《贵阳医学院学报》出版时滞统计分析[J];贵阳医学院学报;2008年02期
17 ;《第二军医大学学报》增加统计学审稿程序[J];第二军医大学学报;1999年05期
18 ;关于正确使用统计学符号的通知[J];北京中医药大学学报;2001年02期
19 本刊编辑部;作者书写统计学符号须知[J];滨州医学院学报;2004年06期
20 鲁立;傅万明;李风华;施璐霞;王慧琳;;医学论文统计学问题的编辑审查[J];编辑学报;2006年05期
中国重要会议论文全文数据库 前10条
1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
2 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 ;投稿须知:统计学[A];中华中医药学会老年神经病专题学术研讨会论文专辑[C];2006年
6 潘娥;;统计学案例教学初探[A];农业教育与农村改革发展——云南省农业教育研究会2007年学术年会论文汇编[C];2007年
7 潘宝骏;方林;;学术论文中若干统计学问题的编审[A];新世纪预防医学面临的挑战——中华预防医学会首届学术年会论文摘要集[C];2002年
8 彭辉;翟翔;;AutoCAD 2008自动翻译软件研发[A];全国冶金自动化信息网2010年年会论文集[C];2010年
9 赵海;揭春雨;;基于子串标注的中文分词:寻找更佳的标注单元[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 王屹林;朱慕华;朱靖波;;针对SVM中文分词特性的个性化后处理设计[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
2 鲁美君;基于古今医案数据分析的外感热病证治规律研究[D];黑龙江中医药大学;2008年
3 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
4 宋咏梅;失眠证方药证治规律研究[D];山东中医药大学;2004年
5 吴童;消渴病中医文献与证治方药规律研究[D];黑龙江中医药大学;2005年
6 封翠芸;糖尿病肾病中医药数据库建立及证治规律初探[D];广州中医药大学;2007年
7 潘月丽;小儿水肿文献及方药证治规律研究[D];山东中医药大学;2007年
8 朱晓林;角膜炎中医文献及证治规律研究[D];山东中医药大学;2008年
9 王东梅;崩漏文献及方药证治规律研究[D];山东中医药大学;2006年
10 徐雪琪;基于统计视角的数据挖掘研究[D];浙江工商大学;2007年
中国硕士学位论文全文数据库 前10条
1 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
2 彭璐;基于拼音标注的中文分词算法研究[D];华中科技大学;2010年
3 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
4 戚晶;基于RSS的搜索引擎的研究与实现[D];吉林大学;2006年
5 马莉;基于SVM的垃圾邮件过滤的研究[D];山东大学;2005年
6 王新梅;基于内容挖掘的垃圾邮件过滤技术[D];武汉理工大学;2006年
7 李培国;基于人工神经网的中文垃圾邮件过滤器的设计与实现[D];暨南大学;2007年
8 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
9 王圆;文本内容过滤的关键技术研究[D];东北师范大学;2006年
10 李东海;基于Nutch技术的主题搜索引擎实现[D];吉林大学;2008年
中国重要报纸全文数据库 前10条
1 赵晨霞;时代发展需要强化统计学[N];发展导报;2003年
2 周东浩;个案与统计学[N];中国中医药报;2007年
3 本报记者 季晓莉;奥运会后国际交流将会更多[N];中国经济导报;2008年
4 ;21世纪统计学系列教材《〈统计学〉教学案例与教学项目汇编》[N];中国信息报;2004年
5 北京大学数学科学学院;统计学一代宗师———许宝騄 教授[N];中国信息报;2002年
6 李成瑞;马克思对统计学的重要贡献被遗忘了吗?[N];中国信息报;2002年
7 沈若愚;设定超生抚养费不能无视统计学常识[N];东方早报;2007年
8 ;改革中发展壮大 为统计事业作贡献[N];中国信息报;2002年
9 倪小林;邱东:吃透国情再论中国经济是非[N];上海证券报;2007年
10 ;开拓进取发展我国应用统计事业[N];中国信息报;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978