收藏本站
《天津大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

基于统计的NLP技术在中文信息检索中的应用研究

孙越恒  
【摘要】:中文信息检索是信息检索领域的一个重要分支。尽管中文信息检索的技术和研究已经取得了相当多的成果,但目前中文信息检索的效果却并不乐观。本文就中文信息检索的几个主要问题,在NLP技术的基础上,利用统计学和代数学方法,从词语层和文档层对信息检索中文档和文档集的处理方法进行了深入研究。 本文首先从理论上对中文信息检索索引单位的选择做了详细分析,改进了传统的最大匹配分词算法,一定程度上解决了切分歧义的问题,同时在改进算法中引入了一种基于统计的窗口移动扩展方法,简单而有效地改善了未登录词的识别问题。 信息抽取已成为制约信息检索性能的一个瓶颈,而关键词提取则是信息抽取的一个重要环节。本文针对中文,实现了基于χ2统计的单文档关键词提取算法,其主要基础是词与词之间的共现次数的统计,并使用χ2统计量来衡量两个词语之间的关联。同时改进了传统的KEA算法,扩展了标示关键词的特征,实现了基于朴素贝叶斯理论的中文多文档关键词提取模型。 文本分类是对信息检索中的文档集进行组织的一项关键技术。本文首先对文本分类算法进行了研究,探讨了文本特征抽取方法,其中综合考虑了频度、分散度和集中度三项指标,设计并实现了一种新的特征抽取算法,使得选出的特征项整体优化。另外,提出了一种基于向量空间模型的词共现模型,并将通过该模型统计出的共现词信息应用于文本分类研究中。上述技术都在一定程度上提高了文本分类系统的性能。最后,本文把分类技术应用到了信息检索中的用户查询歧义消除方面,实现了一个分类检索系统,使用户可以快速获取自己真正需要的信息。 针对高维词-文档矩阵所造成的高存储空间和运算时间开销,本文将线性(LSI)和非线性(Isomap、SIE)维数约减算法引入到高维文档数据的降维处理中,并在文档聚类方面对三种算法处理后的数据进行了性能比较。实验结果表明,采用了局部嵌入技术的SIE算法取得了与LSI相当的性能,优于全局优化的Isomap算法,并且降维处理时的运算复杂度也大大降低。 最后,本文实现了基于N层向量空间模型的Windows上的信息检索系统。该系统对Web文档采用了一种分层处理机制,重点改进了Web文档中的关键信息的权重计算。
【学位授予单位】:天津大学
【学位级别】:博士
【学位授予年份】:2005
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前1条
1 仲兆满;刘宗田;;基于两级概念格的信息抽取的研究[J];江西师范大学学报(自然科学版);2008年02期
中国硕士学位论文全文数据库 前9条
1 孙群虎;基于空间分布和信息熵的特征词提取方法[D];大连理工大学;2010年
2 李慧;基于贝叶斯分类方法的中文问句分类研究[D];石家庄铁道学院;2010年
3 李兆雄;基于图模型的中文小样本文本分类研究[D];西安电子科技大学;2009年
4 李金钊;基于流形学习的中文Web文本分类算法研究[D];河北工业大学;2011年
5 程岚岚;面向领域的中文搜索引擎若干关键技术研究[D];天津大学;2006年
6 巩克非;流形学习算法研究[D];天津大学;2007年
7 杨红敏;固有维数估计的研究与应用[D];天津大学;2007年
8 朱宏磊;流形学习算法的研究与应用[D];天津大学;2007年
9 黄默丽;NLP技术在中文全文信息处理中的应用研究[D];郑州大学;2010年
【参考文献】
中国期刊全文数据库 前8条
1 侯越先,丁峥,何丕廉;基于自组织的鲁棒非线性维数约减算法[J];计算机研究与发展;2005年02期
2 严威,赵政;开发中文搜索引擎汉语处理的关键技术[J];计算机工程;1999年06期
3 秦进,陈笑蓉,汪维家,陆汝占;文本分类中的特征抽取[J];计算机应用;2003年02期
4 吴栋,滕育平;中文信息检索引擎中的分词与检索技术[J];计算机应用;2004年07期
5 骆正清,陈增武,胡上序;一种改进的MM分词方法的算法设计[J];中文信息学报;1996年03期
6 刘少辉,董明楷,张海俊,李蓉,史忠植;一种基于向量空间模型的多层次文本分类方法[J];中文信息学报;2002年03期
7 郭辉,苏中义,王文 ,崔骏;一种改进的MM分词算法[J];微型电脑应用;2002年01期
8 郭庆琳,樊孝忠;自然语言理解与智能检索[J];信息与控制;2004年01期
【共引文献】
中国期刊全文数据库 前10条
1 罗长寿;张峻峰;孙素芬;魏清凤;;基于改进VSM的农业实用技术自动问答系统研究[J];安徽农业科学;2009年28期
2 蔡华利;刘鲁;王理;;突发事件Web新闻多层次自动分类方法[J];北京工业大学学报;2011年06期
3 高影繁;马润波;刘玉树;;一种快速文本归类算法的设计与实现[J];北京理工大学学报;2006年12期
4 刘宁;柴雅凌;;自然语言在智能信息检索中的应用[J];图书与情报;2006年01期
5 黄水清;李志燕;梁刚;;面向计算机类文献的自动摘要系统的研究与实现[J];图书与情报;2006年03期
6 张璇;左敏;;一种改进的朴素贝叶斯分类器在文本分类中的应用研究[J];北京工商大学学报(自然科学版);2009年04期
7 马乐;翁智生;罗军;;一种基于SVM的网页层次分类算法[J];北京师范大学学报(自然科学版);2009年03期
8 仲兆满;刘宗田;;基于两级概念格的信息抽取的研究[J];江西师范大学学报(自然科学版);2008年02期
9 薛松;张钟澍;殷知磊;;贝叶斯算法在反垃圾邮件应用中的改进方案[J];成都信息工程学院学报;2009年04期
10 吕先竞;;企业信息资源的内涵特征与构成体系[J];西华大学学报(哲学社会科学版);2008年05期
中国重要会议论文全文数据库 前10条
1 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
3 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年
4 刘翠响;张艳;于明;赵卫萍;;基于非线性降维的人脸图像数据分析[A];2006中国控制与决策学术年会论文集[C];2006年
5 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
6 胡金柱;陈俊平;卢丽君;赵东萌;张琮;王益维;;基于本体视图的特征项抽取方法研究[A];第二十二届中国(天津)'2008IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2008年
7 胡金柱;陈俊平;卢丽君;赵东萌;张琮;王益维;;基于本体视图的特征项抽取方法研究[A];第二十三届中国(天津)2009IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2009年
8 丁政建;张路;;基于本体的语义检索研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
9 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
10 李寿山;黄居仁;;基于词边界分类的中文分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前10条
1 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
2 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
3 曾武灵;滨海生态旅游区游客重游意愿形成机制研究[D];大连理工大学;2011年
4 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
5 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
6 王兰成;基于XMARC信息描述的知识标引与概念检索研究[D];东华大学;2004年
7 杜文斌;基于神经网络的冠心病证候诊断标准与药效评价模型研究[D];辽宁中医学院;2004年
8 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
9 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
10 王明春;基于粗糙集的数据及文本挖掘方法研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
3 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
4 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
5 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
6 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
7 孙海虹;基于模糊粗糙集的Web文本分类研究[D];哈尔滨理工大学;2010年
8 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
9 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
10 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 李晓明;对中国曾有过静态网页数的一种估计[J];北京大学学报(自然科学版);2003年03期
2 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
3 林鹏,李祖枢,刘朝涛,曹志娟;自然语言处理与情报检索[J];重庆工业高等专科学校学报;2004年04期
4 张其文;李明;;多文档文摘提取方法的研究[J];兰州理工大学学报;2007年01期
5 梁宏胜;徐建民;成岳鹏;;一种改进的朴素贝叶斯文本分类方法[J];河北大学学报(自然科学版);2007年03期
6 徐磊;;基于NLP的信息检索[J];黑龙江教育学院学报;2008年03期
7 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
8 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
9 侯越先,丁峥,何丕廉;基于自组织的鲁棒非线性维数约减算法[J];计算机研究与发展;2005年02期
10 王本年,高阳,陈世福,谢俊元;Web智能研究现状与发展趋势[J];计算机研究与发展;2005年05期
中国博士学位论文全文数据库 前4条
1 王煜;基于决策树和K最近邻算法的文本分类研究[D];天津大学;2006年
2 戴维迪;非监督知识发现过程中若干关键问题研究[D];天津大学;2005年
3 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
4 李鑫;问题回答系统中的问题分类研究[D];复旦大学;2007年
中国硕士学位论文全文数据库 前10条
1 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
2 胡蓉;中文Web文档倾向性自动分类研究[D];四川大学;2003年
3 王振华;基于非线性维数约减的模式识别[D];天津大学;2004年
4 程晓静;自然语言处理在药物专利检索系统中的应用[D];大连理工大学;2004年
5 王源媛;中文未登录名词短语的识别方法研究[D];重庆大学;2004年
6 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年
7 李威;基于向量空间的文本自动分类系统的研究和实现[D];兰州理工大学;2005年
8 马慧敏;中文文本自动分类方法的研究和实现[D];华北电力大学(河北);2005年
9 何尧;基于半监督学习的中文文档分类技术研究[D];中南大学;2005年
10 邹加棋;中文网页自动分类关键技术研究[D];福州大学;2006年
【二级引证文献】
中国期刊全文数据库 前2条
1 谢春芝;杜亚军;;基于进化论观点的概念格构建算法[J];广西师范大学学报(自然科学版);2010年01期
2 陈颖;张晓林;;专利技术功效矩阵构建研究进展[J];现代图书情报技术;2011年11期
中国硕士学位论文全文数据库 前8条
1 徐龙柱;流形学习中非线性降维方法的研究及在烟草数据中的应用[D];中国海洋大学;2011年
2 张赢;个性化多媒体资源垂直搜索引擎技术研究[D];华东交通大学;2009年
3 李金钊;基于流形学习的中文Web文本分类算法研究[D];河北工业大学;2011年
4 李蓉;面向主题的搜索引擎的设计与实现[D];华东交通大学;2011年
5 侯锐;基于TSE的特定领域搜索引擎研究及实现[D];东北师范大学;2008年
6 黄堃;基于本体的面向股票领域搜索引擎的实现技术研究[D];天津大学;2007年
7 林雪楠;一种改进的专题搜索结果排序算法的研究[D];大连海事大学;2008年
8 张岩;基于TSE专业领域搜索引擎研究与实现[D];吉林大学;2008年
【二级参考文献】
中国期刊全文数据库 前10条
1 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
2 张国煊,王小华,周必水;快速书面汉语自动分词系统及其算法设计[J];计算机研究与发展;1993年01期
3 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
4 严威,赵政;开发中文搜索引擎汉语处理的关键技术[J];计算机工程;1999年06期
5 黄青松;基于计算语言学的全文检索[J];昆明理工大学学报;1997年03期
6 关英春 ,秦蓓;汉语文字自动统计系统CWSS[J];中文信息学报;1986年01期
7 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
8 姚天顺,张桂平,吴映明;基于规则的汉语自动分词系统[J];中文信息学报;1990年01期
9 梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期
10 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
【相似文献】
中国期刊全文数据库 前10条
1 ;统计学[J];全国新书目;2005年14期
2 ;作者书写统计学符号须知[J];肝胆外科杂志;1999年06期
3 本刊编辑部;论文中计量单位和统计学符号的用法[J];中国医学科学院学报;2001年05期
4 ;作者书写统计学符号须知[J];右江医学;2001年03期
5 曹桂宏,何丕廉,吴光远,聂颂;中文分词对中文信息检索系统性能的影响[J];计算机工程与应用;2003年19期
6 本刊编辑部;论文中计量单位和统计学符号的用法[J];中国医学科学院学报;2003年05期
7 周英智;医学论文中常见统计学问题分析[J];科技与出版;2003年03期
8 本刊编辑部;作者书写统计学符号须知[J];泰山医学院学报;2003年04期
9 本刊编辑部;作者书写统计学符号须知[J];河南预防医学杂志;2004年01期
10 阮志鹏;采用Excel软件计算半数致死量[J];河北医科大学学报;2005年04期
中国重要会议论文全文数据库 前10条
1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
2 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 ;投稿须知:统计学[A];中华中医药学会老年神经病专题学术研讨会论文专辑[C];2006年
6 潘娥;;统计学案例教学初探[A];农业教育与农村改革发展——云南省农业教育研究会2007年学术年会论文汇编[C];2007年
7 潘宝骏;方林;;学术论文中若干统计学问题的编审[A];新世纪预防医学面临的挑战——中华预防医学会首届学术年会论文摘要集[C];2002年
8 彭辉;翟翔;;AutoCAD 2008自动翻译软件研发[A];全国冶金自动化信息网2010年年会论文集[C];2010年
9 赵海;揭春雨;;基于子串标注的中文分词:寻找更佳的标注单元[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 王屹林;朱慕华;朱靖波;;针对SVM中文分词特性的个性化后处理设计[A];第三届学生计算语言学研讨会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 赵晨霞;时代发展需要强化统计学[N];发展导报;2003年
2 周东浩;个案与统计学[N];中国中医药报;2007年
3 本报记者 季晓莉;奥运会后国际交流将会更多[N];中国经济导报;2008年
4 ;21世纪统计学系列教材《〈统计学〉教学案例与教学项目汇编》[N];中国信息报;2004年
5 北京大学数学科学学院;统计学一代宗师———许宝騄 教授[N];中国信息报;2002年
6 李成瑞;马克思对统计学的重要贡献被遗忘了吗?[N];中国信息报;2002年
7 沈若愚;设定超生抚养费不能无视统计学常识[N];东方早报;2007年
8 ;改革中发展壮大 为统计事业作贡献[N];中国信息报;2002年
9 倪小林;邱东:吃透国情再论中国经济是非[N];上海证券报;2007年
10 ;开拓进取发展我国应用统计事业[N];中国信息报;2002年
中国博士学位论文全文数据库 前10条
1 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
2 鲁美君;基于古今医案数据分析的外感热病证治规律研究[D];黑龙江中医药大学;2008年
3 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
4 宋咏梅;失眠证方药证治规律研究[D];山东中医药大学;2004年
5 吴童;消渴病中医文献与证治方药规律研究[D];黑龙江中医药大学;2005年
6 封翠芸;糖尿病肾病中医药数据库建立及证治规律初探[D];广州中医药大学;2007年
7 潘月丽;小儿水肿文献及方药证治规律研究[D];山东中医药大学;2007年
8 朱晓林;角膜炎中医文献及证治规律研究[D];山东中医药大学;2008年
9 王东梅;崩漏文献及方药证治规律研究[D];山东中医药大学;2006年
10 徐雪琪;基于统计视角的数据挖掘研究[D];浙江工商大学;2007年
中国硕士学位论文全文数据库 前10条
1 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
2 彭璐;基于拼音标注的中文分词算法研究[D];华中科技大学;2010年
3 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
4 戚晶;基于RSS的搜索引擎的研究与实现[D];吉林大学;2006年
5 马莉;基于SVM的垃圾邮件过滤的研究[D];山东大学;2005年
6 王新梅;基于内容挖掘的垃圾邮件过滤技术[D];武汉理工大学;2006年
7 李培国;基于人工神经网的中文垃圾邮件过滤器的设计与实现[D];暨南大学;2007年
8 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
9 王圆;文本内容过滤的关键技术研究[D];东北师范大学;2006年
10 李东海;基于Nutch技术的主题搜索引擎实现[D];吉林大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026