收藏本站
《云南师范大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

基于分类的智能信息检索研究与实现

程传鹏  
【摘要】:信息检索(Information Retrieval),通常指文本信息检索,包括信息的存储、组织、表现、 查询、存取等各个方面,其核心为文本信息的索引和检索技术。从历史上看,信息检索经历 了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。 目前,信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展 到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情 报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他 们对信息检索的效率和准确性提出了更高、更多样化的要求。现有的信息检索工具(搜索引 擎)的查全率和查准率不高,为了提高信息检索工具的查全率和查准率,人们提出了各种各 样的技术和算法,旨在使信息检索工具更趋于智能化和人性化。 本文在研究传统信息检索技术实现的同时,结合现有的网页分类技术,对智能信息检索 进行了较为系统的研究。在此基础上对基于分类的智能信息检索中的中文分词、网页索引、 网页特征提取、网页分类、提出了一定的思考和见解。论文主要工作如下: (1)本文首先针对网页结构的特点,分析了网页中对分类过程有贡献的信息成分。使用 了一种简单而又高效的词典存储方式,使其在切分速度上有了很大的提高,而所得到的切分 结果也基本上满足网页分类中对中文分词的要求。采用了词串统计的方式,提高了未登录词 的识别几率。 (2)传统的中英文分类的特征提取方式并没有考虑汉语词语之间的语义关联(反义词、 近义词、同义词),在本文中,我除了考虑了语义关联,还提取了网页标题,一起参与特征 词的提取,使特征词的提取较传统的方法更为合理,并对CHI公式做了一些改进,使之更 符合中文Web的特征表示。 (3)研究了现有的网页分类方法,结合了网页的特点,在传统的特征加权公式的基础上, 提出了一种网页分类的特征加权公式。 (4)对网页的索引及搜索进行了探讨,并这两项技术进行了编程实现。 (5)在上述理论的基础上构建了一个较为完整的分类检索系统,使用VC++6.0开发环 境,在Windows操作系统上实现了一个分类检索系统,并对实验结果做出了评价。
【学位授予单位】:云南师范大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP391.3

【引证文献】
中国硕士学位论文全文数据库 前10条
1 潘宇;石油仪器公司产学研合作网络化管理平台建设方案设计研究[D];南京理工大学;2011年
2 罗黎敏;基于DOM模型的网页净化系统设计与实现[D];湖南大学;2010年
3 王钦;基于数据挖掘的智能答疑系统的研究与设计[D];济南大学;2007年
4 刘秀芳;数据挖掘算法在智能答疑系统中的应用研究[D];山东师范大学;2007年
5 呼声波;面向信息检索的智能分类方法研究[D];山东师范大学;2008年
6 曾晔垠;全文索引技术中索引归并算法的研究与分析[D];电子科技大学;2008年
7 初永玲;数据挖掘在智能答疑系统中的应用与研究[D];沈阳工业大学;2008年
8 张冰;基于领域的信息分类和搜索技术的研究[D];济南大学;2009年
9 王雅玡;基于朴素贝叶斯和BP神经网络的中文文本分类问题研究[D];云南师范大学;2008年
10 闫冬冬;基于数据挖掘技术的智能答疑系统的研究与设计[D];太原理工大学;2010年
【参考文献】
中国期刊全文数据库 前10条
1 程节华;自动分词中的歧义字段分析及处理[J];安徽农业技术师范学院学报;2000年03期
2 丁丰,董娜,林碧琴,袁保宗;自然语言处理系统中自动分词的研究[J];北方交通大学学报;1999年06期
3 陈鑫;基于文本的分类方法研究[J];电脑开发与应用;2003年07期
4 王天江,叶卫国,卢正鼎,李永平;LSI和kNN相结合的文本分类模型研究[J];华中科技大学学报(自然科学版);2004年04期
5 陈桂林,王永成,韩客松,王刚;一种高效的中文电子词表数据结构[J];计算机研究与发展;2000年01期
6 张卫丰,徐宝文;Web搜索引擎框架研究[J];计算机研究与发展;2000年03期
7 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
8 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
9 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
10 罗三定,陆文彦,王浩,贾维嘉;基于概念的文本类别特征提取与文本模糊匹配[J];计算机工程与应用;2002年16期
【共引文献】
中国期刊全文数据库 前10条
1 卞真旭;;一种关键词抽取方法研究[J];安徽电气工程职业技术学院学报;2011年S1期
2 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
3 王正;陆余良;刘金红;施凡;;基于Lucene的互联网文献信息检索系统的研究[J];安徽大学学报(自然科学版);2009年05期
4 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
5 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
6 时雷;席磊;虎晓红;段其国;;基于支持向量机的农业数据分类研究[J];安徽农业科学;2009年05期
7 时雷;虎晓红;席磊;;基于Naive Bayes算法的大豆病害诊断研究[J];安徽农业科学;2009年11期
8 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
9 赵成龙,薛欣;基于WEB的智能答疑系统的设计与实现[J];安阳师范学院学报;2004年02期
10 赵晓凡;胡顺义;;基于正向最大匹配的汉语分词[J];安阳师范学院学报;2010年05期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 卞真旭;;一种关键词抽取方法研究[A];2011年安徽省智能电网技术论坛论文集[C];2011年
3 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
4 喻飞;夏晓燕;吴蓉晖;徐成;;基于向量空间模型的信息安全审计系统[A];第二十六届中国控制会议论文集[C];2007年
5 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
6 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
7 张仰森;黄改娟;苏文杰;;基于隐最大熵原理的汉语词义消歧方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 张东娜;彭宏;吴铁峰;;一种基于粗集与贝叶斯分类器的中文网页分类方法[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
9 胥永康;岳筱玲;;浅谈网络信息挖掘应用技术[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
10 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
2 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
3 李炳龙;文档碎片取证关键技术研究[D];解放军信息工程大学;2007年
4 晁冰;基于支持向量机的软件可靠性模型分类及失效分析[D];武汉大学;2010年
5 韩晓明;基于符号有向图和支持向量机的故障诊断方法的研究[D];太原理工大学;2011年
6 孙静宇;基于CBR的协同Web搜索研究[D];太原理工大学;2010年
7 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
8 沈巍;建立股指波动预测模型的方法研究及应用[D];华北电力大学(北京);2011年
9 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
10 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
3 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
4 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
5 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
6 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
7 张磊;基于支持向量机的反垃圾电话技术研究[D];哈尔滨工程大学;2010年
8 曲昆鹏;基于支持向量机的杂草识别研究[D];哈尔滨工程大学;2010年
9 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
10 陈晶;基于词片网格的语音文档主题分类[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 邓廿庆,卞修凡;新形势下发展高校产学研合作的若干思考[J];安徽农业大学学报(社会科学版);2000年01期
2 谢宇;张仰森;肖建涛;;规则与统计相结合的汉语词义消歧模型[J];北京机械工业学院学报;2007年03期
3 李勇,郭平;Sigmoid传输函数与三层前馈神经网络的映射能力[J];北京师范大学学报(自然科学版);2001年05期
4 叶安胜,罗惠琼;基于WEB的ADO.NET技术及应用[J];成都大学学报(自然科学版);2003年04期
5 刘洋;曹津宁;刘昊;秦玉平;;基于贝叶斯方法的垃圾邮件处理模型研究[J];长春工程学院学报(自然科学版);2007年03期
6 卓丽霞;朱小飞;;粒计算规则生成模型[J];重庆工学院学报(自然科学版);2008年09期
7 潘琛;杜培军;张海荣;;决策树分类法及其在遥感图像处理中的应用[J];测绘科学;2008年01期
8 黄绪明;一类改进的遗传算法[J];长沙大学学报;2005年05期
9 葛浩;袁万莲;;基于核属性的决策树构造算法研究[J];滁州学院学报;2008年06期
10 王红雨;一种实用智能答疑系统在现代远程教育中的应用[J];电脑开发与应用;2005年09期
中国重要会议论文全文数据库 前2条
1 朱凯;周杰;何婷婷;;因特网语料自动下载分析软件的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
2 吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉;;维、哈、柯全文搜索引擎中查询处理研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 毛国君;数据挖掘技术与关联规则挖掘算法研究[D];北京工业大学;2003年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
3 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
4 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
5 钱晓东;基于神经网络等技术的数据与文本聚分类研究[D];天津大学;2005年
6 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
7 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年
8 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
9 钱铁云;关联文本分类关键技术研究[D];华中科技大学;2006年
10 严勇杰;多机器人系统协调与控制研究[D];哈尔滨工程大学;2007年
中国硕士学位论文全文数据库 前10条
1 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
2 张青;决策树分类算法的研究与改进[D];郑州大学;2002年
3 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
4 孙超利;数据挖掘决策树方法的研究与应用[D];河海大学;2003年
5 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
6 田萱;基于Internet的信息检索若干问题的研究[D];山东师范大学;2003年
7 胡蓉;中文Web文档倾向性自动分类研究[D];四川大学;2003年
8 刘钢;基于神经网络的文本分类系统NNTCS的设计和实现[D];中国科学院研究生院(软件研究所);2003年
9 刘旭光;计算机支持的协同设计若干关键问题的研究[D];武汉理工大学;2004年
10 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
【二级引证文献】
中国期刊全文数据库 前2条
1 赵曦;;一种个性化网络信息服务系统的设计与实现[J];软件导刊;2010年09期
2 董彩云;刘培华;;数据挖掘在开放教育网上教学中的应用[J];中国成人教育;2011年02期
中国硕士学位论文全文数据库 前8条
1 唐华姣;主题搜索引擎索引技术的研究与实现[D];重庆交通大学;2011年
2 陆红蕾;网络智能答疑系统的研究与实现[D];上海交通大学;2011年
3 章丽芳;基于关联挖掘的学生成绩分析系统的研究[D];浙江工业大学;2011年
4 杨冬黎;基于Web的智能信息检索机制研究[D];大庆石油学院;2010年
5 卢健;面向文本的主题挖掘技术与实现[D];济南大学;2010年
6 孙进;基于Slor的个性化搜索引擎设计与实现[D];北京化工大学;2012年
7 艾海麦提江·阿布来提;维吾尔文文本分类研究及系统开发[D];新疆大学;2012年
8 杨京江;科技情报辅助分析系统的分析与设计[D];昆明理工大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 丁丰,董娜,林碧琴,袁保宗;自然语言处理系统中自动分词的研究[J];北方交通大学学报;1999年06期
2 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
3 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
4 凌美秀;关于搜索引擎当前存在的主要问题及其发展趋势的探讨[J];高校图书馆工作;2001年05期
5 王珊;吴鸥琦;;B~+树效率分析和组织聚集索引的算法——B~+树的进一步研究和应用[J];计算机研究与发展;1982年11期
6 张国煊,王小华,周必水;快速书面汉语自动分词系统及其算法设计[J];计算机研究与发展;1993年01期
7 汪晓岩,胡庆生,李斌,庄镇泉;面向Internet的个性化智能信息检索[J];计算机研究与发展;1999年09期
8 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
9 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
10 李晓黎,史忠植;用数据采掘方法获取汉语词性标注规则[J];计算机研究与发展;2000年12期
【相似文献】
中国期刊全文数据库 前10条
1 王新梅;卢苇;尹朝庆;吕亚兵;;基于文本挖掘的邮件分类与过滤[J];计算机工程与应用;2006年02期
2 蔡代纯;谭新良;;文本自动分类技术及其对图书馆学的影响[J];现代情报;2006年09期
3 刘峰,王秀坤,杨南海,马霖;中英文专业搜索引擎中数据采集加工的设计与实现[J];计算机应用研究;2004年10期
4 姚全珠;张楠;杨增辉;田元;;基于压缩后缀数组技术的搜索引擎[J];计算机工程;2008年10期
5 张冬慧;孙波;徐照财;程显毅;;文本自动分类关键技术研究[J];微计算机信息;2008年06期
6 赵栓柱;陈俊杰;;基于特定领域的Web文本信息获取系统的研究[J];太原理工大学学报;2006年02期
7 杨洁;程传鹏;;搜索引擎上的自动分类技术研究[J];中原工学院学报;2007年06期
8 李瑞芳;杨娜;;主题搜索引擎的研究[J];微型机与应用;2009年19期
9 张金柱;张东;王惠临;;基于字位信息的中文分词方法研究[J];现代图书情报技术;2008年05期
10 熊德兰;柴玉梅;;领域内文本褒贬倾向性分类中的特征提取技术[J];微计算机信息;2006年36期
中国重要会议论文全文数据库 前10条
1 王晔;黄上腾;;基于n-gram相邻字的中文文本特征提取算法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 林土胜;赖声礼;;视网膜血管特征提取的拆支跟踪法[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
3 钱小聪;郑宝玉;穆明鑫;;神经网络联机手写签名验证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
4 张羽;汪源源;王威琪;余建国;林继耕;;狭窄血管多普勒信号特征提取的实验研究[A];21世纪医学工程学术研讨会论文摘要汇编[C];2001年
5 柳林霞;陈杰;窦丽华;;不变矩理论及其在目标识别中的应用[A];2002中国控制与决策学术年会论文集[C];2002年
6 杨日杰;施建礼;林洪文;;一种雷达视频回波特征提取方法研究[A];中国航空学会信号与信息处理专业全国第八届学术会议论文集[C];2004年
7 代克杰;张红梅;盛赛斌;;基于BP网络的故障特征提取方法研究[A];2004中国控制与决策学术年会论文集[C];2004年
8 何新;史迎春;周献中;;一种基于独立分量分析的音频分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
9 朱晓霞;孙同景;陈桂友;;基于支持向量机理论的两级指纹分类实现方法[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
10 范海宁;郭英;吴剑锋;陈志武;;基于小波包分解的声信号特征提取方法[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
中国重要报纸全文数据库 前10条
1 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
2 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
3 燕海霞;王忆勤;李福凤;脉象信号研究日渐深入[N];中国医药报;2005年
4 中国移动云南公司总经理 林振辉;M起来 更精彩[N];人民邮电;2008年
5 沈占锋;遥感影像信息提取与分析[N];计算机世界;2006年
6 本报特约撰稿人 飞翔鸟;Google要革微软的命?[N];中国电脑教育报;2004年
7 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年
8 王竣;深入开发CAD系统对疾病诊断有重要意义[N];中国医药报;2007年
9 贺俊;汇聚亿万草根智慧 奇虎发布经验搜索[N];证券日报;2006年
10 记者 杨朝晖;医药搜索:不再“众里寻他千百度”[N];科技日报;2007年
中国博士学位论文全文数据库 前10条
1 张旗;基于属性的图像分类研究[D];大连海事大学;2005年
2 张立福;通用光谱模式分解算法及植被指数的建立[D];武汉大学;2005年
3 苏彩红;墙地砖质量自动检测技术的研究[D];华南理工大学;2004年
4 宋余庆;医学图像数据挖掘若干技术研究[D];东南大学;2005年
5 宋晴;基于液滴分析技术和液滴指纹图的液体识别方法的研究[D];天津大学;2005年
6 吴婷;自发脑电脑机接口模式识别关键技术与实验研究[D];上海交通大学;2008年
7 孙真真;基于光学区雷达目标二维像的目标散射特征提取的理论及方法研究[D];中国人民解放军国防科学技术大学;2001年
8 武子玉;矿物近红外光谱信息提取及应用研究[D];吉林大学;2005年
9 王承;基于神经网络的模拟电路故障诊断方法研究[D];电子科技大学;2005年
10 孙蕾;医学图像智能挖掘关键技术研究[D];西北大学;2005年
中国硕士学位论文全文数据库 前10条
1 程传鹏;基于分类的智能信息检索研究与实现[D];云南师范大学;2005年
2 王新梅;基于内容挖掘的垃圾邮件过滤技术[D];武汉理工大学;2006年
3 林少波;中文文本分类特征提取方法的研究与实现[D];重庆大学;2011年
4 闫继钢;搜索引擎的研究与实现[D];兰州大学;2009年
5 曾红梅;情绪图片视觉诱发EEG特征提取与分析[D];天津大学;2012年
6 雷自力;基于Pro/E的三维零件参数化建模和特征提取研究[D];华中科技大学;2011年
7 黄健;履带式车辆微多普勒效应与特征提取[D];国防科学技术大学;2009年
8 赵蕾蕾;基于词和基本短语模式的特征提取方法[D];河北大学;2009年
9 栾岚;基于机理模型判据的图像中微弱特征提取方法研究及应用[D];东北大学;2009年
10 王菲;面向肺部CAD的特征提取、选择及分类方法研究[D];东北大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026