收藏本站
《哈尔滨工程大学》 2002年
收藏 | 手机打开
二维码
手机客户端打开本文

智能搜索引擎系统的研究

皮鹏  
【摘要】: 搜索引擎作为互联网上最主要的信息搜索工具,在各个领域都已得到广泛应用。然而。由于网络信息量迅猛增加和网络信息组织的无序性,传统搜索引擎已经无法满足人们对信息服务个性化、智能化的需求。本文提出了智能搜索引擎的解决方案——通过机器学习获得用户的兴趣爱好,根据用户个性对信息进行过滤。并就方案中涉及到的一系列理论和技术问题进行了研究,主要包括: 提出了智能搜索引擎框架,在主动搜索和元搜索的基础上增加了中文信息处理模块,实现了搜索引擎的智能化和个性化服务; 对汉语分词技术进行了研究,综合各种分词方法实现了一套适合于智能搜索引擎系统的分词系统。针对歧义字段的划分问题,提出了歧义字段划分的三个原则,在三原则的基础上给出了“二字续分法”分词的方案,该方案能够快速有效的分解大部分的歧义字段,具有很高的实用价值。 神经网络分词是今后分词技术发展的一个趋势,本文对分词神经网络进行了研究,建立了分词神经网络的实验系统,利用分词神经网络进行了歧义字段划分的实验。 中文文档的排序与过滤是中文智能搜索系统开发的一个重要环节。本文结合智能搜索系统介绍了一种基于词频统计的文档过滤算法,该算法对传统的向量空间模型法作了改进,能够根据用户的兴趣爱好很好的对文档进行相关度的排序与过滤,取得了较好的效果。
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2002
【分类号】:TP393.3

【参考文献】
中国期刊全文数据库 前10条
1 林亚平,李彦,童调生,尹锋;汉语自动分词中的神经网络技术研究[J];湖南大学学报(自然科学版);1997年06期
2 韩客松,王永成,陈桂林;汉语语言的无词典分词模型系统[J];计算机应用研究;1999年10期
3 殷建平;汉语自动分词方法[J];计算机工程与科学;1998年03期
4 严威,赵政;开发中文搜索引擎汉语处理的关键技术[J];计算机工程;1999年06期
5 邓伟,张志伟,谭庆平,宁洪;一种新型的智能搜索引擎[J];计算机工程;2000年03期
6 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期
7 孙茂松,左正平,邹嘉彦;高频最大交集型歧义切分字段在汉语自动分词中的作用[J];中文信息学报;1999年01期
8 朱丽;自动标引在自然语言提问中的应用[J];情报理论与实践;1998年03期
9 王芳,张晓林;元搜索引擎:原理与利用[J];现代图书情报技术;1998年06期
10 张晓辉,邵华,常桂然;WWW上的信息发现与搜索引擎技术[J];小型微型计算机系统;1998年06期
【共引文献】
中国期刊全文数据库 前10条
1 褚金正,章兢;基于几何距离可分性判据的文本特征提取[J];企业技术开发;2005年07期
2 江志雄,丁岳伟;基于K-近邻方法的网络信息文本分类[J];上海理工大学学报;2005年01期
3 丁文斌,李斌,罗浩;基于改进贝叶斯的垃圾邮件过滤系统设计与实现[J];计算机工程与应用;2005年18期
4 邹育理;Web环境下的信息检索[J];大学图书情报学刊;2001年03期
5 雷鸣,刘建国,王建勇,陈葆珏;一种基于词典的搜索引擎系统动态更新模型[J];计算机研究与发展;2000年10期
6 冯是聪,张志刚,李晓明;一种中文网页自动分类方法的实现及应用[J];计算机工程;2004年05期
7 吴光远,何丕廉,曹桂宏,聂颂;基于向量空间模型的词共现研究及其在文本分类中的应用[J];计算机应用;2003年S1期
8 荣毅虹,梁战平,荣涵锐;Web检索工具性能效果比较研究[J];情报科学;2001年01期
9 孔祥琴,阎放,叶丁;基于内容的图像信息检索技术的原理分析[J];情报科学;2002年12期
10 韩毅;数字图书馆中基于XML的搜索引擎设计[J];情报科学;2003年12期
中国重要会议论文全文数据库 前10条
1 程涛;施水才;张玉杰;吕学强;;基于大规模语料库的新闻领域新词挖掘[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 胥永康;岳筱玲;;浅谈网络信息挖掘应用技术[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
3 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年
4 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
5 刘华;张普;;面向词典编纂的词汇聚类研究[A];2004年辞书与数字化研讨会论文集[C];2004年
6 邹纲;刘洋;刘群;孟遥;于浩;西野文人;亢世勇;;面向Internet的中文新词语检测[A];2004年辞书与数字化研讨会论文集[C];2004年
7 曹玮祺;梁华瑞;朱雷;李涓子;王克宏;;基于半结构化信息模型的信息检索[A];第六届全国计算机应用联合学术会议论文集[C];2002年
8 曾依灵;许洪波;;网络热点信息发现研究[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
9 侯敏;;汉语自动分析中的若干问题与对策[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 苏伟峰;李绍滋;李堂秋;尤文建;;可分义原向量空间中的跨语种文本过滤模型[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 吴应良;网络计算中的智能信息处理方法研究[D];华南理工大学;2000年
2 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年
3 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
4 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
5 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
6 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
7 宋春阳;面向信息处理的现代汉语“名+名”逻辑语义研究[D];上海师范大学;2003年
8 张蕾;概念结构及其应用[D];西北工业大学;2001年
9 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
10 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
中国硕士学位论文全文数据库 前10条
1 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
2 唐晓文;基于知识特征的教学资源收集和组织的研究与实现[D];中南大学;2005年
3 曾慧宏;面向网络学习的知识服务平台及检索方法研究[D];中南大学;2005年
4 蔡春勇;元搜索引擎的智能化及其设计与实验[D];福州大学;2006年
5 刘延亮;一种文本聚类原型系统的设计与实现[D];大连理工大学;2006年
6 甘立国;中文文本分类系统的研究与实现[D];北京化工大学;2006年
7 申金女;文语转换系统若干问题研究[D];北京邮电大学;2006年
8 叶浩;基于类信息的潜在语义多类文本分类模型研究[D];江西师范大学;2006年
9 王晓霞;基于支持向量机的中文网页自动分类技术研究[D];中北大学;2007年
10 余俊英;文本分类中特征选择方法的研究[D];江西师范大学;2007年
【同被引文献】
中国期刊全文数据库 前10条
1 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期
2 岳清;浅析搜索引擎的原理及发展前景[J];大众科技;2005年05期
3 苏云;搜索引擎Google检索技巧研究[J];甘肃科技;2005年02期
4 陈建秋,邓飞其,刘发贵;智能化搜索引擎分析与探讨[J];广州大学学报(自然科学版);2002年03期
5 李雪蕾,张冬茉;一种基于向量空间模型的文本分类方法[J];计算机工程;2003年17期
6 陈治平,林亚平,李军义;智能门户搜索引擎技术[J];计算机工程;2004年03期
7 杨广翔,俞宁,谌莉;搜索引擎结果的重排序方法[J];计算机应用;2005年02期
8 周波;杨国纬;;基于贝叶斯算法的中国人名识别[J];计算机应用;2006年04期
9 张映海;何中市;陈永锋;;搜索引擎结果中Web文档的排序研究[J];计算机与数字工程;2007年02期
10 李志蜀,李果;中文搜索引擎的原理剖析及开发实现技术[J];计算机应用研究;2001年11期
中国博士学位论文全文数据库 前4条
1 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
2 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
3 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
4 李强;基于本体论的个性化和社会化元搜索引擎的研究[D];浙江大学;2006年
中国硕士学位论文全文数据库 前10条
1 熊回香;网络信息检索及其发展趋势研究[D];华中师范大学;2003年
2 陈魁;智能搜索引擎系统的分析设计与开发[D];大连理工大学;2004年
3 王庆华;用户个性化信息检索模型的设计与实现[D];大连理工大学;2004年
4 王亮;搜索引擎及其相关性排序研究[D];武汉大学;2004年
5 凌海云;基于语义网的智能搜索技术的研究与实现[D];电子科技大学;2004年
6 刘红星;分布式系统中的文本信息检索技术研究[D];清华大学;2004年
7 吴平博;基于事件框架的主题相关文档智能检索的初步研究[D];清华大学;2004年
8 刘妮娜;Web数据挖掘和个性化搜索引擎研究[D];浙江大学;2005年
9 黄国景;元搜索引擎个性化搜索的研究与设计[D];苏州大学;2005年
10 李东升;主题搜索引擎研究[D];哈尔滨工程大学;2005年
【二级参考文献】
中国期刊全文数据库 前10条
1 李国臣,刘开瑛,张永奎;汉语自动分词及歧义组合结构的处理[J];中文信息学报;1988年03期
2 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
3 梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期
4 张潮生;语义表达的一些性质[J];中文信息学报;1991年01期
5 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
6 揭春雨,刘源,梁南元;汉语自动分词实用系统CASS的设计和实现[J];中文信息学报;1991年04期
7 韩世欣,王开铸;基于短语结构文法的分词研究[J];中文信息学报;1992年03期
8 徐秉铮,詹剑,贺前华;基于神经网络的分词方法[J];中文信息学报;1993年02期
9 张晓辉,邵华,常桂然;WWW上的信息发现与搜索引擎技术[J];小型微型计算机系统;1998年06期
10 刘开瑛;现代汉语自动分词评测技术研究[J];语言文字应用;1997年01期
【相似文献】
中国期刊全文数据库 前10条
1 肖文辉;;基于MySQL的全文检索系统的研究与应用[J];广西质量监督导报;2008年06期
2 肖克曦;;在线英语语料库自动分词和分句的实现[J];电脑知识与技术;2010年28期
3 李家福,张亚非;一种基于概率模型的分词系统[J];系统仿真学报;2002年05期
4 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
5 许云,樊孝忠,张锋;一种不需分词的中文文本分类方法[J];北京理工大学学报;2005年09期
6 陈福生;;全文检索在网站搜索系统中的应用[J];电脑编程技巧与维护;2009年12期
7 徐九韵,仝兆岐,向逐聪,王新民;数据库汉语查询语言的分词研究与实现[J];中文信息学报;1998年04期
8 赵晓凡;胡顺义;;基于正向最大匹配的汉语分词[J];安阳师范学院学报;2010年05期
9 韩世欣,王开铸;基于短语结构文法的分词研究[J];中文信息学报;1992年03期
10 曹焕光,郑家恒;自动分词软件质量的评价模型[J];中文信息学报;1992年04期
中国重要会议论文全文数据库 前10条
1 徐润华;陈小荷;;一种利用注疏的《左传》分词新方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 李怡平;吴飞;;多语言环境下的分布式互联网分词平台[A];第十六届全国数据库学术会议论文集[C];1999年
3 赵伟;路永刚;吴琼;;一种新的基于BMM和RMM分词方法的研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
4 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 徐冰;姚建民;杨沐昀;赵铁军;;汉语分词在机器翻译评价中的影响[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 陈丽江;;ACL-SIGHAN第一届国际中文分词竞赛评述[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 周俊;孙啸;;频繁序列算法在生物信息挖掘中的应用[A];第十次中国生物物理学术大会论文摘要集[C];2006年
8 苏新春;顾江萍;;“人”“机”分词差异及规范词典的收词依据——对645条常用词未见于《现汉》的思考[A];中国辞书论集2000[C];2000年
9 刘桐菊;于浩;赵铁军;;基于标引技术的特定领域XML文本自动生成[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 曲维光;;分词系统计量研究与改进方案[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 高岚;海量在线做搜索引擎“卖水人”[N];中国计算机报;2004年
2 陆元婕;聪明的搜索引擎[N];中国计算机报;2001年
3 本报记者 侯闯;让企业不再“眼花”[N];计算机世界;2003年
4 ;大恒FTR全文检索软硬件解决方案[N];计算机世界;2001年
5 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
6 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
7 朱艳;术语解释[N];中国电脑教育报;2000年
8 ;语言信息处理呼唤知识应用[N];中国计算机报;2003年
9 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
10 郑依华;搜索引擎也开源[N];计算机世界;2006年
中国博士学位论文全文数据库 前10条
1 黄建年;农业古籍的计算机断句标点与分词标引研究[D];南京农业大学;2009年
2 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年
3 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
4 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
5 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
6 王龙;教育资源推荐服务中若干关键技术的研究[D];吉林大学;2013年
7 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
8 宫学庆;基于Bloom Filter的路径表达式查询处理[D];复旦大学;2006年
9 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
10 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
中国硕士学位论文全文数据库 前10条
1 皮鹏;智能搜索引擎系统的研究[D];哈尔滨工程大学;2002年
2 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
3 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
4 赵春红;外包数据库模型中文本数据完整性检测方案的研究[D];燕山大学;2010年
5 卢育红;半结构化药物数据智能分类技术研究与系统实现(全日制专业学位)[D];北京交通大学;2011年
6 卢忠良;基于多类的汉语文本自动分类研究[D];中国人民解放军国防科学技术大学;2002年
7 苗玺;中文语料库切分不一致字串分类校验方法研究[D];山西大学;2006年
8 张楚屏;从分词的静词作用看分词在计算机英语中的翻译方法[D];华中科技大学;2006年
9 盛鹏;基于全文过滤的垃圾邮件防范机制[D];昆明理工大学;2006年
10 都菁;基于论坛语料的未登录词自动识别新方法[D];西南大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026