收藏本站
《浙江大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

智能中文搜索引擎若干关键技术的研究与实现

潘照明  
【摘要】:随着Internet的快速发展,Web信息的迅速增加,人们越来越依赖于搜索引擎来获取互联网上有用的信息。目前传统中文搜索引擎系统一般都采用关键词匹配模式,没有很好地解决关键词跟网页之间的相关性;同时在搜索推荐词的生成方法上,也往往只是在用户搜索关键词上加入前缀、后缀字符串作为相应的推荐词,没有深入到语义理解层次,不能很好地反映用户真正意图,智能化程度较低。因此,如何更好地理解中文网页信息、改进搜索关键词与网页的相关性、提供基于语义联想的搜索推荐词已成为新一代智能中文搜索引擎系统亟待解决的若干核心问题。 该文对智能中文搜索引擎系统中的若干关键技术进行了较深入的研究,其研究内容主要包含以下几点: 1) 设计了一种类trie树的高效词典组织结构。把中文分词过程分成两个阶段,在第一阶段采用bigram模型并辅以一定的规则,在第二阶段采用基于词的最大正向匹配算法,最后把这两个阶段的结果合并,较好地解决了汉词切分中一直存在的歧义现象难以排除、新词识别困难等难题。实验结果显示词典模块达到了较快的切分速度和较高的切分准确率,这为高质量概念词的产生和后续网页处理提供了前提; 2) 给出了一种基于语义联想的搜索推荐词生成方法,该方法基于概念集群的思想,能够有效地引导用户搜索,有别于传统搜索引擎系统的搜索推荐词生成方法,扩大了搜索的深度和外延;提出了一种新的网页排序算法,该算法基于系统的概念集群和关键词对网页的RANK值(权重值),较好地反映了用户搜索关键词与网页的相关性;同时使用《同义词词林》中文语料库,对用户查询进行优化,实现了同义或近义词提示功能,丰富了用户的搜索体验,从而提升了搜索引擎系统的智能性; 3) 设计了智能中文搜索引擎系统的总体框架,给出了具体的实现方案,并对海量数据环境下PageRank的计算、概念集群的形成、索引的生成提出了一些改进方法,最后在实际运营的大型服务器集群上实现了一个原型系统,并给出了详细的实验结果。
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前2条
1 吴佩韦;李昌华;;一种基于Lucene的搜索推荐词生成方法[J];电脑知识与技术;2009年10期
2 邓维婕;;网络搜索引擎的原理、技术和发展[J];电脑与电信;2008年05期
中国硕士学位论文全文数据库 前10条
1 王兆宇;个性化站内搜索引擎的设计与应用[D];东华大学;2011年
2 张婷;分布式网络搜索引擎的研究与实现[D];解放军信息工程大学;2011年
3 陈海波;基于自动分词的企业文档搜索引擎设计与实现[D];西北工业大学;2007年
4 田叶;基于XML文档的语义检索[D];华北电力大学(河北);2007年
5 边杰;一种基于Jena的语义检索模型研究与实现[D];西安电子科技大学;2008年
6 付志超;基于Map/Reduce的分布式智能搜索引擎框架研究[D];武汉理工大学;2008年
7 李连江;个性化搜索引擎模型的研究与改进[D];哈尔滨工程大学;2008年
8 卢苇;基于双语翻译搜索引擎的智能用户接口的研究[D];武汉理工大学;2009年
9 吴佩韦;基于Lucene的汽车信息垂直搜索引擎的设计与实现[D];西安建筑科技大学;2009年
10 马娟;文本自动标引方法研究与实现[D];西南交通大学;2009年
【参考文献】
中国期刊全文数据库 前7条
1 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
2 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
3 孙茂松,左正平,黄昌宁;汉语自动分词词典机制的实验研究[J];中文信息学报;2000年01期
4 杨文峰,陈光英,李星;基于PATRICIA tree的汉语自动分词词典机制[J];中文信息学报;2001年03期
5 李庆虎,陈玉健,孙家广;一种中文分词词典新机制——双字哈希机制[J];中文信息学报;2003年04期
6 盛秋艳,何文广;基于Hopfield神经网络的概念检索技术[J];情报科学;2004年03期
7 孙茂松,邹嘉彦;汉语自动分词研究中的苦干理论问题[J];语言文字应用;1995年04期
【共引文献】
中国期刊全文数据库 前10条
1 高艳萍;于红;尹祥贵;綦孝姬;王春永;赵志强;;基于双数组Trie树的渔业领域分词研究[J];安徽农业科学;2008年11期
2 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
3 胡顺义;赵晓凡;;基于PB的汉语电子词典管理系统设计与实现[J];安阳师范学院学报;2010年05期
4 夏姗姗,刘椿年;约束归纳逻辑程序设计的研究[J];北京工业大学学报;2000年03期
5 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
6 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
7 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
8 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
9 张林曼;吴升;;地理编码系统中地名地址分词算法研究[J];测绘科学;2010年02期
10 高东平;;基于类型论的汉语分词系统TTCS[J];重庆理工大学学报(社会科学);2011年08期
中国重要会议论文全文数据库 前10条
1 潘雪莲;;词频统计在词典收词中的作用[A];中国辞书论集2001[C];2001年
2 安娜;刘海涛;侯敏;;语料库中熟语的标记问题[A];第三届全国语言文字应用学术研讨会论文集[C];2004年
3 傅思泉;;机器词典中按韵分词及虚词问题[A];江西省语言学会第五届会员大会暨2002年学术年会论文集[C];2002年
4 章志凌;虞立群;罗海飞;邵晓敏;;基于改进Corpus库的词语相似度计算方法[A];第二十四届中国控制会议论文集(下册)[C];2005年
5 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
6 吴晶晶;荆继武;王平建;;一种基于词典的新型中文分词机制[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
7 朱晓丹;刁倩;周富秋;;汉语词语的两字hash算法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
8 孙茂松;;汉语自动分词研究的若干最新进展——清华大学相关工作简介[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
9 董强;郝长伶;董振东;;基于《知网》的中文语块抽取器[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 李斌;;中文单字国名简称的自动识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
2 苏健;基于粗糙集的数据挖掘与决策支持方法研究[D];浙江大学;2002年
3 王兰成;基于XMARC信息描述的知识标引与概念检索研究[D];东华大学;2004年
4 黄兵;基于粗糙集的不完备信息系统知识获取理论与方法[D];南京理工大学;2004年
5 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
6 王利民;贝叶斯学习理论中若干问题的研究[D];吉林大学;2005年
7 达胡白乙拉;蒙古语基本动词短语自动识别研究[D];内蒙古大学;2005年
8 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
9 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
10 杨雨图;支持双语的协同CAPP系统若干关键技术研究[D];南京航空航天大学;2006年
中国硕士学位论文全文数据库 前10条
1 郑陶;基于平面向量的决策树算法在高考志愿选择系统中的应用[D];辽宁工程技术大学;2010年
2 王有权;基于Web的智能答疑技术研究与实现[D];南京财经大学;2010年
3 巫昌凯;企业知识库系统中复杂查询系统的设计与实现[D];华南理工大学;2010年
4 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
5 甄涛;基于社团发现的Blog信息收集原型系统的研究[D];解放军信息工程大学;2009年
6 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
7 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
8 曹亚辉;非结构文本最佳近似匹配系统的研究与实现[D];东华大学;2011年
9 叶奇旺;数据挖掘技术在手机行业客户关系管理中的应用研究[D];东华大学;2011年
10 陈磊;用例图到顺序图转换的研究[D];西安电子科技大学;2009年
【同被引文献】
中国期刊全文数据库 前10条
1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
2 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
3 李源,何清,史忠植;基于概念语义空间的联想检索[J];北京科技大学学报;2001年06期
4 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期
5 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
6 薛为民;陆玉昌;;文本挖掘技术研究[J];北京联合大学学报(自然科学版);2005年04期
7 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
8 魏桂英,郑玄轩;层次聚类方法的CURE算法研究[J];科技和产业;2005年11期
9 侯孟书,卢显良,周旭,詹川;非结构化P2P系统的路由算法[J];电子科技大学学报;2005年01期
10 林鸿飞,高仁璟;基于潜在语义索引的文本摘要方法[J];大连理工大学学报;2001年06期
中国重要会议论文全文数据库 前2条
1 岑荣伟;刘奕群;张敏;茹立云;马少平;;网络搜索引擎用户行为分析和研究[A];第五届全国信息检索学术会议论文集[C];2009年
2 刘东生;尹宝生;张桂平;徐立军;苗雪雷;;面向专利文献的中文分词技术的研究[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
2 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
3 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
4 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
5 徐敏;基于数据挖掘的Web信息检索研究[D];南京航空航天大学;2006年
6 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
7 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
8 孙承杰;基于判别式模型的生物医学文本挖掘相关问题研究[D];哈尔滨工业大学;2008年
9 鲍钰;WEB日志挖掘及其应用研究[D];华东师范大学;2010年
10 曹欢欢;基于大规模搜索日志挖掘的上下文感知搜索研究[D];中国科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 李朝阳;经济文献数据库计算机标引研究[D];南京农业大学;2000年
2 张驰;Web信息获取技术研究与实现[D];西北工业大学;2001年
3 贾自艳;中文智能搜索引擎关键技术研究[D];北京工业大学;2001年
4 朱毅华;智能搜索引擎中的同义词识别算法研究[D];南京农业大学;2001年
5 王照岳;XML查询处理技术研究与实现[D];浙江大学;2002年
6 郭琰;元搜索引擎的关键技术研究及系统实现[D];南京理工大学;2002年
7 王兴芳;基于XML的SQL查询扩展的研究与实现[D];暨南大学;2002年
8 赵志荣;个性化搜索引擎的研究、设计与实现[D];四川大学;2002年
9 皮鹏;智能搜索引擎系统的研究[D];哈尔滨工程大学;2002年
10 熊回香;网络信息检索及其发展趋势研究[D];华中师范大学;2003年
【二级引证文献】
中国期刊全文数据库 前7条
1 谌超;强保华;石龙;;基于Hadoop MapReduce的大规模数据索引构建与集群性能分析[J];桂林电子科技大学学报;2012年04期
2 方跃胜;董辉;姚宏亮;;多格式文档搜索引擎索引系统设计与实现[J];长江大学学报(自然科学版);2012年07期
3 陈志新;;搜索引擎的发展趋向和建设思路[J];农业图书情报学刊;2009年10期
4 毛蕾;;浅议网络搜索引擎的发展趋势[J];内蒙古科技与经济;2010年17期
5 黄宪通;张静;;本体及其在智能信息检索系统中的应用[J];南阳理工学院学报;2011年06期
6 余肖生;程怡凡;;基于关键词集合的信息搜索推荐研究[J];图书馆学研究;2012年07期
7 方跃胜;姚宏亮;;法律搜索引擎索引系统同步模块的设计与实现[J];计算机技术与发展;2011年03期
中国博士学位论文全文数据库 前3条
1 方雷;基于云计算的土地资源服务高效处理平台关键技术探索与研究[D];浙江大学;2011年
2 郭鸿志;多源语义知识库融合方法研究[D];哈尔滨工业大学;2011年
3 薛庆吉;基于3G网络的移动学习平台关键技术研究与应用[D];武汉理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 刘杰雄;基于本体的爆破行业信息搜索技术的研究[D];华南理工大学;2010年
2 魏春良;本体的构建方法与应用研究[D];电子科技大学;2011年
3 蔡尚辉;范例推理在智能车辆监控数据处理系统中的应用[D];河北科技大学;2011年
4 许亮;基于WSMO的数字图书馆网格应用模型研究[D];湖北工业大学;2011年
5 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年
6 蒋明原;云计算平台在搜索引擎中的关键技术研究[D];中北大学;2011年
7 陈璐;基于云计算的海量数据存储技术的研究及应用[D];武汉科技大学;2011年
8 宫彦磊;基于云计算的车载GPS导航终端的研究与设计[D];延边大学;2011年
9 崔涛;基于检准率分析中文自动标引方式存在问题及对策[D];河北大学;2011年
10 邢敏玲;基于网页分块的主题爬虫方法研究[D];重庆大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 张国煊,王小华,周必水;快速书面汉语自动分词系统及其算法设计[J];计算机研究与发展;1993年01期
2 陈桂林,王永成,韩客松,王刚;一种高效的中文电子词表数据结构[J];计算机研究与发展;2000年01期
3 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
4 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
5 郑毅,吴斌,史忠植;基于概念空间的文本检索系统[J];计算机工程与应用;2002年12期
6 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
7 李国臣,刘开瑛,张永奎;汉语自动分词及歧义组合结构的处理[J];中文信息学报;1988年03期
8 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
9 黄祥喜;书面汉语自动分词的“生成——测试”方法[J];中文信息学报;1989年04期
10 姚天顺,张桂平,吴映明;基于规则的汉语自动分词系统[J];中文信息学报;1990年01期
【相似文献】
中国期刊全文数据库 前10条
1 胡涛;路红英;;基于Nutch的搜索引擎的研究[J];计算机时代;2007年01期
2 冯书晓,徐新,杨春梅;国内中文分词技术研究新进展[J];情报杂志;2002年11期
3 王利明;顾翀;;说长道短话Google[J];传媒;2006年03期
4 云昌英;智能中文搜索引擎助您网上游[J];电脑;1997年07期
5 ;中文搜索引擎浅析[J];网络与信息;1999年08期
6 王剑;邵志清;;大规模中文搜索引擎的架构和设计技术[J];计算机科学;2002年01期
7 刘立新;;搜索引擎——互联网前进的动力引擎[J];互联网天地;2004年10期
8 ;中文搜索引擎的比较研究[J];软件世界;2000年10期
9 ;每周e人[J];每周电脑报;2000年21期
10 吴凤玉,柳家英;中文搜索引擎检索语言研究[J];津图学刊;2002年03期
中国重要会议论文全文数据库 前10条
1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
2 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 赵海;揭春雨;;基于子串标注的中文分词:寻找更佳的标注单元[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
6 彭辉;翟翔;;AutoCAD 2008自动翻译软件研发[A];全国冶金自动化信息网2010年年会论文集[C];2010年
7 王屹林;朱慕华;朱靖波;;针对SVM中文分词特性的个性化后处理设计[A];第三届学生计算语言学研讨会论文集[C];2006年
8 刘东生;尹宝生;张桂平;徐立军;苗雪雷;;面向专利文献的中文分词技术的研究[A];第五届全国信息检索学术会议论文集[C];2009年
9 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系统中的应用研究[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
10 李寿山;黄居仁;;基于词边界分类的中文分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国重要报纸全文数据库 前10条
1 上海 朱玉;为IE定制中文搜索引擎[N];电子报;2001年
2 网易公司联合首席技术执行官 许良杰;浅谈新一代中文搜索引擎[N];国际金融报;2000年
3 雨田;百度推出中文搜索引擎[N];通信产业报;2000年
4 记者 孙进;谷歌退出等待“三巨头”决策[N];第一财经日报;2010年
5 李斌;新型中文搜索引擎面世[N];福建日报;2000年
6 孙爽 清华大学经济外交研究中心;Google退出风波的背后[N];中国社会科学报;2010年
7 ;要做中文搜索引擎领航者[N];广州日报;2003年
8 张晓莺;超九成受访企业称或增加搜索营销投入[N];江苏科技报;2009年
9 北京 朱艳;中文搜索引擎大比拼[N];中国电脑教育报;2000年
10 本报记者 李延生;“我们离破产只有30天”[N];中国企业报;2001年
中国博士学位论文全文数据库 前10条
1 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
4 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
5 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
6 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年
7 张京楣;基于统计方法的文本风格分析研究[D];山东大学;2012年
8 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
9 汤步洲;序列标注问题的监督学习方法及应用[D];哈尔滨工业大学;2011年
10 董建设;协作式垃圾邮件过滤关键技术研究[D];兰州理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 潘照明;智能中文搜索引擎若干关键技术的研究与实现[D];浙江大学;2006年
2 陈彪;中文搜索引擎的个性化服务研究[D];电子科技大学;2010年
3 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
4 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
5 戚晶;基于RSS的搜索引擎的研究与实现[D];吉林大学;2006年
6 马莉;基于SVM的垃圾邮件过滤的研究[D];山东大学;2005年
7 王新梅;基于内容挖掘的垃圾邮件过滤技术[D];武汉理工大学;2006年
8 李培国;基于人工神经网的中文垃圾邮件过滤器的设计与实现[D];暨南大学;2007年
9 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
10 王圆;文本内容过滤的关键技术研究[D];东北师范大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026