收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文搜索引擎的个性化服务研究

陈彪  
【摘要】: 1994年,万维网(World Wide Web)出现。万维网极大地方便了人们的工作,它的信息广泛的可访问性以及开放性极大的鼓励了人们的创作积极性,同时也给信息检索领域带来了新的发展机遇和技术挑战。 搜索引擎是一个网络应用软件,从Web用户角度看,它能根据用户提交的查询词、短语或者一句话,返回一个可能与用户查询相关的网页列表,供用户进一步地判断和查询。当前,搜索引擎面临以下技术难点:多源异构数据类型、搜索内容的全面性、搜索的准确性、个性化检索等。个性化搜索是未来搜索技术发展的一个重要方向,是机器服务人类,人机和谐交互的一个重要发展。 本文系统的研究了中文搜索引擎的工作原理、实现技术以及个性化模型。深入地分析了中文搜索引擎的核心技术:中文分词、机器爬虫、索引的建立与倒排序文件的生成、查询优化以及查询结果的排序等。通过对中文分词系统的改进,加入混合词典机制,提高了中文分词的准确性。分析Web信息挖掘技术与信息检索技术的关系,通过对用户使用中文搜索引擎的查询习惯、访问频率,浏览网页等信息资源进行挖掘,提取用户的使用特征以及兴趣爱好,建立用户的个性化兴趣模型。根据用户个性化兴趣模型,给出了一个个性化中文搜索引擎模型。旨在结合Web信息挖掘提高中文搜索引擎的查准率,为用户提供个性化的信息检索服务。本文所做的具体工作如下: (1)深入研究中文搜索引擎的核心技术实现细节:网页信息搜集、对搜集到的原始信息预处理、建立索引以及倒排文件、提供查询服务。 (2)改进中文分词系统,提出一种实用的提高分词准确率的方法。 (3)分析Web信息挖掘技术与信息检索技术的关系,研究用户个性化模型的建立与更新,提出基于对用户使用搜索引擎的行为和习惯等信息进行挖掘建立和更新用户个性模型的方法。 (4)结合本文所做的研究,给出了一个个性化中文搜索引擎模型。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张文慧;张冉;;基于中文分词的农业信息检索平台设计[J];安徽农业科学;2011年20期
2 顾潇华;姜亦强;崔涛;;中文自动标引、全文检索及中文搜索引擎三者关系的探讨[J];图书馆学研究;2011年17期
3 杜娟;;Nutch中文分词的研究和改进[J];软件导刊;2011年06期
4 张旭;;构建基于本地服务的垂直搜索引擎[J];才智;2011年18期
5 韩月阳;邓世昆;贾时银;李远方;;基于字分类的中文分词的研究[J];计算机技术与发展;2011年07期
6 刘兆伟;黄永峰;;面向主题搜索引擎的实现与优化[J];数据通信;2011年04期
7 阴桂梅;郭广行;;智能答疑系统模型设计[J];电脑开发与应用;2011年07期
8 刘晓星;胡畅霞;;WEB中文本信息检索的关键技术研究[J];硅谷;2011年16期
9 杨春明;韩永国;;快速的领域文档关键词自动提取算法[J];计算机工程与设计;2011年06期
10 谷俊;王昊;;基于领域中文文本的术语抽取方法研究[J];现代图书情报技术;2011年04期
11 胡莉;;中文“词”的语言模型识别研究方法综述[J];北方文学(下半月);2011年03期
12 孙凯;;面向古建动画自动生成的中文自然语言处理[J];网络安全技术与应用;2011年09期
13 佟兴帆;邓辉宇;李志明;;上海光源产品管理系统及其全文检索子系统的改进[J];核技术;2011年07期
14 李玉峰;郜晓晶;;中文垃圾邮件过滤综合方法[J];计算机应用与软件;2011年08期
15 徐亚东;;网络版权利益平衡的实现途径探讨[J];中国出版;2011年13期
16 赵珂;逯鹏;李永强;;基于Lucene的搜索引擎设计与实现[J];计算机工程;2011年16期
17 陈国华;汤庸;彭泽武;李建国;;基于学术社区的学术搜索引擎设计[J];计算机科学;2011年08期
18 姚飞;纪磊;张成昱;陈武;;实时虚拟参考咨询服务新尝试——清华大学图书馆智能聊天机器人[J];现代图书情报技术;2011年04期
19 邹燕飞;于成尊;赵亮;;基于Lucene的文本搜索引擎的设计和实现[J];计算机与现代化;2011年09期
20 赵福军;;百度有啊 缘何出师未捷身先死[J];电脑爱好者;2011年09期
中国重要会议论文全文数据库 前10条
1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
2 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 赵海;揭春雨;;基于子串标注的中文分词:寻找更佳的标注单元[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
6 彭辉;翟翔;;AutoCAD 2008自动翻译软件研发[A];全国冶金自动化信息网2010年年会论文集[C];2010年
7 王屹林;朱慕华;朱靖波;;针对SVM中文分词特性的个性化后处理设计[A];第三届学生计算语言学研讨会论文集[C];2006年
8 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系统中的应用研究[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
9 刘东生;尹宝生;张桂平;徐立军;苗雪雷;;面向专利文献的中文分词技术的研究[A];第五届全国信息检索学术会议论文集[C];2009年
10 黄昌宁;赵海;;由字构词——中文分词新方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
4 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
5 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
6 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年
7 张京楣;基于统计方法的文本风格分析研究[D];山东大学;2012年
8 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
9 汤步洲;序列标注问题的监督学习方法及应用[D];哈尔滨工业大学;2011年
10 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
中国硕士学位论文全文数据库 前10条
1 潘照明;智能中文搜索引擎若干关键技术的研究与实现[D];浙江大学;2006年
2 陈彪;中文搜索引擎的个性化服务研究[D];电子科技大学;2010年
3 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
4 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
5 戚晶;基于RSS的搜索引擎的研究与实现[D];吉林大学;2006年
6 马莉;基于SVM的垃圾邮件过滤的研究[D];山东大学;2005年
7 王新梅;基于内容挖掘的垃圾邮件过滤技术[D];武汉理工大学;2006年
8 李培国;基于人工神经网的中文垃圾邮件过滤器的设计与实现[D];暨南大学;2007年
9 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
10 王圆;文本内容过滤的关键技术研究[D];东北师范大学;2006年
中国重要报纸全文数据库 前10条
1 上海 朱玉;为IE定制中文搜索引擎[N];电子报;2001年
2 雨田;百度推出中文搜索引擎[N];通信产业报;2000年
3 网易公司联合首席技术执行官 许良杰;浅谈新一代中文搜索引擎[N];国际金融报;2000年
4 记者 孙进;谷歌退出等待“三巨头”决策[N];第一财经日报;2010年
5 孙爽 清华大学经济外交研究中心;Google退出风波的背后[N];中国社会科学报;2010年
6 李斌;新型中文搜索引擎面世[N];福建日报;2000年
7 ;要做中文搜索引擎领航者[N];广州日报;2003年
8 张晓莺;超九成受访企业称或增加搜索营销投入[N];江苏科技报;2009年
9 北京 朱艳;中文搜索引擎大比拼[N];中国电脑教育报;2000年
10 本报记者 李延生;“我们离破产只有30天”[N];中国企业报;2001年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978