收藏本站
收藏 | 论文排版

面向web文本挖掘的主题搜索技术研究

段平  
【摘要】: 随着因特网的快速发展,海量的Web数据资源已经成为人们获取知识与信息的重要来源。由于Web资源具有半结构性、离散性、实时性和异构性等特点,用户很难快速准确地从Web上获取真正有价值的信息。获取Web信息的主要方法是使用搜索引擎,而现在流行的通用搜索引擎不能很好的提供信息结构抽取、Web文本内容的分类、过滤以及文档理解方面的功能。因此,如何设计搜索引擎技术,使之更适应的对Web资源进行高效的挖掘就成为了研究热点。 本论文的研究内容是面向Web文本挖掘的主题搜索引擎研究与系统设计。重点讨论了当前流行的Web挖掘以及搜索引擎的核心技术,并且设计和实现主题Web信息挖掘和搜索原型系统Label3。本文的主要工作研究如下: 主题爬虫技术:改进了以往的爬虫策略,提出了基于非贪婪遗传算法的网络爬虫搜索策略,对各个算法进行数据分析和性能比较。 语言过滤分词、中文字词切分算法:考虑到拉丁语言与中文语言的差异,本文讨论了各自的语言分词算法,特别针对中文语言的特殊性,提出了基于字典的“词元”分词算法。 Web数据的挖掘算法:主要是对采集到的Web数据,进行数据聚类分类,发现数据的内在联系,并且提取文本的类别信息,为用户提供更好的信息服务。 数据索引和检索机制:数据索引机制采用独特的倒排序策略来建立数据索引,对获取的文本信息进行细化。信息查询检索服务针对不同类别网页分类查询,使用户的得到的搜索结果更加精确。 针对以上研究成果,本文描述了原型系统的设计实现细节。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张维好,张英杰,章兢;移动通讯系统中固定网络的优化设计[J];计算技术与自动化;2004年03期
2 肖启莉,柴本成,杨庆;《人工智能》教学中的几点思考[J];计算机与数字工程;2005年07期
3 刘俊熙;搜索引擎关键技术在检索层面上的分析理解[J];图书馆学刊;2005年05期
4 张奔;;语音搜索时代来临[J];中国新通信;2006年13期
5 刘俊熙;;搜索引擎对局域网的搜索(“侵入”)及防范策略[J];现代情报;2007年07期
6 武佳;;搜索微软[J];互联网周刊;2009年11期
7 朱恒亮;蒋建民;肖颖;;基于搜索的信息管理系统[J];计算机与数字工程;2009年09期
8 徐心和;;从计算机博弈到机器人足球——人工智能长期而持续的挑战[J];机器人技术与应用;2010年01期
9 ;对未来Google搜索技术的深度分析[J];中国传媒科技;2010年07期
10 张述冠;开复去意决,诉讼难回天[J];中国计算机用户;2005年30期
11 ;捍卫商用搜索市场 Autonomy以“智”取胜[J];计算机与网络;2006年06期
12 王炯;;探访图片搜索[J];互联网天地;2007年09期
13 袁楚;;用生活搜索改变生活——专访爱帮网CEO刘建国[J];互联网天地;2008年10期
14 冯茜茜;;“谷歌杀手”柳暗未见花明[J];信息方略;2008年18期
15 余健仪;;搜索,无限膨胀的蛋糕[J];电脑与电信;2009年03期
16 吴德慧;;新型网络信息查找技术——对称式搜索[J];电脑采购周刊;2002年07期
17 崔轶;;IT产业的新圈地运动Google VS Microsoft[J];程序员;2005年10期
18 杨军;张波;;机器博弈游戏在单片机上实现[J];计算机应用;2006年02期
19 陈淑娟;;奇虎之“奇”[J];电子商务世界;2006年04期
20 吴红梅;;电子商务模式下营销方法的变化[J];科技信息(科学教研);2007年23期
中国重要会议论文全文数据库 前10条
1 王知津;韩正彪;周鹏;;网络信息移动搜索的结构框架与技术机理探讨[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
2 魏美勇;张国良;;视频共享服务应用技术研究[A];信息时代——科技情报研究学术论文集(第三辑)[C];2008年
3 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
4 陆宇旻;杨柳;;JXTA CMS搜索技术的研究[A];广西计算机学会——2004年学术年会论文集[C];2004年
5 叶伟芳;;基于P2P的搜索技术和方法研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 陆宇旻;杨柳;;JXTA CMS搜索技术的研究[A];广西计算机学会2004年学术年会论文集[C];2004年
7 王聪生;;点阵图形矢量化研究[A];中国土木工程学会计算机应用学会学术报告会论文集(4)[C];1989年
8 谢力;;云时代的图片存储与搜索技术研究[A];四川省通信学会Ip应用与增值电信技术会议论文集[C];2011年
9 何青;骆翔宇;苏开乐;;对弈必胜策略的符号化模型检测[A];2006年全国理论计算机科学学术年会论文集[C];2006年
10 杨崇俊;刘冬林;张富庆;王刚;付理;杨洪志;田生军;李彬;张荟娟;王芙蓉;李津平;乐小虬;张建兵;宋子辉;;电子政务与隐形搜索技术-词虎[A];中国测绘学会2006年学术年会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 曹欢欢;基于大规模搜索日志挖掘的上下文感知搜索研究[D];中国科学技术大学;2009年
2 王斌;面向关系数据库的关键字近似搜索技术研究[D];东北大学;2008年
3 范磊;两类复杂优化问题的高效智能算法研究[D];西安电子科技大学;2012年
4 李东升;基于对等模式的资源定位技术研究[D];国防科学技术大学;2005年
5 李妍峰;时变网络环境下车辆调度问题研究[D];西南交通大学;2008年
6 李锋刚;基于优化案例推理的智能决策技术研究[D];合肥工业大学;2007年
7 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
8 王学德;高超声速稀薄气流非结构网格DSMC及并行算法研究[D];南京航空航天大学;2006年
9 文坤梅;基于本体知识库推理的语义搜索研究[D];华中科技大学;2007年
10 刘春辰;基于本体的企业搜索优化技术研究[D];吉林大学;2012年
中国硕士学位论文全文数据库 前10条
1 王新鹏;认知模型的研究和应用[D];兰州理工大学;2007年
2 宋超臣;基于推荐网络的服务搜索技术研究[D];哈尔滨工程大学;2010年
3 唐继禹;云环境下基于个性化模型的探索式搜索技术研究与实现[D];上海交通大学;2013年
4 谭磊;一种个性化移动搜索技术的研究[D];湖南大学;2010年
5 牛雷;分布式多媒体平台中视频搜索技术的研究与应用[D];北京邮电大学;2013年
6 刘玉燕;远程教育资源智能检索系统的研究与设计[D];东北师范大学;2004年
7 孙明星;Sphinx站内搜索技术在论坛产品中的应用研究[D];复旦大学;2012年
8 丁士敏;基于Ajax/Lucene的站内搜索技术研究与实现[D];西安电子科技大学;2008年
9 孙伟;基于P2P技术的网格资源管理模型的研究[D];辽宁工程技术大学;2006年
10 杨国梁;综合数据业务平台中内容管理系统的研究与设计[D];北京邮电大学;2007年
中国重要报纸全文数据库 前10条
1 记者 罗添;周鸿祎重打搜索技术牌[N];北京商报;2006年
2 网络推手 詹鹏 张文杰;揭秘人肉搜索引爆点[N];中国经营报;2008年
3 ;搜索引擎服务的新商机[N];21世纪经济报道;2006年
4 本报记者 陈昌成;陈沛:未来的搜索会更加精确[N];中国企业报;2010年
5 佐岸;巧借网络新特性推广图书[N];中华读书报;2006年
6 本报记者 沈烽;桌面搜索技术挑战传统搜索模式[N];通信信息报;2004年
7 本报记者 贾晶晶;谷歌为何屡屡“聚黄”?[N];中国企业报;2009年
8 顾汶;搜索门户将取代门户搜索?[N];中国高新技术产业导报;2004年
9 毛涛涛;张朝阳:放弃搜索技术很危险[N];北京商报;2007年
10 张国;专家呼吁唤醒“沉睡”信息[N];经济日报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978