收藏本站
《中国科学技术大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

WEB2.0网络热点发现与个性化检索研究

陆铭  
【摘要】:近几年来,所谓的Web2.0网站和技术发展迅速,彻底改变了互联网的面貌。Web2.0网站强调自由创作和用户参与,数以亿计的网民在新一代的Web平台上创造了海量的生动有趣的内容。越来越丰富的互联网信息资源使得用户难以在浩如烟海的数据中找到其真正感兴趣的信息,因此,各种各样的信息检索和搜索引擎技术得到了广泛的关注和巨大的发展。 现有的Web信息检索系统主要是搜索引擎,但是已有的搜索引擎还是存在着很多不足,主要表现为:一是Web2.0网站的内容被收录的比例很少;二是给出的结果不能反映当前网络的流行信息和热点话题;三是检索结果没有针对用户的兴趣爱好来排序和筛选。针对以上几点问题,论文所要探讨的就是如何在Web2.0环境下,帮助用户根据自己的兴趣爱好从Web2.0的信息海洋里获取流行的热点话题。 论文主要针对Web信息检索中的Web2.0社区网络热点发现以及个性化推荐进行了研究,以更好地改善用户的检索体验。为了达到这个目标,论文首先提出了研究的框架,然后探讨各个重要组成模块的关键技术,并针对Web2.0网站的特点提出相应改进的算法与模型。论文的主要内容和创新之处为: 1.针对Web2.0网站信息组织和层次结构的特点,抽象出面向对象的分布式深度爬虫(Object-Oriented Distributed Deep Crawler,简称OODDC),使用较经济的带宽来与真实数据保持同步,大大提高了爬虫的工作效率和采集数据的实时性。实验结果也证实了面向对象的分布式实时深度爬虫的优点。 2.详细研究了Web2.0网站数据格式和内容标签(Tag)化的特点,在传统Web信息抽取算法基础上,结合向量空间模型(VSM)和实体识别算法,采用少数几个Tag及其权重组成的向量来描述网页、图片、视频和博客等Web对象信息本体的特征,建立了基于Tag描述的统一信息表示模型。 3.基于Tag描述的统一信息表示模型,改进了已有的话题检测与跟踪(TDT)算法,用快速的聚类算法检测和聚合网络话题;同时结合用户反馈对于信息流行程度的影响,提出一种有效的网络话题热度评估算法(HotRank),对所收集的话题计算其热度,作为排序和推荐的依据。实践表明,以相关度和热度共同作为检索结果的排序依据更加吸引用户。 4.针对现有用户兴趣模型的缺陷,提出一种基于主题的在线用户兴趣模型。此模型自动提取用户访问网页的主题,并随时根据用户兴趣的变化以非常小的代价更新。该用户兴趣模型可以运用到各种个性化服务中。实验证明基于此模型的个性化推荐系统具有良好的性能。
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP391.3

【参考文献】
中国期刊全文数据库 前9条
1 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
2 于满泉;骆卫华;许洪波;白硕;;话题识别与跟踪中的层次化话题识别技术研究[J];计算机研究与发展;2006年03期
3 李保利,俞士汶;话题识别与跟踪研究[J];计算机工程与应用;2003年17期
4 张晓艳;王挺;陈火旺;;命名实体识别研究[J];计算机科学;2005年04期
5 骆卫华;于满泉;许洪波;王斌;程学旗;;基于多策略优化的分治多层聚类算法的话题发现研究[J];中文信息学报;2006年01期
6 洪宇;张宇;刘挺;李生;;话题检测与跟踪的评测及研究综述[J];中文信息学报;2007年06期
7 曾春,邢春晓,周立柱;个性化服务技术综述[J];软件学报;2002年10期
8 宋丹;王卫东;陈英;;基于改进向量空间模型的话题识别与跟踪[J];计算机技术与发展;2006年09期
9 孙茂松,邹嘉彦;汉语自动分词研究中的苦干理论问题[J];语言文字应用;1995年04期
【共引文献】
中国期刊全文数据库 前10条
1 税仪冬;瞿有利;黄厚宽;;周期分类和Single-Pass聚类相结合的话题识别与跟踪方法[J];北京交通大学学报;2009年05期
2 焦健;瞿有利;;知网的话题更新与跟踪算法研究[J];北京交通大学学报;2009年05期
3 王丽影;刘媛媛;李建英;;个性化服务在网络课程中的应用研究[J];办公自动化;2009年20期
4 付艳;杨冬青;唐世渭;伍伟;王腾蛟;高军;;基于实体识别的在线主题检测方法[J];北京大学学报(自然科学版);2009年02期
5 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
6 纪良浩;王国胤;杨勇;;基于协作过滤的Web日志数据预处理研究[J];重庆邮电学院学报(自然科学版);2006年05期
7 纪良浩;;协作过滤信息推荐技术研究[J];重庆邮电大学学报(自然科学版);2012年01期
8 陈大平;;搜索引擎技术方式之探析[J];长春理工大学学报(高教版);2009年10期
9 许建潮;王红梅;;改进的协同过滤算法[J];吉林大学学报(信息科学版);2008年01期
10 辛勤芳;;基于项目聚类的协同过滤算法研究[J];赤峰学院学报(自然科学版);2011年09期
中国重要会议论文全文数据库 前10条
1 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
2 彭楠赟;王厚峰;凌晨添;;基于层次聚类的网络新闻热点发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 潘雪莲;;词频统计在词典收词中的作用[A];中国辞书论集2001[C];2001年
4 梁伟贤;;网络搜索引擎发展现状的探讨[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
5 安娜;刘海涛;侯敏;;语料库中熟语的标记问题[A];第三届全国语言文字应用学术研讨会论文集[C];2004年
6 徐羽琼;李石坚;姚敏;;基于情境感知的个性化邮件服务[A];第四届和谐人机环境联合学术会议论文集[C];2008年
7 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
8 傅思泉;;机器词典中按韵分词及虚词问题[A];江西省语言学会第五届会员大会暨2002年学术年会论文集[C];2002年
9 刘咏梅;卢鸿剑;杜美玲;;基于Multi-agent的个人电脑客户定制服务推荐系统[A];2006中国控制与决策学术年会论文集[C];2006年
10 汤志伟;王菁;;面向公众的电子政务个性化信息服务体系的构建[A];中国信息经济学会2007年学术年会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
2 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
3 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
4 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
5 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
6 高田;基于领域知识的旅游突发事件状态评估与演化研究[D];北京邮电大学;2011年
7 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
8 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
9 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
10 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
中国硕士学位论文全文数据库 前10条
1 吴则则;支持动态演进的用户兴趣模型挖掘方法研究[D];山东科技大学;2010年
2 蔡宏果;基于基因表达式编程的Web个性化推荐技术研究[D];广西师范学院;2010年
3 刘建东;基于Web访问信息挖掘的数字图书馆个性化服务研究[D];浙江理工大学;2010年
4 许坤;基于本体的应急信息管理系统的研究与设计[D];郑州大学;2010年
5 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
6 赵慧杰;面向论坛的话题发现、跟踪及传播技术研究[D];哈尔滨工程大学;2010年
7 何莹杰;个性化图书信息服务技术研究[D];哈尔滨工程大学;2010年
8 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
9 柳琳琳;电信业服务创新对顾客重购意愿的影响研究[D];大连理工大学;2010年
10 李春;协同过滤推荐算法的研究[D];湘潭大学;2010年
【二级参考文献】
中国期刊全文数据库 前9条
1 林鸿飞,高天,姚天顺;中文文本的可视化表示[J];东北大学学报;2000年05期
2 赵华;赵铁军;张姝;王浩畅;;基于内容分析的话题检测研究[J];哈尔滨工业大学学报;2006年10期
3 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
4 于满泉;骆卫华;许洪波;白硕;;话题识别与跟踪中的层次化话题识别技术研究[J];计算机研究与发展;2006年03期
5 李保利,俞士汶;话题识别与跟踪研究[J];计算机工程与应用;2003年17期
6 李晓黎,刘继敏,史忠植;基于支持向量机与无监督聚类相结合的中文网页分类器[J];计算机学报;2001年01期
7 骆卫华;于满泉;许洪波;王斌;程学旗;;基于多策略优化的分治多层聚类算法的话题发现研究[J];中文信息学报;2006年01期
8 李涓子,黄昌宁;语言模型中一种改进的最大熵方法及其应用[J];软件学报;1999年03期
9 宋丹;王卫东;陈英;;基于改进向量空间模型的话题识别与跟踪[J];计算机技术与发展;2006年09期
【相似文献】
中国期刊全文数据库 前10条
1 汪剑;;基于Web的数据挖掘在信息服务领域的应用[J];软件导刊;2008年10期
2 黄凤爱;蒋永平;蒋姣丽;杨翘;;基于Web的实验室在线预约系统[J];中国现代教育装备;2008年08期
3 陈怡;;数字参考咨询服务的新特点及相应思考[J];内蒙古科技与经济;2009年17期
4 郅永红;岳晶晶;;Web2.0环境下高校个性化信息交流模型研究[J];图书情报工作;2010年S1期
5 林利迈;陈增成;谢长晓;;基于WEB2.0继续教育平台的开发初探[J];农业网络信息;2008年07期
6 胡玉华;;论图书馆专业分馆的个性化信息服务模式[J];东岳论丛;2010年09期
7 翟蓉;刘婕;;Web2·0在文献提供服务中的应用初探[J];云南农业大学学报(社会科学版);2011年01期
8 钱建生,刘富强,顾军,程乐团,常玉林,刘松科;基于Web的办公自动化系统的设计[J];煤矿自动化;2001年04期
9 肖展飞,洪流,蔡庆生;个性化Web主题信息监控系统的实现[J];计算机应用;2004年04期
10 宋妍;林峯:Web2.0的基本原则是真实[J];互联网周刊;2005年24期
中国重要会议论文全文数据库 前10条
1 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
3 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
4 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
5 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
6 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
7 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
8 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
9 黄建波;丁扬;方芳;;基于代理服务器的Web加速的实现[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年
10 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
3 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
4 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
5 闫冰;“推”出Web交付新天地[N];网络世界;2009年
6 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
7 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
8 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年
9 ;Web2.0工具使用须谨慎[N];网络世界;2009年
10 Anchiva中国区总经理 李松;Web安全选型三个标准[N];网络世界;2008年
中国博士学位论文全文数据库 前10条
1 陆铭;WEB2.0网络热点发现与个性化检索研究[D];中国科学技术大学;2012年
2 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
3 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
4 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
5 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
6 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
7 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
8 黄雪娟;语义Web服务及其合成方法的研究[D];武汉大学;2009年
9 王秀峰;Web导航中用户认知特征及行为研究[D];南京大学;2013年
10 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
中国硕士学位论文全文数据库 前10条
1 张金磊;Web2.0环境下内容提取与信息发布系统研究与实现[D];新疆大学;2010年
2 任豪栋;基于Web日志挖掘的原型系统研究与实现[D];西华大学;2011年
3 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年
4 吴新勇;基于需求群组的Web服务调度模型研究[D];上海交通大学;2011年
5 徐卫;Web新闻热点发现系统的设计与实现[D];华中科技大学;2011年
6 姜本臣;基于嵌入式Web服务器应用技术的研究[D];沈阳工业大学;2012年
7 庄贵成;Web2.0信息组织方式研究[D];东北师范大学;2010年
8 温梨梨;基于零拷贝的Web服务器技术研究[D];中国海洋大学;2011年
9 焦燕廷;一种基于领域本体的语义Web服务匹配和组合方法[D];山东科技大学;2011年
10 黄亮;Web漏洞扫描系统中的智能爬虫技术研究[D];杭州电子科技大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026