收藏本站
《华南理工大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于时态信息的网页排序系统的研究与实现

钟鸿鹏  
【摘要】: 根据中国互联网络信息中心的互联网分析报告,在中国网络用户获取信息的主要途径中,网络具有最高的比例,占82.6%,高于电视的64.5%和报纸的57.9%。其中,浏览新闻在网民经常使用的网络服务中占首位,比例为66.3%。 时间是信息的本质属性之一,同样也是网页的本质属性之一。在日常生活中,当人们阅读一篇新闻时,总是要把文章的内容和时间信息联系起来,通过文章中的时间信息可以了解一个事件的开始、进行、结束以及事件发生的频率,把握一个事件发生的全过程,了解事件发展的前因后果,作为进一步决策的重要依据。要了解发生的新闻事件,时间信息将是文本中非常关键的因素。 现有的搜索引擎使用关键词匹配的方式查找网页,通常返回很多结果,包含大量冗余信息,用户很难在短时间内准确地筛选出需要的内容,获取有用的信息。主流的基于链接的排序方法倾向于支持较旧的网页,而使新的网页排名靠后。但是大多数用户想要最新的信息,所以带给用户新的网页是非常重要的,而基于时态信息的Web信息搜索方面的研究还非常少。因此,需要对搜索引擎提供的服务加以细化,提供更专业、更有效的服务。 本文对搜索引擎的结果进行二次处理:首先获取前面若干个结果的即时版本,然后对网页文本中的时间信息进行了识别,并针对新闻中可能出现的多个时间,提出了一种基于词共现频率的网页主时间抽取算法,找出最贴切表示网页事件内容的主时间。接着对抽取出的网页主时间进行时间推理转化为规范化的格式;最后根据网页主时间进行搜索结果的排序,将经过这一系列处理后的排序结果返回给用户。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP393.092

【参考文献】
中国期刊全文数据库 前10条
1 贺瑞芳;秦兵;潘越群;刘挺;李生;;基于启发式错误驱动学习的中文时间表达式识别[J];高技术通讯;2008年12期
2 高炜;张超;梁立;;信息检索排序算法研究综述[J];信息技术;2009年06期
3 徐永东;徐志明;王晓龙;刘远超;;中文文本时间信息获取及语义计算[J];哈尔滨工业大学学报;2007年03期
4 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
5 周俊生;戴新宇;尹存燕;陈家骏;;自然语言信息抽取中的机器学习方法研究[J];计算机科学;2005年03期
6 黄连恩;李晓明;;基于历史网页的事件报导信息系统设计与分析[J];计算机工程与科学;2008年02期
7 鲁松,李晓黎,白硕,王实;文档中词语权重计算方法的改进[J];中文信息学报;2000年06期
8 王昀,苑春法;基于转换的时间-事件关系映射[J];中文信息学报;2004年04期
9 车万翔,刘挺,李生;实体关系自动抽取[J];中文信息学报;2005年02期
10 吴平博;陈群秀;马亮;;基于时空分析的线索性事件的抽取与集成系统研究[J];中文信息学报;2006年01期
中国博士学位论文全文数据库 前1条
1 包胜华;基于Web的实体信息搜索与挖掘研究[D];上海交通大学;2008年
中国硕士学位论文全文数据库 前5条
1 赵国荣;中文新闻语料中的时间短语识别方法研究[D];山西大学;2006年
2 王崝;基于时间链接分析的页面排序优化算法研究[D];江苏大学;2008年
3 吴刚;基于主题的中文事件抽取技术研究及应用[D];苏州大学;2009年
4 孙逸雪;基于时态信息的主题搜索引擎的研究与实现[D];中国科学技术大学;2009年
5 严桂夺;基于主题聚类的网页目录结构构建方法研究[D];华南理工大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 王伟;赵东岩;赵伟;;中文新闻关键事件的主题句识别[J];北京大学学报(自然科学版);2011年05期
2 宋涛;施水才;房祥;吕学强;;基于改进的潜在语义分析的文本聚类[J];北京信息科技大学学报(自然科学版);2012年03期
3 傅骞;温晓辉;;开放式Web信息抽取系统研究与实现[J];北京师范大学学报(自然科学版);2005年06期
4 吕佳;;基于改进分类模型的文本分类系统实现[J];重庆师范大学学报(自然科学版);2009年02期
5 王萍;;基于社会化语义网的网络学习初探[J];中国远程教育;2011年02期
6 陈子昕;;基于SVM的文本分类系统设计与实现[J];东莞理工学院学报;2008年03期
7 王昱;邵立凤;姚春龙;;基于ATSQL2时间点与时间段时态操作扩充[J];大连工业大学学报;2009年04期
8 赵江江;秦兵;;基于BootStrapping的中文事件元素抽取系统设计与实现[J];智能计算机与应用;2012年01期
9 张庆文;谢红薇;;应急系统中时态数据的本体表示与检索研究[J];电脑开发与应用;2008年09期
10 李文华;;基于关系数据库实现时态数据库[J];电脑开发与应用;2010年07期
中国重要会议论文全文数据库 前10条
1 万英;蒋梁中;翟敬梅;;虚拟数据库与WEB数据挖掘[A];首届泛珠三角先进制造技术论坛暨第八届粤港机电工程技术与应用研讨会论文专辑[C];2004年
2 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
3 刘牧;杨智强;王衡;;基于普适计算的日程发现方法探讨[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【poster】[C];2011年
4 赵敬华;高慧颖;魏军;;基于本体的商品信息查询系统与算法研究[A];中国企业运筹学[C];2009年
5 周小甲;李昊旻;吕旭东;段会龙;;中文病历文本中的时间表达分类与识别[A];中国生物医学工程学会成立30周年纪念大会暨2010中国生物医学工程学会学术大会青年优秀论文[C];2010年
6 王松;杨沐昀;赵铁军;;基于统计的命名实体翻译[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
7 卢卫雄;;一种基于支持向量机的多国语言文本分类平台[A];第十六届全国青年通信学术会议论文集(上)[C];2011年
8 陈浩;何婷婷;代玲;;基于向量空间模型的无导词义消歧[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 吴平博;陈群秀;马亮;;基于时空分析的线索性事件的抽取与集成系统研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 赵国荣;杨尔弘;;事件类时间短语识别[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
2 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
3 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
4 舒江波;面向中文信息处理的复句关系词自动标识研究[D];华中师范大学;2011年
5 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
6 高田;基于领域知识的旅游突发事件状态评估与演化研究[D];北京邮电大学;2011年
7 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
8 孙珂;大规模文档标签自动标注技术研究[D];哈尔滨工业大学;2011年
9 张翀;基于对等计算的分布式时空索引技术研究[D];国防科学技术大学;2011年
10 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 岳海鸥;基于Ajax和Soap Service的应用框架及实现方法研究[D];山东科技大学;2010年
2 刘靖媛;个性搜索引擎中用户兴趣模型研究[D];哈尔滨工程大学;2010年
3 安波;基于蛋白质关系网络的蛋白质络合物抽取研究[D];大连理工大学;2010年
4 何昌钦;图像检索方法研究[D];大连理工大学;2010年
5 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
6 王玉丹;基于SVM的汉语依存句法分析研究[D];中国海洋大学;2010年
7 李小红;基于自举的弱指导中文语义关系抽取研究[D];苏州大学;2010年
8 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
9 季元叶;语言学特征在中文命名实体间语义关系抽取中的应用研究[D];苏州大学;2010年
10 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 李晓明;对中国曾有过静态网页数的一种估计[J];北京大学学报(自然科学版);2003年03期
2 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
3 文庭孝;情报检索中汉语语词自动切分研究[J];图书与情报;2001年02期
4 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
5 何嘉;陈琳;;基于神经网络汉语分词模型的优化[J];成都信息工程学院学报;2006年06期
6 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
7 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
8 张利;张立勇;张晓淼;耿铁锁;岳宗阁;;基于改进BP网络的中文歧义字段分词方法研究[J];大连理工大学学报;2007年01期
9 丁璇,侯汉清,章成志;中文网页标引源主题表达能力的调查统计[J];大学图书馆学报;2002年06期
10 吴启明;易云飞;;文本聚类综述[J];河池学院学报;2008年02期
中国重要会议论文全文数据库 前1条
1 吴平博;陈群秀;马亮;;基于时空分析的线索性事件的抽取与集成系统研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前1条
1 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
中国硕士学位论文全文数据库 前3条
1 乔羽;基于最大熵模型的中文人名识别方法研究[D];山西大学;2005年
2 刘玮玮;搜索引擎中主题爬虫的研究与实现[D];南京理工大学;2006年
3 王之鹏;Web文本分类系统中文本预处理技术的研究与实现[D];南京理工大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 胡少荣;孟嗣仪;刘云;张彦超;丁飞;;网页信息自动抽取技术的研究[J];铁路计算机应用;2010年09期
2 钟世通;;C++Builder编程访问网页信息的方法[J];科技资讯;2007年19期
3 徐明;;轻松破解网页右键屏蔽六招[J];电脑校园;2002年12期
4 杜翠茹;;浅析网页布局方法在教学中的优化[J];大众科技;2010年05期
5 孟涛,闫宏飞,王继民;Web网页信息变化的时间局部性规律及其验证[J];情报学报;2005年04期
6 ;和朋友看同一个网页的幸福生活[J];计算机与网络;2005年18期
7 张晓彦;张晓明;;一种基于表格属性的网页信息隐藏算法[J];北京石油化工学院学报;2009年01期
8 郭利伟;王家兵;;Web信息自动标引方法比较[J];内蒙古科技与经济;2009年07期
9 火善栋;;FORM表单反馈网页信息抽取的研究与实现[J];电脑知识与技术;2009年09期
10 张莉,曾致远;Windows下网页信息实时监听程序的设计与实现[J];微计算机信息;2005年03期
中国重要会议论文全文数据库 前10条
1 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
3 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
4 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
5 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
6 何庆;汤庸;谭柱成;;时态信息处理试验平台的构建[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
7 赵玉芳;张一鸣;;基于网页信息的印象形成的初步研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
8 张阳;李战怀;近藤广幸;;WEB PAGE的自动分类[A];第十六届全国数据库学术会议论文集[C];1999年
9 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 王文生;谢能付;;基于Web的农业信息自动抽取方法研究[A];中国农业信息科技创新与学科发展大会论文汇编[C];2007年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
3 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
4 金山软件副总裁 杨桓;着力“三大系统” 构筑网络安全屏障[N];中国电子报;2009年
5 郭京霞;枫叶之都状告百度恶意排名一审败诉[N];中国知识产权报;2007年
6 路人甲;请个专家来贴图[N];电脑报;2005年
7 夏凌;搜索引擎排名纠纷百度胜出[N];中华工商时报;2007年
8 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
9 郭京霞;百度胜诉搜索引擎排名纠纷案[N];中国企业报;2007年
10 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
中国博士学位论文全文数据库 前10条
1 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
2 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
4 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
5 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
6 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 段瑞雪;基于依存关系的用户意图的研究[D];北京邮电大学;2011年
9 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
10 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
2 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
3 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年
4 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
5 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
6 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
7 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年
8 任斌;基于本体的主动学习主题爬行的研究与实现[D];吉林大学;2010年
9 任兰鹏;基于代表样本的中文网页分类研究[D];山东大学;2010年
10 王立建;中文web文本过滤技术研究[D];中北大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026