收藏本站
《中国科学院研究生院(计算技术研究所)》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

Web信息智能获取若干关键问题研究

贾自艳  
【摘要】:因特网(Internet)为人们开辟了一个共同的、全新的天地。人们在这个虚拟的世界里,以一种全新的方式进行交流。任何人在任何时间、任何地点都可以通过网络发布任何信息,这使得网络成为最重要的信息来源。但是面对潮水般涌来的电子文献,人们变得无所适从。所以研究Web信息智能获取技术以帮助用户快速、准确地定位到自己需要的信息,具有广泛的应用背景和实用价值,已经成为近年来的研究热点。基于这样一个前提,本文对Web信息获取若干关键问题,包括信息采集、信息抽取、事件探测和追踪、以及事件来龙去脉等方面,从模型、算法和应用三个层次上进行了深入细致的研究,主要贡献和创新点包括如下几个方面: (1)通过对Web信息采集过程及其实例系统分析,基于主体的基本理论与技术,提出了一种网络信息采集的多主体模型,并在实验室研制的多主体环境MAGE下完成了建模和实现。同时针对用户的个性化信息需求,通过分析研究Web主题页面的特点,提出三种主题相关性计算模型:基于链接关系的URL主题相关性计算模型、基于URL描述信息的主题相关性计算模型、基于网页内容语义的相关性计算模型,并且基于三种主题相关性计算模型实现了专题跟踪采集模式。实验结果验证了基于多主体的信息采集模型的灵活性、开放性、高效性、易于实现性以及三种主题相关性计算模型的有效性。 (2)通过分析Web噪音数据存在的特点,提出了三种噪音数据判别模型:基于URL标记信息的噪音判别模型、基于噪音数据冗余特点的判别模型、基于URL标记文本信息熵的噪音数据判别模型,并且基于这三种判别模型实现了Web噪音数据去除算法。实验结果验证了三种噪音去除模型的可行性和有效性。Web噪音去除算法可以有效解决数据质量问题,从而可以提高后续文本分类、聚类、事件探测和追踪、事件来龙去脉的生成等文本挖掘算法的性能。 (3)提出了一种基于概率统计和规则相结合的新词/短语发现算法。该算法首先对语料库进行分词和词性标注,然后基于“二元语法”统计模型对分词和标注后的语料库进行共现分析得到原始的二元统计结果,并且基于统计公式进行选词,但是结果不是很理想。为此,通过大量分析汉语组词规律,提出了多种选词规则:词性、词长、禁用词等规则,然后利用这些规则对统计选词后的结果进行层层过滤,最后只需很少的人工干预就可得到质量很高的新词/短语。实验结果验证了基于概率统计和规则方法相结合的新词发现算法的有效性,它有效地结合了统计方法速度快和规则方法质量高的特点。 (4)通过分析网络新闻的特点,借鉴Single-Pass聚类思想提出了一种基于动态模型的新闻事件探测和追踪算法。动态模型可有效地改善新闻事件探测和追踪算法的效率,它包括:基于时间距离的相似度计算模型、动态阈值设置和事件模板进化思想。为了提高算法执行的速度,我们还提出了“类间距离”的思想及其两种计算“类间距离”的方法。实验结果验证了基于时间距离的相似度计算模型的有效性以及引入“类间距离”后算法执行的高效性。 (5)提出了一种事件来龙去脉生成算法。该算法是基于时间要素和新颖性计算模型,将报导
【学位授予单位】:中国科学院研究生院(计算技术研究所)
【学位级别】:博士
【学位授予年份】:2004
【分类号】:TP393.09

【引证文献】
中国期刊全文数据库 前5条
1 胡俊;;基于多重分形的实际信息流的尺度研究[J];成都大学学报(自然科学版);2009年01期
2 易平;刘宗田;周文;;人物传记研究综述[J];计算机工程与设计;2009年14期
3 拜战胜;徐德智;彭佳红;陈光仪;;基于主题本体的信息采集模型研究[J];计算机技术与发展;2009年10期
4 李俊;;语义数据库Freebase研究[J];现代图书情报技术;2011年10期
5 逯万辉;马建霞;;基于条件随机场模型的复杂时间信息抽取研究[J];现代图书情报技术;2011年10期
中国重要会议论文全文数据库 前1条
1 陈沛;;搜索的未来[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前1条
1 王凯;基于粗集理论的工程项目管理指标及其体系研究[D];北京交通大学;2012年
中国硕士学位论文全文数据库 前10条
1 许武权;基于Web文本信息的智能检索系统的设计与实现[D];电子科技大学;2011年
2 樊德强;WEB个性化信息采集与管理关键技术研究[D];郑州轻工业学院;2011年
3 毛平;基于领域本体的文本信息语义检索研究[D];南京理工大学;2007年
4 金晓鸥;互联网舆情信息获取与分析研究[D];上海交通大学;2008年
5 牟力科;Web中文信息抽取技术与命名实体识别方法的研究[D];西北大学;2008年
6 郑希文;互联网话题演变与传播分析技术研究[D];哈尔滨工程大学;2009年
7 拜战胜;SNAX系统数据采集研究[D];中南大学;2009年
8 肖建鹏;基于SVM的Web信息抽取技术研究[D];解放军信息工程大学;2008年
9 高国洋;体育领域信息抽取系统的研究[D];华北电力大学(河北);2010年
10 苑擎飏;基于决策树中文文本分类技术的研究与实现[D];东北大学;2008年
【参考文献】
中国期刊全文数据库 前2条
1 黄萱菁;吴立德;;基于向量空间模型的文档分类系统[J];模式识别与人工智能;1998年02期
2 张普;关于大规模真实文本语料库的几点理论思考[J];语言文字应用;1999年01期
中国硕士学位论文全文数据库 前1条
1 贾自艳;中文智能搜索引擎关键技术研究[D];北京工业大学;2001年
【共引文献】
中国期刊全文数据库 前10条
1 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
2 ;A New Clustering Algorithm for Categorical Attributes[J];Journal of University of Science and Technology Beijing(English Edition);2000年04期
3 李国英;周晓文;;字料库建设的必要性与可行性[J];北京师范大学学报(社会科学版);2009年05期
4 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期
5 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
6 郭淼霞;;中文网页分类研究综述[J];赤峰学院学报(自然科学版);2011年12期
7 何友全;徐澄;徐小乐;唐华姣;;一种基于统计学特征和DOM树的网页去噪技术[J];重庆理工大学学报(自然科学版);2011年01期
8 张普;;论语言的动态[J];长江学术;2008年01期
9 侯敏;;关于新词语编年本编纂的思考[J];辞书研究;2010年02期
10 李绍英;;基于代理技术的比较购物研究[J];当代经理人;2006年10期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;Incremental Clustering for Categorical Data Using Clustering Ensemble[A];第二十九届中国控制会议论文集[C];2010年
3 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
4 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
5 毛力群;;“拇指文化”演绎语言新时尚——手机短信的语体分析[A];第三届全国语言文字应用学术研讨会论文集[C];2004年
6 颜伟;;基于动态流通语料库的VSM新词发现策略[A];2004年辞书与数字化研讨会论文集[C];2004年
7 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
8 柏桂荣;章勇;;基于RSS的用户兴趣模型研究[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
9 ;Research of Web Documents Clustering Based on Dynamic Concept[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
10 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
3 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
4 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
5 李晋江;海量数据点三维重构中一类关键问题研究[D];山东大学;2010年
6 杨剑锋;适合并行的无干预文档聚类算法研究[D];武汉大学;2010年
7 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
8 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
9 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
10 吴超;信息检索中top-k问题的并行算法及优化研究[D];中国科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
4 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
5 于洋;一种改进的COBWEB算法研究[D];哈尔滨工程大学;2010年
6 李丹丹;基于权重设计的聚类融合算法研究及应用[D];辽宁工程技术大学;2009年
7 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
8 王思丽;藏文网页自动发现与采集技术研究[D];西北民族大学;2010年
9 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
10 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 张于心,智明光;综合评价指标体系和评价方法[J];北方交通大学学报;1995年03期
2 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
3 孙震,罗嗣怀;建筑企业项目管理能力的模糊数学评审方法[J];北京建筑工程学院学报;2004年04期
4 李卫东;宋威;李欣;杨炳儒;;一种多标准决策树剪枝方法及其在入侵检测中的应用[J];北京科技大学学报;2007年04期
5 李红梅;丁振国;周水生;周利华;;元搜索引擎结果合成算法[J];北京邮电大学学报;2008年05期
6 何晓晴;曾志坚;;工程项目合作管理定性指标体系的构建与分析[J];财经理论与实践;2006年03期
7 高红;黄德根;杨元生;;汉语自动分词中中文地名识别[J];大连理工大学学报;2006年04期
8 郭晓霞,刘瑛;工程项目评标优化决策模型研究[J];低温建筑技术;2005年01期
9 汪应洛,杨耀红;工程项目管理中的人工神经网络方法及其应用[J];中国工程科学;2004年07期
10 樊治平,肖四汉;有时序多指标决策的理想矩阵法[J];系统工程;1993年01期
中国博士学位论文全文数据库 前10条
1 成颖;信息检索相关性判据及应用研究[D];南京大学;2011年
2 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
3 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
4 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
5 李杰;隐马尔可夫模型的研究及其在图像识别中的应用[D];清华大学;2004年
6 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
7 许建潮;Web挖掘中若干问题的研究[D];吉林大学;2005年
8 张雪英;基于粗糙集理论的文本自动分类研究[D];南京理工大学;2005年
9 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
10 刘刚;数据挖掘技术与分类算法研究[D];中国人民解放军信息工程大学;2004年
中国硕士学位论文全文数据库 前10条
1 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
2 姚松源;文本自动分类系统的研究与实现[D];北京工业大学;2003年
3 狄慧;基于Agent的Web信息抽取研究[D];大连理工大学;2004年
4 艾丹祥;基于本体论的知识检索研究[D];武汉大学;2004年
5 杨婷婷;大型工程项目质量评价指标体系研究[D];大连理工大学;2006年
6 彭希鸿;基于Web内容挖掘的网页分类与过滤研究与应用[D];中南大学;2003年
7 孙国欣;基于主动学习的中文文本分类[D];兰州大学;2006年
8 赵国荣;中文新闻语料中的时间短语识别方法研究[D];山西大学;2006年
9 熊德兰;中文网页褒贬倾向性分类研究[D];郑州大学;2006年
10 黄永光;基于网页挖掘的搜索引擎若干技术的研究[D];哈尔滨工业大学;2006年
【二级引证文献】
中国期刊全文数据库 前10条
1 周民;邱雅;王华彬;;网络舆情分析中智能爬虫的设计[J];电脑知识与技术;2011年33期
2 叶菲;俞志富;;基于多重和高阶分形特性的雷达信号调制方式识别[J];舰船电子工程;2010年04期
3 许峰;;基于Web的实验室互联网舆情分析处理系统的研究与实现[J];科技情报开发与经济;2011年01期
4 王东;牛军钰;;基于多角度关联模型的实体检索方法[J];计算机工程;2013年01期
5 乔磊;李存华;仲兆满;王俊;刘冬冬;;基于规则的人物信息抽取算法的研究[J];南京师大学报(自然科学版);2012年04期
6 王知津;王丽娜;胡玲玲;;智能检索环境下的索引编制[J];图书馆杂志;2011年01期
7 黄微;陈玲;范轶;;数字图书馆知识组织系统热点分析[J];图书情报工作;2009年15期
8 陈忆金;曹树金;陈少驰;陈珏静;;网络舆情信息监测研究进展[J];图书情报知识;2011年06期
9 陈桂鸿;曹树金;陈忆金;;网络舆情信息提取与预处理研究[J];图书情报知识;2011年06期
10 闻中慧;;数据挖掘中的本体应用研究综述[J];软件导刊;2012年07期
中国博士学位论文全文数据库 前2条
1 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
2 牟冬梅;数字图书馆知识组织语义互联策略及其应用研究[D];吉林大学;2009年
中国硕士学位论文全文数据库 前10条
1 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
2 朴红吉;基于分布式多索引融合的专利信息检索研究[D];大连理工大学;2010年
3 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
4 王旭;互联网舆情监控系统中聚焦爬虫的设计与实现[D];北京邮电大学;2011年
5 李蕊;基于网络爬虫技术的多源下载系统的设计与实现[D];北京邮电大学;2011年
6 刘杰;互联网舆情信息搜索与分析技术研究[D];电子科技大学;2011年
7 卫伟;基于Web舆情的意见挖掘关键技术研究[D];电子科技大学;2011年
8 袁应成;基于用法属性的现代汉语介词短语边界识别研究[D];郑州大学;2011年
9 马中杰;基于领域本体的语义检索系统研究[D];安徽大学;2011年
10 马玲;基于本体的监控视频描述与检索研究及流媒体发布平台开发[D];上海交通大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 钟义信;从“统计”到“理解”,从“传输”到“认知”[J];电子学报;1998年07期
2 杨晓兰,钟义信;基于文本理解的自动文摘系统研究与实现[J];电子学报;1998年07期
3 陈桂林,王永成;Internet网络信息自动摘要的研究[J];高技术通讯;1999年02期
4 周强;;基于语料库和面向统计学的自然语言处理技术[J];计算机科学;1995年04期
5 陈祖舜;;信息语义学:一个新计算语义学的构想[J];计算机科学;1995年06期
6 周斌,吴立德,沙新时;中心词驱动的汉语语义解释器[J];计算机学报;1994年09期
7 曹礼德 ,姚天顺;关系数据库上泛关系查询与中文查询语言的接口[J];中文信息学报;1986年01期
8 王建波,王开铸;自然语言篇章理解及基于理解的自动文摘研究[J];中文信息学报;1992年02期
9 王建波,杜春玲,王开铸;基于篇章理解的自动文摘研究[J];中文信息学报;1995年03期
10 吴军,王作英,禹锋,王侠;汉语语料的自动分类[J];中文信息学报;1995年04期
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026