收藏本站
《哈尔滨工业大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

面向专业领域的网络信息采集及主题检测技术研究与应用

吴永辉  
【摘要】:随着互联网应用成为生活中不可缺少的工具,网络用户在查找相关信息时不得不面对各种主题混杂的海量网页信息。快速变化的信息需求使传统搜索引擎越来越难以满足用户更加专业和个性化的需求,用户已经不仅仅满足于相关信息的检索,越来越多的网络用户需要更加专业和个性化的信息服务来获取当前网络上发生的事件和领域信息相关的热点。本文将自然语言处理方法和数据挖掘方法相结合,研究了面向专业领域信息采集的自适应增量更新模型以及领域信息主题检测和新闻推荐的问题,使用自然语言处理技术对领域信息进行精细划分,向网络用户提供专业和个性化的知识服务。 及时而完备的信息采集是提供专业领域知识服务的前提。在信息采集技术方面,有关通用网络爬虫采集器部分已经有比较完善的研究,但是对于大规模专业领域信息的增量、自适应采集问题依然没有较好的解决方案。领域信息的增量自适应采集是提供在线领域知识服务的基础。本文针对这一问题提出了领域信息采集的自适应增量更新的模型,有效的提高了在线知识服务系信息采集的效率和质量。 面向专业领域的主题检测和热点推荐是知识服务的重要组成部分。在传统主题检测的相关研究中,基于文本聚类算法已经给出了基本的解决方案。但传统的基于文档特征共现的特征提取方法,无法满足专业领域在线主题检测的要求。 对于领域信息在线主题检测和新闻推荐系统,网页文本的维度过大是增加系统开销的主要原因。本文提出了一种基于容错粗糙集的特征提取和在线主题检测方法。对于在线主题检测问题,采用以特征词为单位的聚类方法,提出了以半结构化文档中主题性较强区域出现的特征词和名词性词为基础,以容错粗糙集扩展为辅的特征选择和压缩方法,缓解了由于文档数目增加带来的系统开销。实验表明,本文的特征提取和主题聚类方法,可以有效的降低特征空间维数,加快在线主题检测速度,降低聚类结果中不同主题类别之间的覆盖度,提高在线主题检测的准确率。同时,对基于Single-Pass聚类方法的新事件检测问题进行了改进,使用增量TF-IDF模型和时间线分析方法,提出了一种基于时间线分析的Single-Pass在线新事件检测方法。 为了进一步提高专业领域主题检测的准确率,本文研究了主题模型在网络主题检测问题中的应用,提出了一种面向专业领域的自适应主题检测方法。对领域信息使用浅层语义分析的方法,提取领域信息基于主题的共现特征。对概率假设不同的几个具有代表性的主题模型进行了比较研究,对比了常见主题模型在主题检测问题中的应用效果。针对传统的基于文档共现特征对语义描述不足的问题,提出了基于主题模型的主题共现特征提取和文档距离描述方法。文本经过主题模型的主题分解过程被映射到潜在语义空间,根据潜在语义结构可以抽取文档的“主题共现”特征。文档潜在的主题结构也可以在语义空间中得到更好的描述。相关实验表明,主题模型可以更有效的抽取文档的主题共现特征,提高领域信息主题检测的准确率,缓解网页规模增加带来的系统性能下降问题。 真实网络环境中存在的主题数目是未知且不断变化的。面向专业领域的主题新闻推荐系统,需要自适应的检测出增量更新的网页信息中存在的主题。本文结合LDA主题模型和仿射传播算法提出了一种自适应网络主题检测和基于主题的新闻推荐算法。实验表明,本文提出的自适应主题检测和主题新闻推荐算法,可以根据增量更新网页集的变化,自适应发现接近于真实主题结构的领域信息主题,抓住领域信息的热点,有效的进行基于主题的新闻推荐。
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP393.09

【参考文献】
中国期刊全文数据库 前4条
1 赵华;赵铁军;张姝;王浩畅;;基于内容分析的话题检测研究[J];哈尔滨工业大学学报;2006年10期
2 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
3 骆卫华;于满泉;许洪波;王斌;程学旗;;基于多策略优化的分治多层聚类算法的话题发现研究[J];中文信息学报;2006年01期
4 宋丹;王卫东;陈英;;基于改进向量空间模型的话题识别与跟踪[J];计算机技术与发展;2006年09期
【共引文献】
中国期刊全文数据库 前10条
1 杨萍,万上海,陈耿;一种基于可变支持度的缺省规则挖掘算法[J];安徽工程科技学院学报(自然科学版);2004年02期
2 孙全玲;基于粗集和神经网络的建模方法研究[J];安徽建筑工业学院学报(自然科学版);2005年02期
3 吴军,梁冰;基于粗糙集和自适应神经网络集成理论的边坡稳定性分析[J];安徽师范大学学报(自然科学版);2005年03期
4 赵顺,迟呈英;基于LSI和Rough集的文本分类研究[J];鞍山科技大学学报;2005年05期
5 王琪;张伟;;城市环境质量定量评价方法[J];环境科学与管理;2006年02期
6 黄显明,易继锴;Rough集理论发展现状与应用前景[J];北京工业大学学报;2005年01期
7 鄂旭,高学东,武森,张秋月;信息表中不完备数据的填补方法[J];北京科技大学学报;2005年03期
8 鄂旭;高学东;谭文东;王莹;;基于超立方体与信息熵的离散化方法[J];北京科技大学学报;2005年06期
9 鄂旭;高学东;喻斌;;基于扫描向量的属性约简方法[J];北京科技大学学报;2006年06期
10 胡丹,孙魁明,李洪兴;粗集中的隶属函数及其与模糊集的联系[J];北京师范大学学报(自然科学版);2003年02期
中国重要会议论文全文数据库 前10条
1 庞清乐;曹银杰;穆健;郎丰法;;基于粗集理论的小电流接地系统故障选线研究[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
2 谢刚;;基于变精度粗集的战略石油储备规模预测方法[A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集[C];2006年
3 魏崇辉;金福禄;何亚群;;基于粗糙集和神经网络的空军航材消耗预测方法[A];江苏省自动化学会七届四次理事会暨2004学术年会青年学者论坛论文集[C];2004年
4 孔秋菊;胡寿松;;基于知识的歼击机起飞爬升阶段的故障诊断与报警[A];江苏省自动化学会七届四次理事会暨2004学术年会青年学者论坛论文集[C];2004年
5 苏宏升;;基于粗糙集理论多区域并行神经分类器在变电站故障诊断中的应用[A];2005年全国自动化新技术学术交流会论文集[C];2005年
6 苏宏升;;一种基于粗集的电力系统调度新方法[A];第十七届全国过路控制会议论文集[C];2006年
7 张卫丰;徐宝文;崔自峰;徐峻岭;;一种基于粗糙集角分类神经网络的文档分类方法(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
8 姚平;梁静国;陈培友;;模糊信息系统两种属性约简算法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
9 赵奕;施鹏飞;朱莉莉;;感兴趣Rough格关联规则发现[A];中国体视学学会图像分析专业、中国体视学学会仿真与虚拟现实专业、中国航空学会信号与信息处理专业第一届联合学术会议论文集[C];2000年
10 赵青杉;;基于GDT和粗糙集的数据挖掘[A];第六届中国青年运筹与管理学者大会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 欧健;汽轮发电机组振动故障集成诊断网络模型及方法研究[D];重庆大学;2004年
2 钟波;基于软计算理论的电力系统可靠性评估模型与算法研究[D];重庆大学;2004年
3 陈燕;数据仓库的设计与实现[D];大连理工大学;2000年
4 李刚;知识发现的图模型方法[D];中国科学院软件研究所;2001年
5 孙颖楷;内燃机智能故障诊断系统的研究及应用[D];重庆大学;2001年
6 曹龙汉;柴油机智能化故障诊断技术研究[D];重庆大学;2001年
7 许志兴;粗集理论的若干技术及其应用研究[D];南京航空航天大学;2001年
8 李玉榕;信息融合与智能处理的研究[D];浙江大学;2001年
9 刘业政;基于粗糙集数据分析的智能决策支持系统研究[D];合肥工业大学;2002年
10 刘沐宇;基于范例推理的边坡稳定性智能评价方法研究[D];武汉理工大学;2002年
中国硕士学位论文全文数据库 前10条
1 罗雅博;基于粗糙集的时态数据挖掘研究[D];湘潭大学;2004年
2 林红华;电子商务环境下企业信息的智能统计分析方法研究[D];重庆大学;2004年
3 李银花;基于粗糙集理论的属性约简算法研究及应用[D];华北工学院;2004年
4 朱红;基于Rough Set的特征抽取算法的研究[D];湘潭大学;2002年
5 张绪青;基于图模型的聚类算法研究[D];浙江大学;2008年
6 徐章艳;基于Vague集的近似推理[D];广西师范大学;2000年
7 张伟钢;数据挖掘技术在市场调研中的应用研究[D];西北工业大学;2001年
8 董卫军;利用小波分析进行基于形状的图像检索技术研究[D];西北大学;2001年
9 牟宗瀛;粗集选股模型及随机择机模型初探[D];北京工业大学;2001年
10 赵家刚;数据挖掘的关联规则研究[D];云南师范大学;2001年
【同被引文献】
中国期刊全文数据库 前1条
1 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
中国博士学位论文全文数据库 前1条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 林鸿飞,高天,姚天顺;中文文本的可视化表示[J];东北大学学报(自然科学版);2000年05期
2 佘二永,王润生;基于线性融合模型的多传感器图像融合[J];电子学报;2005年06期
3 于剑,程乾生;模糊聚类方法中的最佳聚类数的搜索范围[J];中国科学E辑;2002年02期
4 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
5 李晓黎,刘继敏,史忠植;基于支持向量机与无监督聚类相结合的中文网页分类器[J];计算机学报;2001年01期
6 骆卫华;于满泉;许洪波;王斌;程学旗;;基于多策略优化的分治多层聚类算法的话题发现研究[J];中文信息学报;2006年01期
7 邢伟利;图像检索中颜色的特征提取及匹配算法[J];微机发展;2004年02期
8 宋丹;王卫东;陈英;;基于改进向量空间模型的话题识别与跟踪[J];计算机技术与发展;2006年09期
9 伯晓晨,刘建平;基于颜色直方图的图象检索[J];中国图象图形学报;1999年01期
10 赵华;赵铁军;张姝;王浩畅;;基于内容分析的话题检测研究[J];哈尔滨工业大学学报;2006年10期
【相似文献】
中国期刊全文数据库 前10条
1 马向玲,马向阳,李伟;用Dreamweaver制作博士招生网站[J];教育信息化;2001年08期
2 小贝壳;保存网页的利器——网文快捕信息管理速战[J];电脑应用文萃;2004年03期
3 ;剖析恶意网页修改注册表[J];电脑数码采购周刊;2005年02期
4 miniworm;;圆角的革命[J];电脑爱好者;2007年07期
5 张启宇;朱玲;车忠志;;网页文件元数据的自动提取[J];电脑与电信;2008年04期
6 陈宁江;杜凡远;;网页防篡改应用技术分析[J];现代机械;2009年03期
7 中英;;神奇的Internet临时文件夹[J];网络科技时代(数字冲浪);2002年01期
8 李佩华;制作网络版课件的快捷途径[J];教育信息化;2004年06期
9 于艳杰;网页文件上传方法分析与研究[J];哈尔滨学院学报;2005年05期
10 流言;;“傲游”因特网 生活从此更精彩……[J];电脑爱好者;2006年02期
中国重要会议论文全文数据库 前10条
1 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 张星星;穗志方;;基于网页中深度并列结构的实例提取算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 何莉;林鸿飞;;分布式检索中基于主题的语言模型集合选择策略[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
4 张晓明;奈一雄;齐炯明;安媛媛;张建楠;王静娴;;基于信息隐藏的网页入侵检测技术与实现[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
5 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 黄天航;;面向数字城市规划的数据仓库构建中主题信息的组织与提取研究——以大北京区域规划为例[A];规划创新:2010中国城市规划年会论文集[C];2010年
7 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 刘世杰;唐世渭;杨冬青;王腾蛟;姚小波;;自动的WEB信息提取和集成[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
9 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 陈成;岳志伟;;浅谈政府门户网站的网络安全[A];中国航海学会航标专业委员会沿海航标学组、无线电导航学组、内河航标学组年会暨学术交流会论文集[C];2009年
中国重要报纸全文数据库 前10条
1 湖北 冯晓玲;快速调用记事本编辑网页文件[N];电脑报;2003年
2 王晓峰;随时更新的校园信息板[N];中国电脑教育报;2003年
3 天涯;利用卡巴斯基删除顽固文件[N];电脑报;2007年
4 刘成富;编辑网页有妙法[N];计算机世界;2004年
5 海浪轻风;一二三说变就变[N];中国电脑教育报;2005年
6 邹本堃;“磁碟机”与“熊猫烧香”谁比谁更毒[N];中国消费者报;2008年
7 ;网站安全必不可少的保护神[N];中国计算机报;2005年
8 本报记者  刘志伟 通讯员  万学才;网监警方智破“熊猫烧香”案[N];科技日报;2007年
9 ;新蠕虫用“令人震惊消息”引诱用户[N];计算机世界;2005年
10 姜元学;初哥上网三注意[N];中国电脑教育报;2002年
中国博士学位论文全文数据库 前10条
1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
2 徐盛;基于主题模型的高空间分辨率遥感影像分类研究[D];上海交通大学;2012年
3 唐颖军;基于语义主题模型的图像场景分类研究[D];北京交通大学;2010年
4 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
5 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年
6 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
7 吕宁;基于上下文的个人信息管理研究[D];华中科技大学;2012年
8 谢兴;社会网络中兴趣发现与信息组织的研究[D];复旦大学;2011年
9 陆铭;WEB2.0网络热点发现与个性化检索研究[D];中国科学技术大学;2012年
10 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
中国硕士学位论文全文数据库 前10条
1 屠辉;中文重复网页的检测算法研究[D];北京邮电大学;2010年
2 黄伟光;网页木马的防御与检测技术研究[D];北京交通大学;2011年
3 易方昶;基于网页后门木马监测系统的研究和设计[D];北京化工大学;2010年
4 张宁;面向农业信息的主题爬虫的研究与设计[D];北京邮电大学;2010年
5 尹力;网页防篡改系统在校园网中的应用研究[D];河北科技大学;2011年
6 史晶晶;基于CRF的Web机构实体信息抽取系统[D];吉林大学;2011年
7 卢承山;基于领域的主题信息采集技术研究[D];武汉理工大学;2011年
8 孔辉;一种网页防篡改系统的设计与实现[D];北京邮电大学;2011年
9 梁建飞;网络环境下获取汉维篇章级平行语料的研究[D];新疆大学;2011年
10 王征;基于布隆过滤器算法的网页消重技术的实现与应用[D];北京交通大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026