收藏本站
《中国科学院研究生院(计算技术研究所)》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

个性化的Web信息采集技术研究

吴丽辉  
【摘要】:随着Web信息的爆炸性增长,如何快速、准确地从浩瀚的信息资源中寻找到所需信息已经成为困扰人们的一大难题。传统搜索引擎技术满足了人们一定的需要,但由于其通用的性质,仍然不能满足不同背景、不同目的和不同时期的用户个性化的需求。个性化Web信息采集就是针对这个问题而提出来的。个性化Web信息采集的研究目标在于充分利用用户的个性化信息,通过用户兴趣制导或与用户交互等灵活手段来采集Web信息,充分利用网络信息,以更好地服务于用户的个性化需求。 围绕个性化Web信息采集系统PSearch,论文的主要工作包括以下几个方面: (1) 用户兴趣个性化信息的获取。分析了用户兴趣个性化信息的收集和更新,重点从用户需求扩展、特征选择,以及文本聚类分析三个方面来做了分析和实验。 ● 当捕获用户当前的浏览行为时,根据用户当前浏览内容的计算结果,选择那些跟用户需求关键词相似度最大的词扩展进来,从而保证了扩展词的质量。实验结果表明,通过这样的需求扩展确实获得了用户的当前个性化兴趣。 ● 隐式收集用户兴趣在本质上与文本分类中的特征选择问题相似。隐式收集用户兴趣可以借鉴文本特征选择方法来实现用户兴趣的收集。实验结果表明在用户兴趣个性化信息的获取中,信息增益方法效果较佳。 ● 如果能够对用户浏览的页面聚类,就能够得到用户具体感兴趣的主题。隐式收集用户兴趣可以借鉴文本聚类分析来实现用户兴趣的收集。实验结果表明在用户兴趣个性化信息的获取中,Bisecting K-means是一个合适的选择。 (2) 待采页面的选择。根据页面在Web上的分布特征,分析了个性化Web信息采集系统PSearch的种子URL设置、页面采集过程、已采页面与用户兴趣的相关度判定和待采URL与用户兴趣的相关度预测,提出了PSearch页面选择算法。实验结果表明PSearch页面选择算法的采集准确性要明显优于广度优先算法。 (3) 相关度的判定。借鉴了信息检索中的分类过程,实验结果表明,在PSearch的相关度判定中kNN的性能较佳。提出了PSearch页面推荐算法。较之Google返回的检索结果,PSearch推荐给用户的页面和用户的当前兴趣更相关,实现了为用户提供个性化服务的目的。 (4) 个性化Web信息采集的性能优化。分别从优雅采集、页面采集、页面刷新、分布式采集等几方面详细分析了PSearch的性能优化。在页面采集中分析了多线程、DNS缓存、持续连接、重复网页、采集器陷阱和网页的存储。
【学位授予单位】:中国科学院研究生院(计算技术研究所)
【学位级别】:博士
【学位授予年份】:2005
【分类号】:TP393.09

【引证文献】
中国期刊全文数据库 前1条
1 陈基漓;牛秦洲;;WEB挖掘在农业信息网站个性化服务中的应用[J];安徽农业科学;2008年35期
中国硕士学位论文全文数据库 前10条
1 李恒训;网络论坛采集及热点话题发现研究[D];首都师范大学;2011年
2 连惠杰;基于主题的教育信息定向采集系统[D];南京理工大学;2011年
3 杨小锐;程序设计论坛检索关键技术研究[D];哈尔滨工业大学;2010年
4 李魁;大规模Web论坛采集技术研究[D];中国科学院研究生院(计算技术研究所);2006年
5 文义;基于LUCENE的群体个性化搜索引擎研究[D];武汉理工大学;2010年
6 梁云静;基于遗传算法的主题爬虫搜索策略研究[D];湖北工业大学;2010年
7 周思思;基于隐马尔科夫模型的网络舆情挖掘[D];中南林业科技大学;2012年
8 许昕;基于用户隐式反馈的个性化资讯推荐系统研究与实现[D];北京工业大学;2012年
9 孟飞;卫生职业学院教学计划管理系统的设计与实现[D];东北大学;2011年
10 汪维熙;基于动态领域知识体系的信息采集方法及实现[D];南京航空航天大学;2012年
【参考文献】
中国期刊全文数据库 前3条
1 李晓明;对中国曾有过静态网页数的一种估计[J];北京大学学报(自然科学版);2003年03期
2 曾春,邢春晓,周立柱;个性化服务技术综述[J];软件学报;2002年10期
3 李晓明,凤旺森;两种对URL的散列效果很好的函数[J];软件学报;2004年02期
中国硕士学位论文全文数据库 前1条
1 李淑静;基于内容的垃圾邮件过滤研究与实现[D];南京信息工程大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 程家兴,钱付兰;粗糙集方法在基于属性分类中的应用[J];安徽大学学报(自然科学版);2005年01期
2 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
3 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
4 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
5 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
6 时雷;席磊;虎晓红;段其国;;基于支持向量机的农业数据分类研究[J];安徽农业科学;2009年05期
7 时雷;虎晓红;席磊;;基于Naive Bayes算法的大豆病害诊断研究[J];安徽农业科学;2009年11期
8 邓胜;戴小鹏;陈垦;黄璜;;粗糙集理论在农业生物灾害预测中的应用[J];安徽农业科学;2010年06期
9 蔡丽艳;冯宪彬;丁蕊;;基于决策树的农户小额贷款信用评估模型研究[J];安徽农业科学;2011年02期
10 赵静娴;;基于决策树的食品安全评估研究[J];安徽农业科学;2011年32期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
3 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论建立中老年肺炎中医症候诊断标准[A];第二十九届中国控制会议论文集[C];2010年
4 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
5 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论和Apriori算法建立中医症候诊断标准[A];中国自动化学会控制理论专业委员会D卷[C];2011年
6 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
7 鲁松;;英文介词短语归并歧义的RMBL分类器消解[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
8 刘海霞;钟晓妮;周燕荣;田考聪;;决策树在居民就诊卫生服务利用影响因素研究中的应用[A];重庆市预防医学会2010年论文集[C];2011年
9 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
10 刘子豪;庄毅;;一种电子邮件敏感信息检测算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 熊晶;海洋生态本体的建模方法研究及应用[D];中国海洋大学;2010年
3 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
4 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
5 李炳龙;文档碎片取证关键技术研究[D];解放军信息工程大学;2007年
6 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
7 朱佳俊;不确定可拓群决策优化方法及应用[D];东华大学;2010年
8 陈进;高光谱图像分类方法研究[D];国防科学技术大学;2010年
9 管红波;食品连锁经营中的有效客户反应研究[D];东华大学;2010年
10 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 吴则则;支持动态演进的用户兴趣模型挖掘方法研究[D];山东科技大学;2010年
3 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年
4 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
5 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
6 蔡宏果;基于基因表达式编程的Web个性化推荐技术研究[D];广西师范学院;2010年
7 刘建东;基于Web访问信息挖掘的数字图书馆个性化服务研究[D];浙江理工大学;2010年
8 许坤;基于本体的应急信息管理系统的研究与设计[D];郑州大学;2010年
9 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
10 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 吴景松,叶大田;基于视觉的语音训练辅助系统的初步研究[J];北京生物医学工程;2003年04期
2 李红梅;丁振国;周水生;周利华;;元搜索引擎结果合成算法[J];北京邮电大学学报;2008年05期
3 冯哲;孙吉贵;张长胜;王岩;;汉语语音合成的研究进展[J];吉林大学学报(信息科学版);2007年02期
4 刘续;王燚;;个性化元搜索引擎中的查询优化[J];重庆工学院学报(自然科学版);2008年09期
5 程仁贵;黎明;;元搜索基于源搜索引擎的链接优化[J];重庆师范大学学报(自然科学版);2008年04期
6 王志明;沙莎;;Web文本挖掘技术在新闻主题检测中的应用研究[J];长沙大学学报;2007年05期
7 王琼;吕晓猛;蒋玉峰;陆刚;;带聚类处理的元搜索引擎的设计与实现[J];常熟理工学院学报;2010年02期
8 王仕仲;宁龙兵;;基于Nutch的中文搜索引擎的研究与实现[J];电脑开发与应用;2009年07期
9 李广进;寇净磊;;多智能体在元搜索引擎中的应用研究[J];电脑知识与技术;2009年13期
10 郭瑾;;基于元搜索引擎的Web网络军事情报系统设计研究[J];福建电脑;2010年05期
中国重要会议论文全文数据库 前2条
1 梁伟贤;;网络搜索引擎发展现状的探讨[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
2 汤志伟;王菁;;面向公众的电子政务个性化信息服务体系的构建[A];中国信息经济学会2007年学术年会论文集[C];2007年
中国重要报纸全文数据库 前1条
1 本报记者 李淼 赵婷 见习记者 任晓宁 廖小珊;[N];中国新闻出版报;2010年
中国博士学位论文全文数据库 前10条
1 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
2 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
3 应晓敏;面向Internet个性化服务的用户建模技术研究[D];中国人民解放军国防科学技术大学;2003年
4 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
5 叶飞跃;关联规则及其元规则挖掘技术研究[D];南京航空航天大学;2006年
6 许洪波;大规模信息过滤技术研究及其在Web问答系统中的应用[D];中国科学院研究生院(计算技术研究所);2003年
7 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
8 李强;基于本体论的个性化和社会化元搜索引擎的研究[D];浙江大学;2006年
9 刘炜;智能元搜索引擎中个性化模式库的研究[D];太原理工大学;2007年
10 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
2 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年
3 刘寅;移动商务中的个性化推荐系统设计[D];沈阳工业大学;2010年
4 张媚;Ajax友好的网络爬虫设计与实现[D];暨南大学;2011年
5 梁萍;搜索引擎中网络爬虫及结果聚类的研究与实现[D];中国科学技术大学;2011年
6 辛勤芳;电子商务个性化推荐系统研究[D];华侨大学;2011年
7 李巧薇;语言障碍诊治仪ZM2.1对正常成人及失语病人的检测研究[D];暨南大学;2003年
8 沈丽宁;个性化信息资源组织与服务[D];武汉大学;2004年
9 刘妮娜;Web数据挖掘和个性化搜索引擎研究[D];浙江大学;2005年
10 黄希全;科技文献个性化推荐系统中用户偏好的建模方法[D];华东师范大学;2005年
【二级引证文献】
中国期刊全文数据库 前1条
1 胡启韬;袁志平;周忠海;;网络资源采集软件的设计及实现[J];电脑编程技巧与维护;2010年08期
中国博士学位论文全文数据库 前1条
1 张素芳;网络社区学术资源关联研究[D];南开大学;2012年
中国硕士学位论文全文数据库 前10条
1 李恒训;网络论坛采集及热点话题发现研究[D];首都师范大学;2011年
2 兰凯梅;BBS热点话题发现与监控系统[D];北京交通大学;2011年
3 王瑞雷;Web数据挖掘技术在网络教育论坛中的应用研究[D];新疆师范大学;2011年
4 许建豪;打折商品搜索引擎的设计与实现[D];广西大学;2011年
5 袁方;基于改进PageRank算法的个性化搜索的研究[D];北京邮电大学;2012年
6 刘忠强;基于SOA的网络信息资源采集系统的研究与实现[D];华北电力大学(北京);2008年
7 姚晓娜;BBS热点话题挖掘与观点分析[D];大连海事大学;2008年
8 陈俊生;数据中心业务管理系统中信息检索技术的研究[D];北京林业大学;2012年
9 朱健琛;个性化新闻搜索引擎的研究与设计[D];电子科技大学;2012年
10 汪维熙;基于动态领域知识体系的信息采集方法及实现[D];南京航空航天大学;2012年
【二级参考文献】
中国期刊全文数据库 前1条
1 李晓明,凤旺森;两种对URL的散列效果很好的函数[J];软件学报;2004年02期
中国博士学位论文全文数据库 前1条
1 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 张晓波;韩永国;林勇;刘广起;;基于Agent的个性化教学系统研究[J];计算机应用研究;2006年10期
2 范玉霞;;基于用户兴趣的分组模型在电子图书馆检索中的应用研究[J];商场现代化;2010年16期
3 王波,姚敏;基于信息抽取的匿名用户兴趣描述[J];华南理工大学学报(自然科学版);2004年S1期
4 白丽君;;基于COM技术的浏览器Agent初探[J];浙江工商大学学报;2006年03期
5 易爱平;廖祝华;张惠;;基于Google的个性化搜索系统的设计与实现[J];电脑知识与技术(学术交流);2007年01期
6 刘娟;;Web数据挖掘及其在个性化网上购物实现的探讨[J];企业技术开发;2007年07期
7 郑雅婷;张鹰;;Web文本挖掘技术在网上购物中的应用[J];牡丹江师范学院学报(自然科学版);2008年04期
8 田晓珍;张敏;;用户个性化模式中的匹配过滤算法研究[J];运城学院学报;2009年05期
9 谢文玲;潘建国;;基于语义相似度的个性化信息检索方法[J];计算机应用与软件;2011年05期
10 周之诚;;用户意图聚类的数字资源推荐方法[J];情报理论与实践;2011年06期
中国重要会议论文全文数据库 前10条
1 李晓黎;史忠植;梁永全;刘福桃;;INTERNET网上一种识别用户兴趣的学习方法[A];第十六届全国数据库学术会议论文集[C];1999年
2 廖祝华;刘建勋;易爱平;;基于用户兴趣的Web服务发现[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
3 许欢庆;王永成;孙强;;基于加权概念网络的用户兴趣建模[A];第一届学生计算语言学研讨会论文集[C];2002年
4 吴丽辉;张凯;张刚;王斌;;个性化Web信息采集系统PSearch的设计[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 ;平方爱索互联网智能信息系统[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
6 王勇;刘奕群;张敏;马少平;茹立云;;基于用户兴趣分析的网页生命周期建模(英文)[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 郭岩;白硕;张凯;;网络日志规模分析和用户对Web的访问动机分析[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 孙静;郭奇;张志强;冯建华;;一种基于面向领域检索系统的用户兴趣获取方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 张健沛;李连江;杨静;;个性化搜索引擎排序算法的研究与改进[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 姜丽华;张宏斌;;基于Multi-Agent的个性化Web信息采集系统[A];中国农业信息科技创新与学科发展大会论文汇编[C];2007年
中国重要报纸全文数据库 前10条
1 ;增值业务新老结合效果显著[N];人民邮电;2006年
2 国防科学技术大学 毛新军常志明;个人助手Agent的研究与应用[N];计算机世界;2007年
3 见习记者  骆海涛;MySpace创始人新生意:用Web2.0做元搜索[N];21世纪经济报道;2006年
4 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
5 董军;资费、渠道、版权三大因素制约彩铃发展[N];中国经营报;2005年
6 Eric Newcomer;分布式SOA崭露头角[N];计算机世界;2007年
7 周婷;中国电信建国内最大动态黄页数据库[N];中国证券报;2007年
8 应晓敏 窦文华;技术架构[N];计算机世界;2003年
9 方文;什么是Google+?[N];人民邮电;2011年
10 彭岩 艾迪明;网络信息“拉取”技术[N];计算机世界;2001年
中国博士学位论文全文数据库 前10条
1 谢兴;社会网络中兴趣发现与信息组织的研究[D];复旦大学;2011年
2 李东胜;基于兴趣与保护隐私的在线社区推荐技术研究[D];复旦大学;2012年
3 张召;在线论坛用户兴趣图谱发现与个性化信息推荐[D];华东师范大学;2012年
4 应晓敏;面向Internet个性化服务的用户建模技术研究[D];中国人民解放军国防科学技术大学;2003年
5 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
6 潘建国;基于语义的用户建模技术与应用研究[D];上海大学;2009年
7 杜阿宁;互联网舆情信息挖掘方法研究[D];哈尔滨工业大学;2007年
8 王灿;基于半监督流形学习的Web信息检索技术研究[D];浙江大学;2009年
9 刘东飞;智能双语搜索方法及搜索引擎的研究[D];武汉理工大学;2009年
10 陈浩;Web搜索的用户兴趣与智能优化研究[D];中南大学;2012年
中国硕士学位论文全文数据库 前10条
1 刘春旭;大规模数据发送中基于复合控制原理的用户兴趣的自适应模型[D];四川大学;2001年
2 冯子威;用户兴趣建模的研究[D];哈尔滨工业大学;2010年
3 张璇;基于用户兴趣的个性化搜索引擎技术研究[D];湖南大学;2010年
4 邱春艳;基于粗糙集理论的智能信息检索方法的研究[D];东北师范大学;2005年
5 肖坤;面向用户兴趣的校园网聚类搜索引擎的研究与实现[D];国防科学技术大学;2010年
6 杨慧;个性化网络信息检索系统的研究和应用[D];南京工业大学;2005年
7 崔琰;基于用户兴趣及术语关系的查询扩展方法[D];河北大学;2011年
8 罗建利;基于用户兴趣的概念查询扩展研究[D];扬州大学;2005年
9 邓晓嘉;一种基于RSS用户兴趣的个性化搜索系统[D];北京工业大学;2010年
10 柏桂荣;基于RSS信息源的用户兴趣模型研究[D];南京航空航天大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026