收藏本站
《郑州轻工业学院》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

WEB个性化信息采集与管理关键技术研究

樊德强  
【摘要】:根据国家信息产业部对振兴软件业和推动社会服务信息化的具体要求,以及政府、企事业单位对WEB个性化信息采集与管理的需求,Web信息服务行业已成为目前最热门的行业之一。然而面对目前通用搜索引擎的诸多缺陷,使得人们不再满足于充当关键词的提供者,因此用户如何参与到WEB个性化信息采集与管理,并提供智能化、个性化、语义化的信息服务已成为人们的迫切需求。基于人们的迫切需求,本文针对WEB个性化信息采集与管理的相关技术进行研究,主要研究工作包括以下几个方面: (1)分析信息源结构,提出一种基于网络爬虫、元搜索引擎、深网搜索三种搜索策略的WEB信息采集方法;然后分析网页结构,根据个性化定制内容,提出一种基于双重净化的网页主题内容提取方法,从而达到WEB信息个性化采集的目的。 (2)分析网页的HTML结构特点,提出一种根据用户偏好进行网页去重和净化算法。通过抽取网页要素中用户偏好的短语来抽取网页的内容,根据学习的网页内容设置兴趣库,利用经典逻辑推理推测出它们的相似度来判断网页的重复度。实验结果表明,该方法能够完成针对中文内容网页的去重,并得到相对较高的查全率和查准率。 (3)针对企事业单位关注的网络评论,提出一种基于语言学结构的情感倾向识别模型,即:固定情感词元模型。该方法利用基于固定情感词元的三种特定搭配模式来构造识别算法,通过基于增量的tf-idf模型的相关用户反馈不断更新特征词元集合,通过与传统的情感识别方法相比较,可以得到较为明显地提高情感分类的效率和准确率。 (4)分析用户的搜索行为,提出一种用户搜索行为预测模型:ARIMA-SVM模型。该方法首先将一段时间内特定用户使用搜索的行为记录视为有序的随机序列,通过特征选择和文档表示的方法抽取搜索行为特征并进行标记,然后利用ARIMA时序分析方法来近似描述这一期的搜索行为记录,从而预测下一期的用户搜索行为,最后采用基于RBF核的SVM分类器去除噪声提高预测精确度。实验测试表明,新方法能够纠正预测用户行为的方向,与ARIMA模型相比,具有更好的预测性能。 本文最后设计和实现了一个网络个性化采集与管理系统,并对文中所提出的算法与模型进行试验与分析,试验数据表明本系统在WEB个性化信息采集的查准率和召回率,以及WEB信息的个性化管理和分析方面都取得了较好的效果。
【学位授予单位】:郑州轻工业学院
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP393.09

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 南志文;苏厚勤;周元军;;采用代理和Ajax技术设计开发RSS个人信息聚合系统[J];计算机应用与软件;2011年09期
2 徐旭;候传宇;;基于决策树的个性化身份验证研究[J];微计算机信息;2011年08期
3 吴长领;;RSS与图书馆信息服务的个性化[J];冶金信息导刊;2008年05期
4 冯敏;姚伟;刘静;;情报学中信息社会化推荐的理论研究[J];情报理论与实践;2011年08期
5 丁婉莹;;基于用户标签的个人本体的构建模型研究[J];现代情报;2011年07期
6 张方;;为高校重点学科提供个性化信息服务[J];农业图书情报学刊;2011年07期
7 滕启龙;王健;;基于Web挖掘的个性化远程教学系统的研究与实现[J];福建电脑;2011年06期
8 高艳霞;陈柏林;叶小丽;常征;;网络环境下医学图书馆个性化信息服务的实现[J];医学信息(上旬刊);2011年06期
9 逄华;荆永君;王龙;;基于移动Agent技术的教学资源推荐系统研究[J];电化教育研究;2011年09期
10 赵晓岚;张招杰;;数字化图书馆个性化推荐研究与实例[J];科技情报开发与经济;2011年23期
中国重要会议论文全文数据库 前10条
1 周晓英;;网络环境下的个性化信息组织[A];科学发展:文化软实力与民族复兴——纪念中华人民共和国成立60周年论文集(下卷)[C];2009年
2 ;Double Trends Time Series Forecasting Using a Combined ARIMA and GMDH Model[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
3 周敏燕;徐方忠;刘加海;;基于ARIMA模型的ADHD儿童视觉持续性注意研究[A];2011年浙江省心理卫生协会第九届学术年会论文汇编[C];2011年
4 韩燕;李随成;;MC模式下需求功能配置法(NFD)的个性化信息处理系统[A];人才、创新与老工业基地的振兴——2004年中国机械工程学会年会论文集[C];2004年
5 ;Traffic Flow Forecasting Based on Fuzzy-Neural[A];第二十六届中国控制会议论文集[C];2007年
6 梁花侠;费小梅;;网络环境下高校图书馆的个性化信息服务[A];和谐社会中的图书馆建设与发展——陕西省图书馆学会第六次科学讨论会论文集[C];2007年
7 吴丽辉;张凯;张刚;王斌;;个性化Web信息采集系统PSearch的设计[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 张艳;周国祥;;Web挖掘在个性化信息检索中的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
9 刘漪;;针对科研型企业的个性化信息服务实践[A];“广东科技情报服务促进广东经济发展”综合研讨会论文集[C];2007年
10 任家福;张昉;周宗放;;基于ARIMA和BP神经网络的组合预测模型及应用研究[A];第三届(2008)中国管理学年会论文集[C];2008年
中国重要报纸全文数据库 前10条
1 本报记者 顾文;亿美软通:经营WAP从精准营销开始[N];通信产业报;2007年
2 本报记者 沈加军;迎“3·15”电信业务个性化信息化[N];通信信息报;2002年
3 杨亚新;我看专用邮资图普资封[N];中国集邮报;2005年
4 中国人民大学信息学院 白芸;为你量身定制[N];计算机世界;2001年
5 郝峥嵘;门户首页 到瘦身的时候了[N];中国计算机报;2008年
6 本报记者 王琦;市民邮箱:E时代政府与市民沟通的桥梁[N];杭州日报;2008年
7 ;个性主页大潮来袭[N];电脑报;2005年
8 相煜 王乃粒;数字窄播:提供个性化信息[N];文汇报;2004年
9 ;亿美软通启动移动精准营销战略[N];人民邮电;2006年
10 ;向全世界播音!我是播客听我的[N];中国计算机报;2005年
中国博士学位论文全文数据库 前10条
1 杨震;个性化信息获取方法的研究[D];大连理工大学;2004年
2 袁小坊;IP网络测量数据存储与流量建模研究[D];湖南大学;2010年
3 陈子林;电子商务环境下的供应链drop-shipping渠道研究[D];华中科技大学;2008年
4 曹雯;秋冬季南方单栋塑料温室小气候分析与温湿环境模拟研究[D];南京信息工程大学;2012年
5 刘怀忠;煤矿开采对矿区地下水系统扰动的定量评价研究[D];中国矿业大学;2009年
6 刘晓冬;中国肾综合征出血热时空分布及气候因素对辽宁省HFRS影响的研究[D];山东大学;2012年
7 白寅;我国大型石油集团预算管理的几个关键问题研究[D];天津大学;2009年
8 弓树宏;电磁波在对流层中传输与散射若干问题研究[D];西安电子科技大学;2008年
9 陈玉海;我国CPI预测数量研究[D];中南大学;2009年
10 祁玉青;突发性自然灾害应急物资管理研究[D];中国科学技术大学;2012年
中国硕士学位论文全文数据库 前10条
1 郑维;基于X-12-ARIMA的节假日经济效应分析[D];北方工业大学;2010年
2 李菁菲;基于小波技术和ARIMA模型的网络流量预测研究[D];山东大学;2010年
3 赵晓丽;基于小波ARIMA模型的风电场风速短期预测方法研究[D];华北电力大学(北京);2010年
4 白营闪;基于ARIMA模型对沪深300指数的预测分析[D];华南理工大学;2010年
5 张丹;基于ARIMA模型的消费品公司预算管理分析[D];复旦大学;2011年
6 贾竹青;基于ARIMA模型的呼和浩特地区10kV配电网负荷预测[D];华北电力大学(北京);2011年
7 Jules Kounouwewa;[D];中南大学;2003年
8 连晔;基于ARIMA与神经网络的原油运价指数研究与预测[D];上海交通大学;2010年
9 王华军;基于小波分解和ARIMA的网络流量模型[D];山东大学;2011年
10 赵明敬;基于反馈SVR的非线性ARIMA模型的金融收益率水平预测[D];北京交通大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026