收藏本站
《山东科技大学》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Web的数据挖掘研究

张承明  
【摘要】: 数据挖掘技术是近年来随着数据库技术和人工智能技术的发展而出现的全新的信息技术,融合了数据库、人工智能和统计学等多种学科的知识,试图从数据中提取出先前未知、有效和实用的知识。数据挖掘技术与统计学、数据库技术、数据库知识发现等学科与密切的联系,也有明显的不同。数据挖掘主要研究内容包括广义知识、关联知识、分类知识、聚类知识、预测型知识和偏差型知识的内容。使用关联分析、分类和聚类分析、神经网络、决策树和规则推理等技术进行挖掘。 由于Web上的信息具有数量庞大、无序性强、重复性大的特点,人们现在还不能迅速、方便地从Web所包含的大量信息中获取所需要的信息。Web挖掘是传统数据挖掘技术在Web环境下的应用,试图从大量的Web文档集合和用户浏览Web的数据信息中发现蕴涵的、未知的、有潜在应用价值的、非平凡的模式。Web挖掘分为Web内容挖掘、Web结构挖掘和Web使用模式挖掘。Web使用模式挖掘是从用户浏览网站的数据中抽取感兴趣的模式,理解用户的浏览兴趣行为,以便进一步改善网站结构或为用户提供个性化的服务。 本文对Web使用模式挖掘的数据采集、用户浏览兴趣的度量和表达两个方面进行了研究,主要的工作有: 1.分析了现有Web使用模式挖掘的数据采集方式,指出了当前数掘采集方式的不足,如由于HTTP协议的无状态连接而难以在Web日志中得到准确的用户浏览信息。提出了一种综合利用服务器日志文件和客户端数据获取用户浏览信息的方法。 2.兴趣是指个人对客观事物的选择性态度,准确地度量用户浏览兴趣是Web使用模式挖掘的基础。本文针对Web使用模式挖掘领域,首先分析了已有的度量用户浏览兴趣方式的不足之处,如度量方式过于简单而导致不能更好地区分用户感兴趣类与不感兴趣类;没有考虑页面信息量对用户浏览时长的影响等。在此基础上,提出了一种基于用户浏览行为度量用户浏览兴趣的方法。 3.如何有效地表达用户浏览兴趣是Web使用模式挖掘研究的方向之一。本文在分析了现有的表达用户浏览兴趣方式的基础上,提出了一种基于树形结构表达用户浏览兴趣的方式。 本文提出的基于用户浏览行为度量和表达用户浏览兴趣的方法改进 山东科技大学硕士学位论文 摘要 了原有的度量和表达方式在数据采集、兴趣度量、兴趣表达儿个方面的不 足,以便更好地为进一步的挖掘做准备。
【学位授予单位】:山东科技大学
【学位级别】:硕士
【学位授予年份】:2003
【分类号】:TP393.09

【引证文献】
中国硕士学位论文全文数据库 前6条
1 林祎珣;数据挖掘技术在海上交通特征分析中的应用研究[D];集美大学;2011年
2 龚真平;基于web文献的数据挖掘研究应用[D];西南交通大学;2011年
3 王妍;基于Web使用挖掘的浏览兴趣预测及个性化推荐策略研究[D];哈尔滨工业大学;2011年
4 余渝;基于教育资源共享网格的数据复制策略研究[D];重庆大学;2007年
5 熊熙;基于WEB日志挖掘的个性化服务技术的研究[D];湖北工业大学;2010年
6 冯硕;基于Web挖掘技术的化学物质信息获取方法研究[D];西北农林科技大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 石晶,龚震宇,裘杭萍,张毓森;评测Web使用分析中会话识别的准确度[J];电子科技大学学报;2002年03期
2 宋爱波,胡孔法,董逸生;Web日志挖掘[J];东南大学学报(自然科学版);2002年01期
3 应晓敏,刘明,窦文华;一种面向个性化服务的无需反例集的用户建模方法[J];国防科技大学学报;2002年03期
4 沈模卫,崔艳青,陶嵘;超文本阅览中的人的因素[J];浙江大学学报(理学版);2002年03期
5 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
6 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
7 邹涛,王继成,朱华宇,金翔宇,张福炎;WWW上的信息挖掘技术及实现[J];计算机研究与发展;1999年08期
8 邓英,李明;Web数据挖掘技术及工具研究[J];计算机工程与应用;2001年20期
9 李煊,庄镇泉;Web访问挖掘预处理的用户识别算法[J];计算机工程与应用;2002年07期
10 陈新中,李岩,谢永红,杨炳儒;Web挖掘研究[J];计算机工程与应用;2002年13期
【共引文献】
中国期刊全文数据库 前10条
1 赵彦辉;张乐文;邱道宏;仲晓杰;;基于粗糙集理论的隧道围岩模糊综合评判[J];四川建筑科学研究;2011年02期
2 吕俊;任雪萍;;一种基于粗糙集理论的变压器故障多变量决策树诊断方法[J];安徽电气工程职业技术学院学报;2011年01期
3 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
4 江效尧,胡林生;基于粗糙集的RDT决策树生成算法的研究及应用[J];安徽工程科技学院学报(自然科学版);2004年03期
5 孙虹;方敏;;基于Rough集和RBF网络的车牌字符识别方法[J];安徽建筑工业学院学报(自然科学版);2006年04期
6 孙虹;;粗糙集神经网络系统在车牌字符识别中的研究[J];安徽建筑工业学院学报(自然科学版);2007年04期
7 张继宝;汪明武;谢慧敏;;基于粗糙集理论的围岩稳定性模糊综合评价[J];安徽建筑工业学院学报(自然科学版);2008年02期
8 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
9 孙虹;龚雪;;一种基于Rough集和RBF网络的模拟电路故障诊断方法[J];安徽建筑工业学院学报(自然科学版);2012年03期
10 陆晓希;黄力;;基于粗糙集理论及其在农业病害规则发现中的应用[J];安徽农业科学;2006年14期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 程泽凯;泰锋;;贝叶斯网络分类器结构学习:基于启发式的G2算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 尹宗成;;粗糙集理论在我国粮食产量预测中的应用[A];现代农业理论与实践——安徽现代农业博士科技论坛论文集[C];2007年
4 危前进;董荣胜;孟瑜;崔更申;;基于粗糙集的机械装配知识发现方法[A];广西计算机学会25周年纪念会暨2011年学术年会论文集[C];2011年
5 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
6 王印松;冯康;;主汽温调节系统性能评价的粗糙集实现方法[A];第二十七届中国控制会议论文集[C];2008年
7 方炜炜;杨炳儒;彭珍;;一种基于粗糙集的启发式属性归约的新算法[A];第二十七届中国控制会议论文集[C];2008年
8 何鹏;王雅琳;桂卫华;孔玲爽;;氧化铝硅渣成分的混沌时间序列分析与SVM预测[A];第二十九届中国控制会议论文集[C];2010年
9 张霆;陈波;马胜林;徐涛;沈国理;俞钻;赵小飞;徐雅萍;;基于贝叶斯网络的肺癌证候研究[A];庆祝浙江省中西医结合学会成立三十周年论文集粹2011[C];2011年
10 周延泉;张传福;张瑞华;李蕾;何华灿;;移动个性化信息服务中的用户兴趣模型[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
3 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
4 杨锦园;基于传感器管理的移动机器人融合算法研究[D];华中科技大学;2010年
5 任家福;服务商选择与备件备品库存管理研究[D];电子科技大学;2010年
6 张目;高技术企业信用风险影响因素及评价方法研究[D];电子科技大学;2010年
7 李建军;广东湛江红树林生态系统空间结构优化研究[D];中南林业科技大学;2010年
8 温世亿;膨胀土渠坡若干关键技术问题研究[D];武汉大学;2010年
9 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
10 刘贵;精毛纺织品虚拟加工中的预报与反演模型研究[D];东华大学;2010年
中国硕士学位论文全文数据库 前10条
1 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
2 杨新忠;基于案例的地理时空过程表达模型研究[D];山东科技大学;2010年
3 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
4 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
5 雷聪聪;一种基于数据聚类的信息粒化方法[D];郑州大学;2010年
6 张晓冬;基于全矢谱的智能诊断技术研究[D];郑州大学;2010年
7 王晓换;基于粗糙集和神经网络的故障诊断虚拟系统的研究[D];郑州大学;2010年
8 周霞;基于粗糙集的电子商务交易知识获取研究[D];哈尔滨工程大学;2010年
9 冯为军;基于粗糙集理论的数据挖掘算法的研究[D];哈尔滨工程大学;2010年
10 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 卢效峰,郑权;基于用户行为分析的搜索引擎模型[J];北方工业大学学报;2004年03期
2 闫晓东;徐惠民;徐雅静;刘连喜;陈宝丰;;基于价值模型的数据副本替换算法[J];北京邮电大学学报;2006年04期
3 张家才,姚力,谢詠珪;Internet动态行为的探索[J];北京师范大学学报(自然科学版);2001年05期
4 左明慧;;基于Web日志挖掘的网页推荐系统的设计[J];常州工学院学报;2007年04期
5 魏伟杰;张斌;王波;张明卫;;一种用于数据挖掘算法的数据生成方法[J];东北大学学报(自然科学版);2008年03期
6 郑中义;李红喜;陈涛;;船舶吨位与碰撞事故关系[J];大连海事大学学报;2007年S2期
7 陈淑燕;王炜;瞿高峰;;服务于智能交通系统的离群交通数据识别[J];东南大学学报(自然科学版);2008年04期
8 王娟;刘燚;赖思渝;;基于Web日志挖掘的数据预处理应用研究[J];电脑与信息技术;2007年06期
9 李娜;黄孝彬;李琴;姜攀;;数据挖掘软件产品综述[J];大众科技;2010年01期
10 路冉冉;郝静如;李天剑;;嵌入式系统的以太网接口设计及linux驱动[J];电子技术;2009年05期
中国重要会议论文全文数据库 前1条
1 王春元;张韬;;一种获取网页主要中文信息的方法[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
中国博士学位论文全文数据库 前8条
1 邓爱林;电子商务推荐系统关键技术研究[D];复旦大学;2003年
2 李秋丹;数据挖掘相关算法的研究与平台实现[D];大连理工大学;2004年
3 郭秀娟;基于关联规则数据挖掘算法的研究[D];吉林大学;2004年
4 李泽海;数据仓库中多维数据处理与查询相关技术的研究[D];吉林大学;2005年
5 吴瑞;模糊和粗糙环境下的网络用户浏览模式研究[D];天津大学;2006年
6 王亚琴;道路交通流数据挖掘研究[D];复旦大学;2007年
7 刘蓓琳;电子商务用户个性化推荐技术接受影响因素研究[D];中国矿业大学(北京);2009年
8 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘坤朋;数据挖掘中聚类算法的研究[D];长沙理工大学;2010年
2 任豪栋;基于Web日志挖掘的原型系统研究与实现[D];西华大学;2011年
3 唐飞龙;Internet信息获取技术的研究[D];合肥工业大学;2002年
4 李安;数据挖掘算法研究[D];大连海事大学;2003年
5 陈荣;商业智能在航运企业船舶管理中的研究与应用[D];南京航空航天大学;2004年
6 赵伟;基于Web日志的用户访问模式挖掘[D];天津大学;2004年
7 邵传勇;在VTS中AIS岸台相关技术的研究[D];大连海事大学;2004年
8 黎敏;数据挖掘算法研究与应用[D];大连理工大学;2004年
9 付关友;基于浏览行为分析的用户兴趣挖掘[D];重庆大学;2004年
10 杨柳;基于粗糙集的数据挖掘技术研究及其在智能软件中的实现[D];电子科技大学;2004年
【二级引证文献】
中国期刊全文数据库 前1条
1 肖帅帅;;基于数值分析推算船舶航行轨迹算法的实现[J];科技视界;2013年01期
中国硕士学位论文全文数据库 前5条
1 张小波;网格节点间数据同步复制机制的研究[D];中南大学;2010年
2 李兰英;基于业务流程的Web应用监控系统[D];北京林业大学;2012年
3 樊丽;基于Web日志挖掘的学习资源个性化推荐方法研究[D];吉林大学;2012年
4 邱娣;基于Web日志挖掘的用户信息需求识别研究[D];华中师范大学;2012年
5 邱洪生;基于卡尔曼滤波的船舶航行轨迹异常行为预测算法研究[D];河北工业大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
2 冯成志,沈模卫;视线跟踪技术及其在人机交互中的应用[J];浙江大学学报(理学版);2002年02期
3 张国煊,王小华,周必水;快速书面汉语自动分词系统及其算法设计[J];计算机研究与发展;1993年01期
4 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
5 朱明,王俊普,蔡庆生;一种互联网信息智能搜索新方法[J];计算机研究与发展;2001年01期
6 王实;高文;李锦涛;;Web数据挖掘[J];计算机科学;2000年04期
7 刘明吉;王秀峰;黄亚楼;;数据挖掘中的数据预处理[J];计算机科学;2000年04期
8 吴秀清,韩彬斌;基于Bayes算法的Web网页识别[J];计算机工程;2000年03期
9 陈彬,洪家荣,王亚东;最优特征子集选择问题[J];计算机学报;1997年02期
10 李晓黎,刘继敏,史忠植;基于支持向量机与无监督聚类相结合的中文网页分类器[J];计算机学报;2001年01期
【相似文献】
中国期刊全文数据库 前10条
1 谢嫚;;人物专题数据库的构建及其数据挖掘探索——以中国女性人物专题数据库构建为例[J];现代情报;2010年06期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026