收藏本站
《中国科学技术大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

面向智能服务的Web内容计算研究与应用

张友华  
【摘要】:WEB是人们获取信息与知识的重要途径,它的海量性、多样性、动态性和半结构化等特性增加了其信息进行自动处理的难度,也吸引了研究者的兴趣。如何从大量的信息中发现用户感兴趣的信息是目前因特网信息搜索研究的课题;如何将WEB上丰富的信息转化为有用的知识是WEB挖掘和WEB知识发现的任务;如何使用户获取个性化信息,从而使WEB提供更多的服务功能是WEB智能需要解决的问题。目前WEB信息数据大致可以分为三类:内容数据(Content Data)、访问数据(Usage Data)和结构数据(Structure Data),因此也形成WEB研究的三个大的方向:WEB内容挖掘、WEB访问挖掘和WEB结构挖掘。WEB的信息载体主要是WEB页面,它的内容包含显示的数据、标记和超链接。基于WEB内容的计算就是以WEB页面为对象,研究WEB的信息提取、WEB的信息检索和WEB智能服务等涉及到的问题。本文在综合了WEB内容计算的研究基础上,重点研究并取得如下创新性成果: (1) 提出了一种增量式挖掘方法iFP-Growth,使传统的FP-Growth方法适应于Web动态数据环境的关联规则挖掘。 Web页面数据的半结构化、不规则性和动态更新等特征,使得基于Web内容的数据挖掘研究具有一定的复杂性。本文总结了多种从Web页面中提取半结构化数据的理论与方法,针对Web内容数据的特点,提出的增量式挖掘方法iFP-Growth,使传统的FP-Growth方法适应于动态数据环境的关联规则挖掘。并以中国汽车市场网为例,挖掘消费者对不同类别、不同型号、不同价格轿车的购买偏好。 (2) 提出一种基于句子相关度的文本自动分类模型TCSC) 针对中文WEB文档集的分类和聚类等WEB信息检索(IR)课题中需要进行中文分词和词的多义性问题,利用语料库,提出了一种基于句子的文本特征选择,利用训练文本自动生成类别语料库,根据句内词元的类别相关性和句子位置信息,给出了基于句子类别相关度矩阵的文本分类方法,从而在分类阶段避免了分词处理,同时该方法对于词的多义性具有不敏感性。
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2006
【分类号】:TP311.10

【引证文献】
中国期刊全文数据库 前1条
1 熊范纶;;面向农业领域的智能系统技术体系架构及其实现[J];模式识别与人工智能;2012年05期
中国硕士学位论文全文数据库 前1条
1 宋兴华;基于用户模型的中文个性化检索系统研究[D];吉林大学;2011年
【参考文献】
中国期刊全文数据库 前10条
1 姚绍文,余江,周明天;面向语义Web的逻辑描述原语扩展[J];电子学报;2002年S1期
2 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
3 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
4 李善平,尹奇韡,胡玉杰,郭鸣,付相君;本体论研究综述[J];计算机研究与发展;2004年07期
5 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
6 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
7 廖乐健,曹元大,幺敬国,李守丽;一个语义Web构架及其实现[J];计算机工程与应用;2003年15期
8 黄海英;林士敏;严小卫;;基于概念空间的文本分类研究[J];计算机科学;2003年03期
9 廖明宏;本体论与信息检索[J];计算机工程;2000年02期
10 朱华宇,孙正兴,张福炎;一个基于向量空间模型的中文文本自动分类系统[J];计算机工程;2001年02期
中国重要会议论文全文数据库 前1条
1 白硕;程学旗;郭莉;王斌;余智华;刘群;;大规模内容计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
【共引文献】
中国期刊全文数据库 前10条
1 刘金红,夏阳,陆余良;基于Ontology的网络元数据抽取系统的研究与实现[J];安徽电子信息职业技术学院学报;2004年Z1期
2 胡凌云;胡桂兰;徐勇;李龙澍;;基于Web的新闻文本分类技术的研究[J];安徽大学学报(自然科学版);2010年06期
3 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
4 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
5 梅俊;郑刚;;一种基于临时表的关联规则增量更新算法[J];安徽工程科技学院学报(自然科学版);2010年01期
6 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
7 蔡丽艳;冯宪彬;丁蕊;;基于决策树的农户小额贷款信用评估模型研究[J];安徽农业科学;2011年02期
8 赵静娴;;基于决策树的食品安全评估研究[J];安徽农业科学;2011年32期
9 王斌;;基于聚类的决策树在玉米种质筛选中的应用[J];安徽农业科学;2011年33期
10 陈文;基于决策树的入侵检测的实现[J];安徽技术师范学院学报;2005年05期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
3 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
4 鲁松;;英文介词短语归并歧义的RMBL分类器消解[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
5 刘海霞;钟晓妮;周燕荣;田考聪;;决策树在居民就诊卫生服务利用影响因素研究中的应用[A];重庆市预防医学会2010年论文集[C];2011年
6 景东升;;基于本体和agent的地理空间信息语义共享初探[A];中国地理信息系统协会第八届年会论文集[C];2004年
7 汪云亮;吕久明;刘孝刚;;基于信息熵的辐射源属性分类方法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
8 叶中行;陆青;余敏杰;;计算智能在银行信贷信用分类中的应用[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)[C];2008年
9 翟伟斌;许榕生;;基于Internet的CIS研究[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年
10 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 卜志国;海洋生态环境监测系统数据集成与应用研究[D];中国海洋大学;2010年
2 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
3 何因;排序学习中基于直接优化信息检索评价准则算法的理论分析[D];中国科学技术大学;2010年
4 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
5 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
6 周扬;面向中药药性多维表征体系的中药本体研究[D];山东中医药大学;2010年
7 宋岩;基于多Agent和本体的散杂货港口集团船舶调度系统研究[D];北京交通大学;2011年
8 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
9 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
10 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 梅俊;数据挖掘中关联规则算法的研究及应用[D];安徽工程大学;2010年
2 厉颖;基于本体的服装领域知识表示的建模研究[D];山东科技大学;2010年
3 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
4 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
5 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
6 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
7 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
8 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
9 王德才;数据挖掘在校园卡消费行为分析中的研究与应用[D];哈尔滨工程大学;2010年
10 徐洪伟;数据挖掘中决策树分类算法的研究与改进[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 明均仁;张帆;;网络文本信息过滤的意义及其模型初探[J];图书与情报;2007年04期
2 韩立新,陈贵海,谢立;一个面向Internet的个性化信息检索系统模型[J];电子学报;2002年02期
3 邓超,熊范伦,谭营,何振亚;一种序贯学习神经网络及其应用[J];电子科学学刊;1999年06期
4 李鑫;张黎烁;;文本分类方法比较研究[J];光盘技术;2009年05期
5 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
6 杭小树,杭小树,熊范伦;基于CBR的农作物病虫害预报专家系统[J];计算机工程与应用;2000年10期
7 袁红春,熊范纶;元规则指导下的逐步求精多层空间关联规则挖掘算法[J];计算机工程;2004年08期
8 袁红春;张友华;;基于互联网的市场行情可视化信息系统[J];计算机工程;2005年23期
9 刘艳满;周琼;魏芳华;;网站个性化服务的分析和探讨[J];农业网络信息;2009年06期
10 赵星,deReffyePhilippe,熊范纶,胡包钢,展志岗;虚拟植物生长的双尺度自动机模型[J];计算机学报;2001年06期
中国重要会议论文全文数据库 前1条
1 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
中国博士学位论文全文数据库 前2条
1 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
2 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
中国硕士学位论文全文数据库 前3条
1 杨冬黎;基于Web的智能信息检索机制研究[D];大庆石油学院;2010年
2 彭耶萍;基于WEB的智能化信息检索系统研究[D];中南大学;2009年
3 陈艳斐;基于用户兴趣模型的校园网搜索引擎设计与应用[D];云南大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 王建芬,曹元大;支持向量机在大类别数分类中的应用[J];北京理工大学学报;2001年02期
2 陈刚,金芝,陆汝钤;虚拟企业及其协作模型[J];电子学报;2002年S1期
3 陆汝钤,石纯一,张松懋,毛希平,徐晋晖,杨萍,范路;面向Agent的常识知识库[J];中国科学E辑:技术科学;2000年05期
4 石云,孙玉方,左春;空间数据采掘的研究与发展[J];计算机研究与发展;1999年11期
5 武成岗,焦文品,田启家,史忠植;基于本体论和多主体的信息检索服务器[J];计算机研究与发展;2001年06期
6 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
7 陈晓明,俞时,谢莉莉,陈家训;基于本体模型的异构企业信息系统协作[J];计算机工程与应用;2003年01期
8 邹涛;王继成;杨文清;张福炎;;文本信息检索技术[J];计算机科学;1999年09期
9 邓志鸿,唐世渭,杨冬青;基于本体的多Agent分布式数字图书馆资源信息发现服务模型之研究[J];计算机工程;2002年06期
10 周永华,陈禹六,赵天奇;经营过程建模[J];计算机集成制造系统-CIMS;2002年01期
中国博士学位论文全文数据库 前1条
1 谭建龙;串匹配算法及其在网络内容分析中的应用[D];中国科学院研究生院(计算技术研究所);2003年
中国硕士学位论文全文数据库 前1条
1 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
【相似文献】
中国期刊全文数据库 前10条
1 左鹏,徐和龙,于国庆;Web挖掘在FDSS中的应用探讨[J];计算机与现代化;2001年05期
2 汪全莉;陈代春;;Web数据挖掘在网络教育中的应用[J];中国科技资源导刊;2008年02期
3 秦鸿;基于Web的数据挖掘[J];电子科技大学学报;2002年S1期
4 陈建华,包煊;Web挖掘系统的设计与实现[J];计算机工程;2002年08期
5 王霞,杨炳儒;Web搜索结果挖掘的研究与应用[J];计算机工程与应用;2003年14期
6 王艳,罗华;个性化图书馆信息服务系统的实现[J];情报杂志;2003年10期
7 顾晓燕;关于Web挖掘技术的研究[J];电脑知识与技术;2005年02期
8 易高翔,程耕国;数据挖掘在Web智能化中应用研究[J];计算机工程与设计;2005年01期
9 陈振,郑诚,朱小栋;一种基于关联分类方法的Web用户兴趣预测[J];微机发展;2005年05期
10 何典,宋中山;面向电子商务个性化服务的Web挖掘应用[J];计算机与网络;2005年Z1期
中国重要会议论文全文数据库 前10条
1 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年
2 董燕;;Web挖掘对电子商务网站建设的影响[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
3 师伟;廖闻剑;;数据挖掘在Web上的研究与应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
4 易虹;许德刚;;Web数据挖掘的研究与应用[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
5 张艳;周国祥;;Web挖掘在个性化信息检索中的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
6 吴珊;杨桦;;基于日志挖掘的Web预取模型[A];2006年电气工程教育专业委员会年会论文集[C];2006年
7 习慧丹;;Web日志挖掘探析[A];第三届全国软件测试会议与移动计算、栅格、智能化高级论坛论文集[C];2009年
8 宋江春;沈钧毅;;基于CORBA的分布式Web挖掘系统的设计与实现[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
9 王磊;王丰辉;郑康锋;杨义先;;基于Web挖掘技术的漏洞收集系统研究与设计[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
10 林政;吕雅娟;刘群;马希荣;;基于双语混和网页的平行语料挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国重要报纸全文数据库 前5条
1 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
2 涂序彦 陈泓娟;在网络信息海洋中淘金[N];计算机世界;2001年
3 ;Web收获:吸纳有用信息[N];计算机世界;2004年
4 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
5 本报记者 仝仁;数据库网联服务[N];中国计算机报;2001年
中国博士学位论文全文数据库 前10条
1 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
2 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
3 肖敏;基于领域本体的电子商务推荐技术研究[D];武汉理工大学;2009年
4 易明;基于Web挖掘的电子商务个性化推荐机理与方法研究[D];华中科技大学;2006年
5 阮备军;Web使用挖掘若干关键问题研究[D];复旦大学;2004年
6 何丽;基于Web挖掘的决策支持系统模型研究[D];天津大学;2005年
7 尹世群;Web文本分类关键技术研究[D];西南大学;2008年
8 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
9 孙舒杨;统计关系学习的若干问题研究[D];吉林大学;2006年
10 袁方;面向智能信息检索的Web挖掘关键技术研究[D];东北大学;2006年
中国硕士学位论文全文数据库 前10条
1 蒲秋梅;基于XML的Web数据挖掘技术的研究[D];武汉大学;2004年
2 孙丽;Web数据的挖掘方法研究[D];大庆石油学院;2004年
3 黄荣兵;RBF神经网络在Web挖掘中的应用研究[D];太原理工大学;2004年
4 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
5 马征;基于本体的Web页面分类挖掘[D];中南大学;2004年
6 谢振亮;基于WEB挖掘技术的网页自动分类和聚类的研究[D];天津大学;2004年
7 张承明;基于Web的数据挖掘研究[D];山东科技大学;2003年
8 段晓峰;网站日志的数据挖掘[D];重庆大学;2003年
9 牟刚;基于XML的Web信息挖掘技术的研究[D];重庆大学;2004年
10 唐飞龙;Internet信息获取技术的研究[D];合肥工业大学;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026