收藏本站
《浙江大学》 2002年
收藏 | 手机打开
二维码
手机客户端打开本文

Web文本挖掘技术研究及其实现

钱小军  
【摘要】:如何让Internet更好地为人类服务,是未来几年的一个真正挑战。一方面是人们对快速、准确而全面获取信息的渴望,而另一方面却是Internet上信息的纷繁芜杂,在这两者之间架设一座桥梁的确是一个巨大的挑战。作为从浩瀚的Web信息资源中发现潜在的有价值知识的一种有效技术。Web挖掘正悄然兴起,倍受关注。目前Web挖掘的研究正处于发展阶段,尚无统一的结论,需要国内外学者在理论上开展更多的讨论。同时,Web挖掘系统的开发对其研究也将起到很大推进作用。 本文对Web挖掘的有关理论进行了论述,着重讨论了Web文本挖掘系统的结构和技术。本文的主要内容包括: 一、详细描述了Web文本挖掘系统的构建,包括Web的数据模型,Web文本挖掘系统的体系结构,系统功能等; 二、具体讨论和分析了Web信息的自动获取的总体设计思想、主要实现技术,并给出了实现方案; 三、深入研究聚类和分类算法的关键技术,首先总结了在统计、机器学习和模式识别等领域的聚类/分类算法。随后从理论的层面来剖析聚类/分类算法,并介绍了一种基于粒度的分类算法; 四、介绍了在文本处理中如何提取文本特征,给出了一种权重计算的对偶性策略。
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2002
【分类号】:TP393.092

【引证文献】
中国期刊全文数据库 前4条
1 邵良杉;付曙光;薛立军;;企业核心竞争力的Web挖掘[J];辽宁工程技术大学学报;2007年01期
2 徐海霞;聚类分析在Web文本挖掘中的应用[J];情报杂志;2004年12期
3 张雯雯;许鑫;;文本挖掘工具述评[J];图书情报工作;2012年08期
4 顾兆军;李晓红;王伟;黄杰培;;Web日志挖掘中的会话识别方法研究[J];计算机技术与发展;2012年04期
中国硕士学位论文全文数据库 前6条
1 艾伟;基于本体的Web信息文本挖掘与检索服务研究[D];北京信息控制研究所;2010年
2 孙海虹;基于模糊粗糙集的Web文本分类研究[D];哈尔滨理工大学;2010年
3 王燕;基于XML的Web文本挖掘及关联算法的研究[D];江苏科技大学;2011年
4 邹丹;基于Web的中文文本分类的研究与实现[D];中国地质大学(北京);2006年
5 张六四;基于远程教育的智能答疑系统的研究与实现[D];西安电子科技大学;2006年
6 曹勇;中文Web文本分类技术研究[D];厦门大学;2007年
【参考文献】
中国期刊全文数据库 前3条
1 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
2 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
3 邹涛,王继成,张福炎;基于WWW的资料搜集系统的设计与实现[J];情报学报;1999年03期
【共引文献】
中国期刊全文数据库 前10条
1 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
2 阚涛,程家兴,钱付兰,余澄丹;时间规划中D_时刻表的改进算法及应用[J];安徽大学学报(自然科学版);2005年05期
3 王东霞;张楠;路晓丽;;基于育种算法的SVM参数优化[J];安徽大学学报(自然科学版);2009年04期
4 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
5 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
6 程伟;张燕平;赵姝;;支持向量机在粮食产量预测中的应用[J];安徽农业科学;2009年08期
7 武素华;;基于最小二乘支持向量机的土壤含水量检测的研究与分析[J];安徽农业科学;2009年09期
8 陈念;沈佐民;;基于化学成分检测和SVM分类的茶叶品质鉴定[J];安徽农业科学;2010年15期
9 顾红;杜春英;高永刚;刘丹;宫丽娟;于瑛楠;李宇光;李竑积;董洁;;黑龙江省近48年积温和降水的变化及其对作物种植带的影响[J];安徽农业科学;2010年34期
10 黄远顺;;矫直机的自动故障预报技术[J];安徽冶金;2012年01期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 段震;赵姝;;基于商空间理论的车牌定位[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
4 郑婷婷;毛军军;吴涛;宋杰;;多重分形和商空间理论在蛋白质结构类分析中的应用[A];第二十六届中国控制会议论文集[C];2007年
5 宋海鹰;桂卫华;阳春华;;基于核偏最小二乘的简约最小二乘支持向量机及其应用研究[A];第二十六届中国控制会议论文集[C];2007年
6 顾小军;杨世锡;钱苏翔;;基于支持向量机的旋转机械多类故障识别研究[A];第二十六届中国控制会议论文集[C];2007年
7 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
8 姜明辉;袁绪川;;基于GA优化的个人信用评估SVM模型[A];第二十六届中国控制会议论文集[C];2007年
9 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
10 吴静珠;刘翠玲;孙晓容;;支持向量机在近红外光谱检测技术中的应用研究[A];第二十九届中国控制会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 母丽华;煤矿安全预警系统的方法研究[D];哈尔滨工程大学;2010年
2 朱广平;混响干扰中的信号检测技术研究[D];哈尔滨工程大学;2009年
3 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
4 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
5 时长江;豆科类杂草种子图像识别系统研究[D];中国海洋大学;2009年
6 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
7 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
8 李先锋;基于特征优化和多特征融合的杂草识别方法研究[D];江苏大学;2010年
9 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
10 汪春梅;癫痫脑电信号特征提取与自动检测方法研究[D];华东理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 展慧;基于多源信息融合技术的板栗分级检测方法研究[D];华中农业大学;2010年
2 杜二玲;拟概率空间上等均值噪声下统计学习理论的理论基础[D];河北大学;2007年
3 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
4 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
5 安文娟;Fisher和支持向量综合分类器[D];辽宁师范大学;2010年
6 姜成玉;基于支持向量机的时间序列预测[D];辽宁师范大学;2010年
7 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
8 王文栋;GEP及SVM融合的分类技术研究[D];广西师范学院;2010年
9 姜念;区间自适应粒子群算法研究及其应用[D];郑州大学;2010年
10 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 暴海龙,李金林;专利检索中的IPC和主题词识别方法研究[J];北京理工大学学报(社会科学版);2003年05期
3 赵忠华,何显威;虚拟企业合作伙伴的寻找与评价[J];商业研究;2003年08期
4 余胜泉,何克抗;基于Internet的教学系统[J];中国电大教育;1999年06期
5 柳泉波,黄荣怀,何克抗;智能答疑系统的设计与实现[J];中国远程教育;2000年08期
6 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
7 宋爱波,胡孔法,董逸生;Web日志挖掘[J];东南大学学报(自然科学版);2002年01期
8 李龙澍,张霞;一种基于语义贴近度的模糊检索算法[J];东南大学学报;1998年05期
9 强彦;谢红薇;;基于Web数据的本体概念抽取[J];电脑开发与应用;2007年11期
10 景丽萍,黄厚宽;Web文本挖掘及特征选择[J];电脑与信息技术;2002年01期
中国博士学位论文全文数据库 前9条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
3 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
4 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
5 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
6 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
7 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
8 郑春红;支撑矢量机应用的关键技术研究[D];西安电子科技大学;2005年
9 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
2 罗智勇;现代汉语通用分词系统的技术与实现[D];北京工业大学;2002年
3 杨志国;AI网络课程中的智能答疑与实验[D];中南大学;2002年
4 苏大威;基于关联规则发现的Web挖掘[D];河海大学;2002年
5 苏伟峰;基于概念的文本自动分类研究[D];厦门大学;2002年
6 张银;基于网络的自动答疑系统的研究与开发[D];南京师范大学;2003年
7 罗强;基于粗糙集理论的知识发现在web文本挖掘上的应用研究[D];广西大学;2003年
8 郭瑞军;基于Web的虚拟企业合作伙伴选择[D];武汉理工大学;2003年
9 邱建波;基于网络的答疑系统的设计与实现[D];陕西师范大学;2004年
10 孙大伟;NERMS中智能答疑系统的研究与实现[D];吉林大学;2004年
【二级引证文献】
中国期刊全文数据库 前5条
1 葛淑杰;;基于数据挖掘技术的CRM系统中客户行为[J];辽宁工程技术大学学报;2007年02期
2 郑军;王巍;杨武;杨永田;;基于类间距离参数估计的文本聚类评价方法[J];计算机工程;2009年09期
3 王伟;;文本自动聚类技术研究[J];情报杂志;2009年02期
4 孙洁丽;朱智清;;基于数据挖掘技术的检索可视化系统的研究[J];现代情报;2008年03期
5 茅剑;刘晋明;曹勇;;一种基于密度的改进KNN文本分类算法[J];漳州师范学院学报(自然科学版);2012年02期
中国硕士学位论文全文数据库 前10条
1 孙海虹;基于模糊粗糙集的Web文本分类研究[D];哈尔滨理工大学;2010年
2 张宁;基于语义的中文文本预处理研究[D];西安电子科技大学;2011年
3 曾奉尧;基于社会网络的网络舆情挖掘技术与研究[D];电子科技大学;2011年
4 张长帅;基于图的半监督学习及其应用研究[D];南京航空航天大学;2011年
5 宋江;文本分类的特征选择方法研究[D];南京航空航天大学;2010年
6 李振东;面向栏目化经营的网络视频采编系统设计[D];华南理工大学;2011年
7 张弋;PHP站内中文搜索技术的研究与实现[D];上海交通大学;2009年
8 郭茂;基于类中心向量的文本分类模型研究与实现[D];大连理工大学;2010年
9 白凡;改进的K近邻算法在网页文本分类中的应用[D];安徽大学;2010年
10 程博;Web文本分类方法研究与系统实现[D];电子科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前2条
1 邹涛,王继成,张福炎;基于WWW的资料搜集系统的设计与实现[J];情报学报;1999年03期
2 卢增祥,李衍达;交互支持向量机学习算法及其应用[J];清华大学学报(自然科学版);1999年07期
【相似文献】
中国期刊全文数据库 前10条
1 肖湘萍;高玉斌;;Web文本挖掘[J];电脑知识与技术(学术交流);2007年09期
2 徐海霞;聚类分析在Web文本挖掘中的应用[J];情报杂志;2004年12期
3 冯中毅,董海棠;一种新的频集发现算法P&FP[J];兰州交通大学学报;2004年06期
4 吴育芳;陆春华;;Web文本挖掘研究[J];晋图学刊;2010年03期
5 李睿,李明;Web数据挖掘技术探讨[J];甘肃科技;2001年03期
6 李颖,阎保平;Web文本挖掘在互联网信息统计中的研究与设计[J];微电子学与计算机;2005年01期
7 李泽文;基于Web的数据挖掘技术[J];现代计算机;2004年07期
8 王艳;张帆;杨炳儒;;基于Web挖掘的数字图书馆个性化技术研究[J];情报杂志;2007年01期
9 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
10 李恒杰;李明;;基于本体的Web分类技术研究[J];微计算机信息;2006年21期
中国重要会议论文全文数据库 前10条
1 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年
2 董燕;;Web挖掘对电子商务网站建设的影响[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
3 易虹;许德刚;;Web数据挖掘的研究与应用[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
4 陈宇;王强;;聚类算法在Web文本挖掘中的应用研究[A];2009全国计算机网络与通信学术会议论文集[C];2009年
5 师伟;廖闻剑;;数据挖掘在Web上的研究与应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
6 张艳;周国祥;;Web挖掘在个性化信息检索中的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
7 吴珊;杨桦;;基于日志挖掘的Web预取模型[A];2006年电气工程教育专业委员会年会论文集[C];2006年
8 习慧丹;;Web日志挖掘探析[A];第三届全国软件测试会议与移动计算、栅格、智能化高级论坛论文集[C];2009年
9 宋江春;沈钧毅;;基于CORBA的分布式Web挖掘系统的设计与实现[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
10 王磊;王丰辉;郑康锋;杨义先;;基于Web挖掘技术的漏洞收集系统研究与设计[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
中国重要报纸全文数据库 前10条
1 特约通讯员王辉东;我作战仿真技术研究获突破[N];解放军报;2003年
2 ;兴安落叶松人工开花技术研究成功[N];今日信息报;2004年
3 庄愉;药物输送技术研究取得新突破[N];医药经济报;2001年
4 李宏立;兵团大田作物高效用水技术研究获突破[N];兵团日报(汉);2006年
5 记者  焦红霞;多项科研成果为青藏高速路“输血”[N];中国改革报;2007年
6 本报记者 马德甲;华亭煤业:拍动科技翅膀[N];中国煤炭报;2006年
7 记者 周军 通讯员 曲红权 祁双杨;攀钢启动改善连铸坯表面质量技术研究[N];中国冶金报;2006年
8 记者 齐芳;我们正用西方药物技术研究中药传统理论[N];光明日报;2006年
9 记者 马文生;中美加强标准化领域合作[N];中国国门时报;2007年
10 记者 张华君 通讯员 刘晔;废旧铝再生技术研究取得突破[N];河南日报;2007年
中国博士学位论文全文数据库 前10条
1 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
2 肖敏;基于领域本体的电子商务推荐技术研究[D];武汉理工大学;2009年
3 易明;基于Web挖掘的电子商务个性化推荐机理与方法研究[D];华中科技大学;2006年
4 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
5 阮备军;Web使用挖掘若干关键问题研究[D];复旦大学;2004年
6 何丽;基于Web挖掘的决策支持系统模型研究[D];天津大学;2005年
7 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
8 尹世群;Web文本分类关键技术研究[D];西南大学;2008年
9 袁方;面向智能信息检索的Web挖掘关键技术研究[D];东北大学;2006年
10 孙舒杨;统计关系学习的若干问题研究[D];吉林大学;2006年
中国硕士学位论文全文数据库 前10条
1 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
2 钱小军;Web文本挖掘技术研究及其实现[D];浙江大学;2002年
3 徐华;基于支持向量机的Web文本挖掘研究[D];哈尔滨工程大学;2004年
4 马宏伟;基于XML的Web文本挖掘应用研究[D];合肥工业大学;2009年
5 蒲秋梅;基于XML的Web数据挖掘技术的研究[D];武汉大学;2004年
6 孙丽;Web数据的挖掘方法研究[D];大庆石油学院;2004年
7 黄荣兵;RBF神经网络在Web挖掘中的应用研究[D];太原理工大学;2004年
8 胡小睿;基于Web挖掘的搜索引擎技术研究[D];武汉大学;2005年
9 马征;基于本体的Web页面分类挖掘[D];中南大学;2004年
10 谢振亮;基于WEB挖掘技术的网页自动分类和聚类的研究[D];天津大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026