收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

因子分析算法的研究及其在Web文本特征提取中的应用

张脂平  
【摘要】:当前WWW正在深度和广度方面飞速地发展着,其信息容量以指数形式增长。Web文本数据对象通常是一组HTML格式的文档集,因此一般将这些文档转化成能反映文档内容的特征向量。但在目前所采用的文档表示方法中,存在一个共同的不合人意的地方是文档特征向量具有惊人的维数,使得特征子集的选取成为Web文本挖掘过程中必不可少的一个环节。本文的目标就是以Web文本信息处理为背景,从理论及应用两个层次对特征子集的选取方法进行了较为深入的研究。 论文首先阐述了Web文本挖掘模型,描述了Web文本挖掘定义、特点、一般处理过程及常用技术。其次对分词、特征表示与特征提取这些Web文本挖掘相关技术作了详细的讨论。最后对Web文本挖掘过程中面临的最核心问题---文本特征提取作了详细的分析并加以改进,提出了SVD与因子分析相结合的算法,通过实验验证了算法的有效性,并在因子分析的基础上提出了基于向量相似度的遗传算法。 论文主要是对特征提取算法进行研究及实现。特征向量的获取是一个NP完全问题,目前,对特征提取的研究已经开始受到人们的重视,产生了许多新的方法。很多方法是基于词频和位置赋予特征一定的权重,选择较大者。 在因子分析算法的基础上,本文提出了两种文本特征矢量获取算法:①基于因子分析的特征提取算法:采用SVD与主成分分析相结合的方法,寻找文本中潜在的概念结构即因子。其基本思想是寻求基本结构,简化系统,既寻找一个加权的子集,这样将原文本集的特征表示为新因子的组合,进而再现其内部联系,解释整个文本集。②基于向量相似度的遗传算法:我们把Web文本特征向量的获取问题转化成为Web文本空间的寻优问题。在Web文本特征获取问题中,较好的个体应该能较好地反映文档,包含其它各染色体的信息,也就是与其它个体的相似度较高。本文把由不同特征词条组成的个体转化为由因子分析算法中的公因子组成的向量空间中的向量。基于向量相似度不断搜索问题域空间,使其不断得到进化,逐步得到Web文本的最优特征向量。 最后介绍了系统的设计与实现,给出了两个特征提取算法的实验结果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 蒋人杰;戚飞虎;徐立;吴国荣;;基于连通分量特征的文本检测与分割[J];中国图象图形学报;2006年11期
2 肖建国;;试论文本挖掘及其应用[J];图书馆学研究;2008年04期
3 杨应全;文汝;;网络环境下文本自动分类分析[J];科技文献信息管理;2005年01期
4 王少康;董科军;阎保平;;使用特征文本密度的网页正文提取[J];计算机工程与应用;2010年20期
5 邹腊梅;肖基毅;龚向坚;;Web文本挖掘技术研究[J];情报杂志;2007年02期
6 曹丽君;刘西印;杨燕萍;;WEB页面文本挖掘的价值与未来探究[J];商场现代化;2008年09期
7 褚力;张世永;;基于集成合并的文本特征提取方法[J];计算机应用与软件;2008年10期
8 郝长春;T6963C控制器型图形液晶显示器及其应用[J];雷达与对抗;2003年01期
9 高立敏;李俊;肖艳芹;;基于Web的网络信息挖掘技术研究[J];电脑知识与技术;2010年16期
10 唐晓文;基于本体论的文本特征提取[J];电脑与信息技术;2005年01期
11 李锐;;网页文本分类挖掘的几种算法研究[J];福建电脑;2008年10期
12 姜洪伟;;试析博客写作的文本特征[J];出版与印刷;2009年02期
13 张永刚;梁颖红;颜振祥;姚建民;;基于统计的中文关键短语自动抽取[J];江南大学学报(自然科学版);2010年01期
14 陈素萍;谢丽聪;;一种文本特征选择方法的研究[J];计算机技术与发展;2009年02期
15 莫佳;;基于Word文本的信息隐藏系统的设计与实现[J];计算机应用与软件;2009年12期
16 王小华;卢小康;;基于N-Gram的文本去重方法研究[J];杭州电子科技大学学报;2010年02期
17 方育柯;傅彦;周俊临;夏虎;;基于主题网络爬虫的不良网页的发现与识别[J];郑州大学学报(理学版);2010年02期
18 林鸿飞,战学刚,姚天顺;文本特征区域与文本过滤的匹配机制[J];计算机工程与应用;2000年07期
19 林东文;白清源;谢丽聪;谢伙生;张莹;;一种基于本体论的文本特征选取方法[J];计算机科学;2008年03期
20 肖人岳;秦慕婷;;一种复杂文本图像中快速文本行检测算法[J];科学技术与工程;2008年23期
中国重要会议论文全文数据库 前10条
1 王锦;王会珍;张俐;;基于维基百科类别的文本特征表示[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 孔维泽;刘奕群;张敏;马少平;;问答社区中回答质量的评价方法研究[A];第六届全国信息检索学术会议论文集[C];2010年
3 苏贵洋 ;李建华 ;马颖华;;XML统一文本自动处理描述接口[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 喻飞;张林峰;廖桂平;沈岳;;基于模糊神经网络的信息安全审计系统[A];第25届中国控制会议论文集(中册)[C];2006年
5 王敏;;典籍英译中的“博弈论”—从关联翻译理论看《庄子·逍遥游》两家英译之个案研究[A];中国英汉语比较研究会第七次全国学术研讨会论文集[C];2006年
6 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
7 代劲;何中市;胡峰;;一种高性能的文本特征自动提取算法[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
8 郑佳谦;徐隽;姚静;牛军钰;;论坛社区用户时空特征建模与挖掘[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
9 潘丽;邹建成;;一种基于英文文本内容的零水印新算法[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
10 朱祥玉;侯德文;陈希;;基于双重评估函数的文本特征提取方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
中国博士学位论文全文数据库 前10条
1 胡根红;中国古代小品文研究[D];陕西师范大学;2008年
2 王小芳;文本主题域划分与无监督特征提取[D];吉林大学;2009年
3 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
4 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
5 李方涛;基于产品评论的情感分析研究[D];清华大学;2011年
6 林元富;论伊什梅尔·里德后现代主义小说戏仿艺术[D];厦门大学;2008年
7 李桔元;广告语篇中的意识形态研究[D];上海外国语大学;2007年
8 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
9 黄鹏;基于文本和视觉信息融合的Web图像检索[D];浙江大学;2008年
10 何儒汉;Web图像的多模融合检索研究[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 林楠;文本特征选择算法研究[D];辽宁师范大学;2010年
2 刘逵;基于野草算法的文本特征选择研究[D];西南大学;2013年
3 陈彦敏;基于联合条件熵的文本特征提取算法的研究及其应用[D];华东师范大学;2013年
4 彭寅;基于文本特征分析的钓鱼邮件检测技术研究[D];南京邮电大学;2012年
5 杨雪;文本特征选择算法的研究[D];辽宁师范大学;2013年
6 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
7 王宏伟;文本特征与二语写作水平关系研究[D];国防科学技术大学;2011年
8 胡海峰;用户生成答案质量评价中的特征表示及融合研究[D];哈尔滨工业大学;2013年
9 白新国;基于主题图的教育文献资源组织模型与应用研究[D];华中师范大学;2008年
10 邹星旺;古代戏曲中的用赋研究[D];江西师范大学;2008年
中国重要报纸全文数据库 前10条
1 蔚蓝;风,穿越细微,覆盖辽阔[N];文艺报;2006年
2 肖自强;列维纳斯:“说”或者“写”[N];中国图书商报;2007年
3 匡钊;批评理论[N];光明日报;2002年
4 杨斌华;性别书写与诗歌想像[N];文学报;2006年
5 古耜;在生命的河床里披沙拣金[N];文学报;2004年
6 ;可搜索的视频:又一座金矿[N];网络世界;2010年
7 晓阳;多元文化视角下的地域文学研究[N];吉林日报;2004年
8 樊发稼 作者系中国社科院文学所研究员;儿童文学生态及其他[N];文艺报;2005年
9 唐建清;破碎的城市 破碎的生活[N];文学报;2005年
10 商报记者 江筱湖;和谐务实高效的“实在”会[N];中国图书商报;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978