收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

WEB文本挖掘中关键问题的研究

何慧  
【摘要】: 随着互联网和通讯网的迅猛发展,网络文本成为信息的主要载体及人们生活中不可或缺的主要信息来源,文本挖掘技术的研究意义和实用价值越来越突出。另一方面,随着Web2.0时代的到来,出现了越来越多的由用户创作的网络数字内容。用户数字内容的大量产生和传播使得短文本计算、Web文本信息抽取、文本情感分析等逐渐成为Web文本挖掘研究的热点问题。针对这些问题,本文进行了以下研究: (1)基于统计语言模型的短文本计算。针对短文本包含字符少、文本语言不规范、文本数量巨大的特点,本文提出了一种基于N-gram的特征提取和RPCL(Rival Penalized Competitive Learning)的短文本聚类算法。首先进行基于字符级的N-gram特征提取,即从未分词的语料中抽取中文块。中文块可以是一个汉字、一个词或者字符串,这样,中文块不但可以表达短文本的语义信息,而且能够保留语序结构和字符之间的依赖。然后通过统计子串约减和互信息过滤得到候选中文块集合。最后,使用一种神经网络聚类算法RPCL对短文本进行聚类。实验结果表明,这种基于N-gram的特征提取和RPCL的短文本聚类算法能够有效的对短文本聚类,并能有效的降低特征的维度。 (2)面向广告推荐和情感分析的Web文本信息抽取。针对广告推荐中的复合词抽取问题,本文提出了基于隐马尔科夫模型的半监督中文复合词抽取算法。从少量种子复合词出发,通过设定一个BEMI(Begin,End,Middle,Independent)模板,使用隐马尔科夫模型识别与种子复合词具有相同或相似信息的复合词。算法采用Bootstrapping的学习方法,通过自学习不断增大复合词列表的规模。实验结果表明,本算法可以满足广告系统关键词推荐的信息抽取需求,并具有较高的准确率和可以接受的召回率。 针对文本分析问题中情感词抽取的问题,本文提出了基于最大熵和LMR(Left,Middle,Right)模板的中文情感词抽取算法。通过对文本设定一个滑动窗口,使用LMR模板标记词的位置信息,使用词、词的先后位置信息、词性信息作为特征,对情感词进行识别和抽取。实验结果表明,本算法具有较高的召回率和准确率,同时在某些特征组合的情况下,情感词抽取具有良好的鲁棒性。 (3)基于监督和半监督的文本情感分类。针对网络上大量流行音乐、网友原创、改编的音乐,本文提出了一种对音乐歌词的情感分类方法。首先,通过对歌词语料库的词进行统计发现其分布基本符合齐夫定律,但与中文分类通用语料库(863计划文本分类测试数据)中词语分布略有差异。由于对歌词表现的情感进行的分类不同于按照主题对普通文本的分类任务,所以需要抽取更多表现情感色彩的特征。本文在N元模型的框架下采取了三种不同的预处理方法(不同N-gram模板、消去停用词、按词性过滤)抽取更多的歌词情感语义特征,并提出了带有高斯先验和指数先验的最大熵模型的分类算法对歌词的情感特征进行建模。实验结果表明,具有高斯先验和指数先验的最大熵模型非常适合用于歌词情感分析问题。 针对实际的情感分类中标注数据不足的情况,本文提出了一种基于半监督学习的文本情感分类算法。假设空间中存在一个情感流形结构,将待分类文本看作是这个情感流形上抽样的点。首先,利用这些点的邻域信息进行构图,每个点与它近邻的边的权重使用它的近邻线性加权表示;然后,将该图看作是一个概率转移矩阵,各类别的标签在此矩阵上扩散完成情感分类过程。在电影评论和中文歌词语料集上的实验结果表明,该算法在文本情感分类上具有良好的性能。 (4)文本观点检索。以本文作者2008年参加的COAE2008中的面向主题的中文文本观点检索任务为主线,介绍了本文参评系统PRIS-SAS。本系统采用两阶段处理方式,在经过编码转换、分词等预处理后,PRIS-SAS首先使用Indri检索系统对语料集建立索引,使用任务中的主题词进行ad-hoc检索,然后使用本文中文本情感分类算法建立倾向性模型和极性模型,对检索得到的相关文本进行文本倾向性判断,并对检索结果重新排序。在COAE2008数据集上的评测指标表明,本文设计的文本观点检索系统达到了较高的性能水平。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 ;《中兴通讯技术》杂志编辑委员会[J];中兴通讯技术;2005年04期
2 宋玲;;以科学发展观为统领 为我国电子商务发展做贡献——北京邮电大学学报(社科版)电子商务专栏开栏贺词[J];北京邮电大学学报(社会科学版);2006年04期
3 ;《北京邮电大学学报》征稿简则[J];北京邮电大学学报;2008年02期
4 ;《北京邮电大学学报》征稿简则[J];北京邮电大学学报;2008年04期
5 ;《北京邮电大学学报》征稿简则[J];北京邮电大学学报;2008年05期
6 赵经纬;;风雨80载 北京邮电大学徐大雄院士自述[J];通信世界;2008年44期
7 ;《北京邮电大学学报》征稿简则[J];北京邮电大学学报;2008年06期
8 ;北京邮电大学选择瞻博网络产品构建真实稳定的研究环境[J];数据通信;2010年03期
9 ;《北京邮电大学学报》征稿简则[J];北京邮电大学学报;2011年01期
10 ;捷迪讯与北京邮电大学成立光网络测试实验室[J];现代电信科技;2011年Z1期
11 ;为推技术 学校开课[J];每周电脑报;1998年13期
12 张秋华;;NCIE建首个安全实验室[J];每周电脑报;2004年18期
13 鲁义轩;为未来把脉 行业专家点评2004 “北京邮电大学-SK电讯”第四届MBA新年论坛精英观点集粹[J];通信世界;2005年03期
14 傅宇凡;;用发展的眼光办教育网——访CERNET华北地区北京邮电大学主节点主任马严[J];中国教育网络;2007年08期
15 ;网御神州和北京邮电大学成立信息安全联合实验室[J];计算机安全;2007年08期
16 ;锐意进取、追求卓越——北京邮电大学计算机学院信息安全系杨义先教授[J];计算机教育;2010年15期
17 ;会议简讯[J];中国无线电管理;1997年03期
18 ;罗德与施瓦茨公司贺北京邮电大学五十华诞[J];中国无线电;2005年10期
19 ;物理学[J];全国新书目;2005年14期
20 ;“北京邮电大学软件论坛——开源软件与企业信息化”举行[J];数字通信世界;2006年11期
中国重要会议论文全文数据库 前10条
1 ;《北京邮电大学学报》征稿简则[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
2 ;《北京邮电大学学报》征稿简则[A];中国通信学会通信软件技术委员会2009年学术会议论文集[C];2009年
3 ;第十三届全国青年通信学术会议领导机构名单[A];2008通信理论与技术新发展——第十三届全国青年通信学术会议论文集(下)[C];2008年
4 ;第十三届全国青年通信学术会议领导机构名单[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
5 卢家楣;;青少年学生的情感素质内涵、构架及对情感分类的拓展[A];第十二届全国心理学学术大会论文摘要集[C];2009年
6 ;第十二届全国青年通信学术会议征文通知[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
7 ;第十二届全国青年通信学术会议征文通知[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
8 ;第一届中国高校通信类院系学术研讨会征文通知[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
9 张紫琼;李一军;叶强;;汉语商品评论情感分析——一种基于搜索引擎的无监督方法(英文)[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
10 左维松;昝红英;张坤丽;吴云芳;;规则和统计相结合的情感分析研究[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 何慧;WEB文本挖掘中关键问题的研究[D];北京邮电大学;2009年
2 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
3 董舒翼;通信业知识产权发展影响因素研究[D];北京邮电大学;2011年
4 黄学田;下一代光网络中的全光信息处理技术[D];北京邮电大学;2005年
5 高玉春;机载气象雷达探测系统总体关键技术研究[D];北京邮电大学;2009年
6 齐永兴;超宽带光无线系统关键技术的研究及性能分析[D];北京邮电大学;2006年
7 范玲;调制偏振光在光学精密测量和方位信息传递中的应用研究[D];北京邮电大学;2006年
8 夏斌;DS-CDMA UWB系统关键技术的研究[D];北京邮电大学;2006年
9 张英海;自适应双工技术研究[D];北京邮电大学;2007年
10 匡斌;公共经济视角下的电信普遍服务研究[D];北京邮电大学;2007年
中国硕士学位论文全文数据库 前10条
1 马月珠;基于短语模式的评论性文章情感抽取方法研究[D];北京邮电大学;2009年
2 凌中华;基于Windows Mobile的PoC客户端的设计与实现[D];北京邮电大学;2008年
3 曾欢;基于Symbian OS的VoIP研究和实现[D];北京邮电大学;2008年
4 李华;SIP协议及其扩展在IPPBX上的设计与实现[D];北京邮电大学;2008年
5 钟文芳;基于UML模型的代码自动生成系统的设计与实现[D];北京邮电大学;2006年
6 薛向东;电力线带宽控制系统中PPPOE模块设计与实现及H.264解码系统的API的开发实现[D];北京邮电大学;2007年
7 王茜菲;基于REST的Feed数据模型的设计与实现[D];北京邮电大学;2008年
8 王才超;高校综合接入工程可行性研究[D];北京邮电大学;2012年
9 刘纪文;基于ARM和FPGA的嵌入式系统的研究和设计[D];北京邮电大学;2007年
10 王伟;PDSN模拟器—PPP模块及NAT模块的设计与实现[D];北京邮电大学;2007年
中国重要报纸全文数据库 前10条
1 李刚;网御神州和北京邮电大学成立信息安全联合实验室[N];中国计算机报;2007年
2 徐砚;北邮网院创建节约型企业见成效[N];人民邮电;2005年
3 钟凌江;探索创新模式 促进校企合作[N];人民邮电;2005年
4 ;丽景科技与北邮合作开发手机广告平台[N];人民邮电;2008年
5 本报记者 李昕;什么才是真正的推动力[N];通信产业报;2002年
6 记者 纪秀君;教育部与信息产业部共建北邮[N];中国教育报;2005年
7 姚春鸽;北邮隆重举行建校50周年庆祝大会[N];人民邮电;2005年
8 杨靖;北邮联合培养项目力促中英高等教育合作[N];科技日报;2008年
9 本报记者 李云杰;布局下一代电信网络[N];计算机世界;2003年
10 本报记者 顾莹;在特殊时代开启智力源泉[N];通信产业报;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978