收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

WEB文本情感分类中关键问题的研究

陈博  
【摘要】: 随着计算机技术和互联网的迅猛发展,网络在线的文档成为现代主要的信息载体,是人们生活中不可或缺的主要信息来源。而随着互联网进入web2.0时代,人们从被动的接受门户网站发布信息,转变为主动的获取、发布、共享、传播信息。同时,由于用户参与到信息的产生,网络信息的内容形式也变得多样化,越来越多的具有个人观点性的内容充斥着网络。这些观点性内容对于网络电子商务、网络社区发掘、网络信息安全、网络信息检索等多方面都具有重要的意义和实用价值。对网络文本观点性内容的自动情感分析成为近期web信息处理的一个研究热点,而其中的核心技术就是文本情感分类。 在这样一个背景下,本文对面向web文本的中文分词、文本情感分类以及Weblog观点检索问题进行了下述创新性研究工作: 首先,研究了面向web文本的中文分词问题。根据web文本环境的特点,研究重点在于中文分词中的未登录词识别问题,同时兼顾切分歧义消解、整体切分准确率和高效处理海量文本的能力。在未登录词识别方面,提出了POC-NLW字符标记模板,从字符级别的粒度来表征中文词汇的构成机制,并结合隐马尔可夫模型,实现了基于字符序列标注的中文分词方法。此外,分别使用了基于规则匹配的预处理、基于词典匹配的初级全切分、基于词语级别的N-Gram统计切分模型,并通过级联方式将上述各模块有效组合,构成了多模型混合的层叠系统。实验结果表明,本文提出的基于POC-NLW模板标注的切分方法具有较强的未登录词识别能力;而多模型混合的层叠系统在整体切分精度和未登录词识别方面都达到了较高的实用水平。另外,本文提出的系统还具有高效的建模和切分处理速度,具有面向海量web文本切分的实用性能。 第二,研究了web文本情感分类问题,主要包括文本的主客观分类和正负面极性分类两个子问题。在语言特征表示方面,对比研究了基于多种N-Gram语言特征模板的文本特征表示方式;在文本特征加权方面,对比了布尔、绝对词频、归一化词频以及基于TFIDF的特征加权方式;在特征选择方面,提出了全局TFIDF显著指数,引入“全局过滤-局部加权”的特征抽取方式;在情感分类模型方面,以朴素贝叶斯模型做对比,详细研究了最大熵模型的最大似然估计问题,采用高斯先验和指数型先验,对传统的最大熵模型进行改进。通过在真实网络电影评论数据集上的详细对比试验,以及对语料样本的分析,证实了采用高阶语言特征模板、基于TFIDF的特征选择和过滤方法、加入指数型先验的最大熵模型较好的适用于文本情感分类问题。 第三,研究了Weblog观点检索问题,以TREC Blog Track评测为主线,主要研究了面向blog文档的主题检索和文本情感分类技术在观点检索中的应用。首先,针对Weblog文档的特点以及观点检索的特殊性,在Weblog文档的HTML解析、噪声标签过滤、文本内容提取、词形还原等预处理方面作了技术改进;之后,以Indri检索系统为研究平台,利用结构化查询语言和web搜索引擎进行查询扩展和结构化查询主题构造,并采用基于文档标题字段的域查询,有效的提高了基本的ad-hoc主题检索的性能;在Weblog观点检索方面,使用基于最大熵的主观性内容判别模型,并提出了分类器自学习的策略,实现不同数据集之间的知识传递,在Weblog数据集上有效建模;同时,分别构建了句子级别和文档级别的最大熵模型,并将两者组合构成层叠式的Weblog文档观点性内容判别模型。在Blog Track数据集上的评测指标表明,本文构造的Weblog观点检索系统达到了较高的性能水平。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 田思虑;李德华;潘莹;;一种改进的基于二元统计的HMM分词算法[J];计算机与数字工程;2011年01期
2 马志强;;一种给批量汉字加注带有声调拼音的方法[J];微电子学与计算机;2008年04期
3 王俊生,韦钰;复参数最大熵图像重建的剑桥算法[J];通信学报;1994年06期
4 熊桂喜;李政;;基于规则和语料库的中文姓名识别研究[J];计算机与信息技术;2007年12期
5 李跃民;王浩;赵生慧;;有词典中文分词算法研究[J];滁州学院学报;2008年03期
6 许高建;胡学钢;路遥;王庆人;;一种改进的中文分词歧义消除算法研究[J];合肥工业大学学报(自然科学版);2008年10期
7 黄德根;焦世斗;周惠巍;;基于子词的双层CRFs中文分词[J];计算机研究与发展;2010年05期
8 孙殿哲;魏海平;陈岩;;Nutch中庖丁解牛中文分词的实现与评测[J];计算机与现代化;2010年06期
9 杨文涛;司应硕;张森;;GA-BP神经网络算法在中文分词分析中的应用研究[J];河南机电高等专科学校学报;2010年04期
10 孙乐;方自金;;基于互联网的信息采集系统的设计与实现[J];河北大学成人教育学院学报;2010年04期
11 吕红,李时光,徐问之,闫旭,吕怡;不完全扇形投影数据的图象重建算法研究[J];重庆大学学报(自然科学版);1997年05期
12 陈红英,李卫华;智能信息Agent的研究和实现[J];计算机工程与应用;2002年12期
13 林珊,宁国宁,赵之霖;中文分词在邮件过滤系统中的应用[J];华南理工大学学报(自然科学版);2004年S1期
14 王坚,赵恒永;专业搜索引擎中文分词算法的实现与研究[J];福建电脑;2005年07期
15 许敏;周伟灿;;CAD电子图管理系统中全文检索的研究[J];微计算机信息;2006年19期
16 山岚;赵英;徐耀;王坚;张莹莹;;专业搜索引擎系统的设计与实现[J];微计算机信息;2007年06期
17 祁文青;;一种改进的中文分词算法[J];黄石理工学院学报;2007年04期
18 徐飞;孙劲光;;基于一种粗切分的最短路径中文分词研究[J];计算机与信息技术;2007年11期
19 张恒;杨文昭;屈景辉;卢虹冰;张亮;赵飞;;基于词典和词频的中文分词方法[J];微计算机信息;2008年03期
20 梁卓明;陈炬桦;;基于专有名词优先的快速中文分词[J];计算机技术与发展;2008年03期
中国重要会议论文全文数据库 前10条
1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
2 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 王玉明;;最大熵可靠性评估方法的改进[A];中国工程物理研究院科技年报(2003)[C];2003年
6 孙萌;姚建民;吕雅娟;刘群;姜文斌;;基于最大熵短语重排序模型的特征抽取算法改进[A];第五届全国青年计算语言学研讨会论文集[C];2010年
7 ;《北京邮电大学学报》征稿简则[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
8 赵军;敖其尔;吉仁尼格;巩政;葡萄;陈建东;;基于统计语言模型蒙古文词汇分析校正器的设计与实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 ;《北京邮电大学学报》征稿简则[A];中国通信学会通信软件技术委员会2009年学术会议论文集[C];2009年
10 卢家楣;;青少年学生的情感素质内涵、构架及对情感分类的拓展[A];第十二届全国心理学学术大会论文摘要集[C];2009年
中国博士学位论文全文数据库 前10条
1 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
2 何慧;WEB文本挖掘中关键问题的研究[D];北京邮电大学;2009年
3 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
4 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
5 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
6 滕海文;基于最大熵的结构两相优化设计[D];北京工业大学;2002年
7 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
8 吴斌;语音识别中的后处理技术研究[D];北京邮电大学;2008年
9 文娟;统计语言模型的研究与应用[D];北京邮电大学;2010年
10 汤步洲;序列标注问题的监督学习方法及应用[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 苏亮;基于多级Hash分词的全文搜索引擎的研究[D];北京邮电大学;2008年
2 张慧;旅游信息垂直搜索系统的设计与实现[D];北京邮电大学;2009年
3 秦健;N-gram技术在中文词法分析中的应用研究[D];中国海洋大学;2009年
4 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
5 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
6 戚晶;基于RSS的搜索引擎的研究与实现[D];吉林大学;2006年
7 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
8 马莉;基于SVM的垃圾邮件过滤的研究[D];山东大学;2005年
9 王新梅;基于内容挖掘的垃圾邮件过滤技术[D];武汉理工大学;2006年
10 王圆;文本内容过滤的关键技术研究[D];东北师范大学;2006年
中国重要报纸全文数据库 前10条
1 李刚;网御神州和北京邮电大学成立信息安全联合实验室[N];中国计算机报;2007年
2 徐砚;北邮网院创建节约型企业见成效[N];人民邮电;2005年
3 钟凌江;探索创新模式 促进校企合作[N];人民邮电;2005年
4 ;丽景科技与北邮合作开发手机广告平台[N];人民邮电;2008年
5 本报记者 李昕;什么才是真正的推动力[N];通信产业报;2002年
6 记者 纪秀君;教育部与信息产业部共建北邮[N];中国教育报;2005年
7 姚春鸽;北邮隆重举行建校50周年庆祝大会[N];人民邮电;2005年
8 ;天罗地网[N];网络世界;2001年
9 本报记者 孔德芳 实习生 向辉;杨义先:“信息边疆”的守护者[N];科技日报;2006年
10 本报实习记者 齐兴一;再为3G做一次“全面体检”[N];通信产业报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978