收藏本站
《北京邮电大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

WEB文本情感分类中关键问题的研究

陈博  
【摘要】: 随着计算机技术和互联网的迅猛发展,网络在线的文档成为现代主要的信息载体,是人们生活中不可或缺的主要信息来源。而随着互联网进入web2.0时代,人们从被动的接受门户网站发布信息,转变为主动的获取、发布、共享、传播信息。同时,由于用户参与到信息的产生,网络信息的内容形式也变得多样化,越来越多的具有个人观点性的内容充斥着网络。这些观点性内容对于网络电子商务、网络社区发掘、网络信息安全、网络信息检索等多方面都具有重要的意义和实用价值。对网络文本观点性内容的自动情感分析成为近期web信息处理的一个研究热点,而其中的核心技术就是文本情感分类。 在这样一个背景下,本文对面向web文本的中文分词、文本情感分类以及Weblog观点检索问题进行了下述创新性研究工作: 首先,研究了面向web文本的中文分词问题。根据web文本环境的特点,研究重点在于中文分词中的未登录词识别问题,同时兼顾切分歧义消解、整体切分准确率和高效处理海量文本的能力。在未登录词识别方面,提出了POC-NLW字符标记模板,从字符级别的粒度来表征中文词汇的构成机制,并结合隐马尔可夫模型,实现了基于字符序列标注的中文分词方法。此外,分别使用了基于规则匹配的预处理、基于词典匹配的初级全切分、基于词语级别的N-Gram统计切分模型,并通过级联方式将上述各模块有效组合,构成了多模型混合的层叠系统。实验结果表明,本文提出的基于POC-NLW模板标注的切分方法具有较强的未登录词识别能力;而多模型混合的层叠系统在整体切分精度和未登录词识别方面都达到了较高的实用水平。另外,本文提出的系统还具有高效的建模和切分处理速度,具有面向海量web文本切分的实用性能。 第二,研究了web文本情感分类问题,主要包括文本的主客观分类和正负面极性分类两个子问题。在语言特征表示方面,对比研究了基于多种N-Gram语言特征模板的文本特征表示方式;在文本特征加权方面,对比了布尔、绝对词频、归一化词频以及基于TFIDF的特征加权方式;在特征选择方面,提出了全局TFIDF显著指数,引入“全局过滤-局部加权”的特征抽取方式;在情感分类模型方面,以朴素贝叶斯模型做对比,详细研究了最大熵模型的最大似然估计问题,采用高斯先验和指数型先验,对传统的最大熵模型进行改进。通过在真实网络电影评论数据集上的详细对比试验,以及对语料样本的分析,证实了采用高阶语言特征模板、基于TFIDF的特征选择和过滤方法、加入指数型先验的最大熵模型较好的适用于文本情感分类问题。 第三,研究了Weblog观点检索问题,以TREC Blog Track评测为主线,主要研究了面向blog文档的主题检索和文本情感分类技术在观点检索中的应用。首先,针对Weblog文档的特点以及观点检索的特殊性,在Weblog文档的HTML解析、噪声标签过滤、文本内容提取、词形还原等预处理方面作了技术改进;之后,以Indri检索系统为研究平台,利用结构化查询语言和web搜索引擎进行查询扩展和结构化查询主题构造,并采用基于文档标题字段的域查询,有效的提高了基本的ad-hoc主题检索的性能;在Weblog观点检索方面,使用基于最大熵的主观性内容判别模型,并提出了分类器自学习的策略,实现不同数据集之间的知识传递,在Weblog数据集上有效建模;同时,分别构建了句子级别和文档级别的最大熵模型,并将两者组合构成层叠式的Weblog文档观点性内容判别模型。在Blog Track数据集上的评测指标表明,本文构造的Weblog观点检索系统达到了较高的性能水平。
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前1条
1 夏火松;朱慧毅;魏凤蕊;;商品主观评论的情感细分类模型研究[J];情报杂志;2013年02期
中国博士学位论文全文数据库 前2条
1 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
2 杜伟夫;文本倾向性分析中的情感词典构建技术研究[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前6条
1 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
2 王振浩;基于情感字典与机器学习相结合的文本情感分类[D];哈尔滨工业大学;2010年
3 陶敏;基于支持向量机的中文客户评论情感文本分类研究[D];武汉纺织大学;2011年
4 付永陈;基于博客搜索的博文情感倾向性分析技术的研究[D];东北大学;2010年
5 李国林;基于语义分析的Web金融文本信息情感计算[D];江西财经大学;2012年
6 李智勇;基于粒子群优化算法的Web挖掘技术的研究[D];南昌大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 徐延勇,周献中,井祥鹤,郭忠伟;基于最大熵模型的汉语句子分析[J];电子学报;2003年11期
2 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
3 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
4 姜维;关毅;王晓龙;;基于条件随机域的词性标注模型[J];计算机工程与应用;2006年21期
5 李素建,刘群,杨志峰;基于最大熵模型的组块分析[J];计算机学报;2003年12期
6 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
7 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
8 王永成,苏海菊,莫燕;中文词的自动办理[J];中文信息学报;1990年04期
9 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
10 揭春雨,刘源,梁南元;汉语自动分词实用系统CASS的设计和实现[J];中文信息学报;1991年04期
【共引文献】
中国期刊全文数据库 前10条
1 高艳萍;于红;尹祥贵;綦孝姬;王春永;赵志强;;基于双数组Trie树的渔业领域分词研究[J];安徽农业科学;2008年11期
2 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
3 时雷;席磊;虎晓红;段其国;;基于支持向量机的农业数据分类研究[J];安徽农业科学;2009年05期
4 时雷;虎晓红;席磊;;基于Naive Bayes算法的大豆病害诊断研究[J];安徽农业科学;2009年11期
5 徐文莉;;基于最大熵方法的DaR风险度量模型[J];安徽师范大学学报(自然科学版);2007年01期
6 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
7 赵成龙,薛欣;基于WEB的智能答疑系统的设计与实现[J];安阳师范学院学报;2004年02期
8 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
9 赵晓凡;胡顺义;;基于正向最大匹配的汉语分词[J];安阳师范学院学报;2010年05期
10 胡顺义;赵晓凡;;基于PB的汉语电子词典管理系统设计与实现[J];安阳师范学院学报;2010年05期
中国重要会议论文全文数据库 前10条
1 毛存礼;余正涛;线岩团;郭剑毅;雷雄丽;;基于短信的旅游景点酒店问答系统研究[A];中国自动化学会控制理论专业委员会A卷[C];2011年
2 李金;宋阳;梁洪;;语言残障患者医疗辅助系统设计[A];第九届全国信息获取与处理学术会议论文集Ⅱ[C];2011年
3 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 通拉嘎;赵小兵;;论蒙古语词素切分的实现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 马骥;朱慕华;肖桐;朱靖波;;面向移进-归约句法分析器的单模型系统融合算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 加米拉·吾守尔;瓦依提·阿布力孜;吐尔根·依布拉音;;《现代维吾尔语语法信息词典》数据库建设的研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 韦向峰;张全;缪建明;池毓焕;;基于语义块的事件倾向性分析研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 余骁捷;邵阳;吴及;王侠;;基于SVM和MMR融和的自动文摘方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
中国博士学位论文全文数据库 前10条
1 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年
2 何建民;面向网络社区聆听客户声音方法研究[D];合肥工业大学;2010年
3 周扬;面向中药药性多维表征体系的中药本体研究[D];山东中医药大学;2010年
4 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
5 李炳龙;文档碎片取证关键技术研究[D];解放军信息工程大学;2007年
6 甘良志;核学习算法与集成方法研究[D];浙江大学;2010年
7 刘运通;产品设计过程知识配送服务关键技术研究[D];浙江大学;2011年
8 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
9 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
10 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
3 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
4 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
5 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
6 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
7 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
8 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
9 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
10 张军珲;基于统计的常用汉语副词用法自动识别研究[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 熊德兰,柴玉梅,昝红英;基于内容的名人网页褒贬性评价[J];平顶山工学院学报;2005年04期
3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
4 方英武,张广鹏,吴德伟,黄玉美,赵修斌,王轶;分布式数据挖掘计算过程——DDCP算法研究[J];电子科技大学学报;2003年01期
5 胡文瑜;孙志挥;张柏礼;;分布式数据挖掘中的最优K相异性取样技术[J];东南大学学报(自然科学版);2008年03期
6 谢云;模拟退火算法的原理及实现[J];高等学校计算数学学报;1999年03期
7 李静梅,孙丽华,张巧荣,张春生;一种文本处理中的朴素贝叶斯分类器[J];哈尔滨工程大学学报;2003年01期
8 朱玲湘,邹亮;分布式数据挖掘体系结构及任务分配算法[J];华南理工大学学报(自然科学版);2004年S1期
9 窦全胜,周春光,马铭;粒子群优化的两种改进策略[J];计算机研究与发展;2005年05期
10 张婧;刘芳;;基于ID3算法的Web日志挖掘预处理中的Frame页面过滤技术的研究[J];计算机与信息技术;2007年06期
中国重要会议论文全文数据库 前7条
1 邹嘉彦;;评述新闻报道或文章色彩-正负两极性自动分类的研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 王根;赵军;;中文褒贬义词语倾向性的分析[A];第三届学生计算语言学研讨会论文集[C];2006年
3 陈建美;林鸿飞;杨志豪;;基于贝叶斯模型的词汇情感消歧[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 倪茂树;林鸿飞;;基于关联规则和极性分析的商品评论挖掘[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 蔡健平;林世平;;基于机器学习的词语和句子极性分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 苏祺;孙斌;;面向观点挖掘的产品评价特征词识别[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 徐琳宏;林鸿飞;;文本情感语料库的构建和分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前9条
1 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
2 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年
3 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
4 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
5 尹世群;Web文本分类关键技术研究[D];西南大学;2008年
6 史树敏;基于领域本体的汉语共指消解及相关技术研究[D];南京理工大学;2008年
7 李景;领域本体的构建方法与应用研究[D];中国农业科学院;2009年
8 袁彩霞;中文功能组块分析及应用研究[D];北京邮电大学;2009年
9 寇广增;基于意见挖掘通用框架的情感极性强度模糊性研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 范英翔;基于意见挖掘技术的网购评论倾向性分析的研究与应用[D];东华大学;2012年
2 郝雷红;现代汉语否定副词研究[D];首都师范大学;2003年
3 柯慧燕;Web文本分类研究及应用[D];武汉理工大学;2006年
4 陈建;领域本体的创建和应用研究[D];对外经济贸易大学;2006年
5 于瑞萍;中文文本分类相关算法的研究与实现[D];西北大学;2007年
6 郭嘉琦;领域本体的构建及其在信息检索中的应用研究[D];北京邮电大学;2007年
7 刘磊;中文Web文本自动分类的研究与实现[D];长春理工大学;2007年
8 彭其伟;基于统计方法的中文文本情感倾向分类研究[D];山西大学;2007年
9 刘清;基于SVM的网络文本分类问题研究与应用[D];南昌大学;2007年
10 张志刚;领域本体构建方法的研究与应用[D];大连海事大学;2008年
【二级引证文献】
中国期刊全文数据库 前1条
1 常晓龙;张晖;;融合语素特征的中文褒贬词典构建[J];计算机应用;2012年07期
中国博士学位论文全文数据库 前1条
1 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年
中国硕士学位论文全文数据库 前1条
1 董晶晶;文本倾向性分析技术的相关研究[D];安徽大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
2 孙宏林,俞士汶;浅层句法分析方法概述[J];当代语言学;2000年02期
3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
4 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
5 李素建,刘群,白硕;统计和规则相结合的汉语组块分析[J];计算机研究与发展;2002年04期
6 屈刚,陆汝占;基于特征的汉语词性标注模型[J];计算机研究与发展;2003年04期
7 赵岩;王晓龙;刘秉权;关毅;;融合聚类触发对特征的最大熵词性标注模型[J];计算机研究与发展;2006年02期
8 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
9 朱靖波,姚天顺;一种短语结构规则的自动获取方法[J];计算机研究与发展;1999年05期
10 徐延勇,郭忠伟,周献中;基于最大熵方法的统计语言模型[J];计算机工程与应用;2002年05期
中国重要会议论文全文数据库 前1条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库 前10条
1 田思虑;李德华;潘莹;;一种改进的基于二元统计的HMM分词算法[J];计算机与数字工程;2011年01期
2 马志强;;一种给批量汉字加注带有声调拼音的方法[J];微电子学与计算机;2008年04期
3 王俊生,韦钰;复参数最大熵图像重建的剑桥算法[J];通信学报;1994年06期
4 熊桂喜;李政;;基于规则和语料库的中文姓名识别研究[J];计算机与信息技术;2007年12期
5 李跃民;王浩;赵生慧;;有词典中文分词算法研究[J];滁州学院学报;2008年03期
6 许高建;胡学钢;路遥;王庆人;;一种改进的中文分词歧义消除算法研究[J];合肥工业大学学报(自然科学版);2008年10期
7 黄德根;焦世斗;周惠巍;;基于子词的双层CRFs中文分词[J];计算机研究与发展;2010年05期
8 孙殿哲;魏海平;陈岩;;Nutch中庖丁解牛中文分词的实现与评测[J];计算机与现代化;2010年06期
9 杨文涛;司应硕;张森;;GA-BP神经网络算法在中文分词分析中的应用研究[J];河南机电高等专科学校学报;2010年04期
10 孙乐;方自金;;基于互联网的信息采集系统的设计与实现[J];河北大学成人教育学院学报;2010年04期
中国重要会议论文全文数据库 前10条
1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
2 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 王玉明;;最大熵可靠性评估方法的改进[A];中国工程物理研究院科技年报(2003)[C];2003年
6 孙萌;姚建民;吕雅娟;刘群;姜文斌;;基于最大熵短语重排序模型的特征抽取算法改进[A];第五届全国青年计算语言学研讨会论文集[C];2010年
7 ;《北京邮电大学学报》征稿简则[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
8 赵军;敖其尔;吉仁尼格;巩政;葡萄;陈建东;;基于统计语言模型蒙古文词汇分析校正器的设计与实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 ;《北京邮电大学学报》征稿简则[A];中国通信学会通信软件技术委员会2009年学术会议论文集[C];2009年
10 卢家楣;;青少年学生的情感素质内涵、构架及对情感分类的拓展[A];第十二届全国心理学学术大会论文摘要集[C];2009年
中国重要报纸全文数据库 前10条
1 李刚;网御神州和北京邮电大学成立信息安全联合实验室[N];中国计算机报;2007年
2 徐砚;北邮网院创建节约型企业见成效[N];人民邮电;2005年
3 钟凌江;探索创新模式 促进校企合作[N];人民邮电;2005年
4 ;丽景科技与北邮合作开发手机广告平台[N];人民邮电;2008年
5 本报记者 李昕;什么才是真正的推动力[N];通信产业报;2002年
6 记者 纪秀君;教育部与信息产业部共建北邮[N];中国教育报;2005年
7 姚春鸽;北邮隆重举行建校50周年庆祝大会[N];人民邮电;2005年
8 ;天罗地网[N];网络世界;2001年
9 本报记者 孔德芳 实习生 向辉;杨义先:“信息边疆”的守护者[N];科技日报;2006年
10 本报实习记者 齐兴一;再为3G做一次“全面体检”[N];通信产业报;2006年
中国博士学位论文全文数据库 前10条
1 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
2 何慧;WEB文本挖掘中关键问题的研究[D];北京邮电大学;2009年
3 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
4 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
5 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
6 滕海文;基于最大熵的结构两相优化设计[D];北京工业大学;2002年
7 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
8 吴斌;语音识别中的后处理技术研究[D];北京邮电大学;2008年
9 文娟;统计语言模型的研究与应用[D];北京邮电大学;2010年
10 汤步洲;序列标注问题的监督学习方法及应用[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 苏亮;基于多级Hash分词的全文搜索引擎的研究[D];北京邮电大学;2008年
2 张慧;旅游信息垂直搜索系统的设计与实现[D];北京邮电大学;2009年
3 秦健;N-gram技术在中文词法分析中的应用研究[D];中国海洋大学;2009年
4 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
5 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
6 戚晶;基于RSS的搜索引擎的研究与实现[D];吉林大学;2006年
7 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
8 马莉;基于SVM的垃圾邮件过滤的研究[D];山东大学;2005年
9 王新梅;基于内容挖掘的垃圾邮件过滤技术[D];武汉理工大学;2006年
10 王圆;文本内容过滤的关键技术研究[D];东北师范大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026