收藏本站
《哈尔滨工业大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

面向金融信息检索的体裁分类与情感分析技术研究

徐军  
【摘要】:互联网的高速发展使得网络信息变得越来越丰富,但对用户来说,海量信息反而使得高效的信息获取变得困难。目前,基于主题的网页分类和聚类技术常被用来管理和组织海量网页数据,从而帮助用户定位相关和有用信息。本文的研究则是面向金融领域垂直检索应用,在传统的主题分析基础上,从文本体裁和情感两个新的非主题维度入手,对金融文本进行体裁、情感和相关性分析,通过结合网页文本分析和学习排序等信息检索技术,改进搜索性能。协助用户更准确定位所需信息,从而提高搜索效率和信息的相关性。 在信息检索系统中,体裁可以作为一个显著特征,帮助用户快速定位所需信息。本文在金融网页的检索结果上,研究了体裁分类特征选择、提取以及自动体裁分类方法。基于似然比检验,本文提出了两种新的特征选择算法,用于优选具有较好体裁区分能力的特征,同时,设计了三种用于金融网页文本体裁自动分类的结构化特征:上下文特征、频繁特征和模式特征。本文采用机器学习方法结合上述特征集合实现了金融文本体裁自动分类。实验结果证明了本文提出的特征选择算法和结构化特征选取是有效的。 金融文本中包含的情感倾向有助于金融信息检索结果的相关性排序,帮助确定信息的重要程度。因此,本文研究了金融新闻文本的情感分析方法,分别设计和实现了基于贝叶斯语言模型和相似度语言模型的中文金融新闻文本自动情感分类方法。实验结果显示,与传统机器学习方法相比,语言建模方法更为简单、直接和有效。本文提出了利用股评文本进行自动构建可靠的训练语料集,此外,在本文的研究中,还利用股票价格作为指示器,半自动构建金融新闻情感分类的测试语料集。这些资源可为本领域情感分析研究的深入提供支持。 缺少可靠的标注资源是情感分析研究瓶颈之一。如何将其它语言(源语言)情感资源用于目标语言的情感分析研究,即跨语言情感分析是本文另一个研究内容。本文创新性地提出将实例级别迁移学习方法用于跨语言的情感分析,评估和选择高质量翻译样本用于目标语言情感分类器的辅助训练,解决跨语言情感分析中遇到的不同语言训练和测试数据特征/类别概率分布不一致、翻译错误传递等难题。本文提出了三种用于跨语言情感分析的迁移学习算法。第一种算法基于TrAdaBoost(Transfer AdaBoost),通过对源和目标样本采用不同权重迭代更新策略,进而减少低质量翻译样本对分类性能的负面影响。考虑到TrAdaBoost存在过度丢弃源语言训练样本的风险,我们提出了第二种迁移学习算法TrBB(TransferBoostingwithBagging),利用Bagging对TrAdaBoost进行平滑。与Boosting迁移策略减少低质量翻译样本被选中参与训练概率不同,第三种方法是迁移自学习(TransferSelf-training),算法通过结合预测标签和原标签进行自学习,直接从翻译语料中选择更多的高质量样本用于目标语言情感分类器的训练。本文分别在文档和语句级的跨语言情感分析任务上对本文提出的方法进行实验验证,实验结果显示迁移学习方法可以有效地利用其它语言标注语料,改善目标语言情感分类器的性能。 专业金融信息检索系统需要对行业和股票等金融产品提供对象级别的信息服务,而传统的信息检索模型不能直接用于计算对象和网页的相关性。本文结合用户的搜索意图,从对象主题、金融领域、情感趋势和行业四个方面度量金融产品与网页的相关性,分别设计了对应的四类特征,并结合网页文档和查询对象给出了特征的量化表示,最后通过训练判别式模型SVM来计算查询对象和网页的相关性。实验结果显示,相对于语言模型方法,学习排序方法能够通过训练,有效结合领域内多方面特征,大幅度提高搜索结果质量。针对行业训练语料缺少不相关训练语料集问题,本文提出了一个用于行业信息检索和推荐的单类检索模型,研究比较了三种不同的单类分类方法在行业信息检索和推荐任务上的性能。实验表明,单类信息行业检索模型结合单类SVM方法,能够为用户提供高召回率和高精度行业信息检索服务。 本文的研究显示,在传统主题分析之外,对网页文本进行有效的体裁分类和情感分析,能够帮助用户迅速定位所需信息,提高搜索引擎的搜索效率。本文的研究内容在金融信息检索领域尚属首次,研究的成果已被实际应用到海天园知识服务平台。
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前6条
1 吴永辉;王晓龙;丁宇新;徐军;郭鸿志;;基于主题的自适应、在线网络热点发现方法及新闻推荐系统[J];电子学报;2010年11期
2 胡熠;陆汝占;李学宁;段建勇;陈玉泉;;基于语言建模的文本情感分类研究[J];计算机研究与发展;2007年09期
3 姜维;王晓龙;关毅;赵健;;基于多知识源的中文词法分析系统[J];计算机学报;2007年01期
4 朱嫣岚;闵锦;周雅倩;黄萱菁;吴立德;;基于HowNet的词汇语义倾向计算[J];中文信息学报;2006年01期
5 王根;赵军;;基于多重冗余标记CRFs的句子情感分析研究[J];中文信息学报;2007年05期
6 唐慧丰;谭松波;程学旗;;基于监督学习的中文情感分类技术比较研究[J];中文信息学报;2007年06期
中国重要会议论文全文数据库 前1条
1 夏云庆;郝博一;徐睿峰;;意见目标网络与意见目标抽取研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前1条
1 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
2 李荣军;王小捷;周延泉;;PageRank模型在中文情感词极性判别中的应用[J];北京邮电大学学报;2010年05期
3 张郴;张捷;;中国入境旅游需求预测的神经网络集成模型研究[J];地理科学;2011年10期
4 庞娜;;增量学习算法对文本情感识别模型的改进[J];电脑开发与应用;2011年07期
5 梁坤;古丽拉·阿东别克;;基于SVM的中文新闻评论的情感自动分类研究[J];电脑知识与技术;2009年13期
6 张彬;杨志晓;;基于基准词的文本情感倾向性研究[J];电脑知识与技术;2011年08期
7 冯元勇;孙乐;张大鲲;李文波;;基于小规模尾字特征的中文命名实体识别研究[J];电子学报;2008年09期
8 王立才;孟祥武;张玉洁;;移动网络服务中基于认知心理学的用户偏好提取方法[J];电子学报;2011年11期
9 任江洪;陈韬;曹长修;;混合高斯过程回归模型在铁水硅含量预报中的应用[J];重庆大学学报;2012年02期
10 李艺红;蒋秀凤;;中文句子倾向性分析[J];福州大学学报(自然科学版);2010年04期
中国重要会议论文全文数据库 前10条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 彭楠赟;王厚峰;凌晨添;;基于层次聚类的网络新闻热点发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 边海容;万常选;李国林;杨莉;;Web金融信息情感倾向与上市公司财务危机的关系研究[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
4 朱宏博;张芊;赵海;宋纯贺;;基于贝叶斯网络英文电影对白的潜在语义分析[A];第八届沈阳科学学术年会论文集[C];2011年
5 ;Comparing Chinese reviews based on Fuzzy PROMETHEE: A new approach to sentiment analysis[A];第六届(2011)中国管理学年会——商务智能分会场论文集[C];2011年
6 王根;赵军;;中文褒贬义词语倾向性的分析[A];第三届学生计算语言学研讨会论文集[C];2006年
7 徐琳宏;林鸿飞;杨志豪;;基于语义理解的文本倾向性识别机制[A];第三届学生计算语言学研讨会论文集[C];2006年
8 姚天昉;聂青阳;李建超;李林琳;娄德成;陈珂;付宇;;一个用于汉语汽车评论的意见挖掘系统[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 李斌;卢俊之;章成志;陈小荷;;基于聚类引擎的话题褒贬度计算[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 倪茂树;林鸿飞;;基于关联规则和极性分析的商品评论挖掘[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 何建民;面向网络社区聆听客户声音方法研究[D];合肥工业大学;2010年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
4 齐峰;人工神经树网络模型的优化研究与应用[D];山东师范大学;2011年
5 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
6 杨峰;本体映射关键技术研究[D];吉林大学;2011年
7 王中锋;树型贝叶斯网络分类器鉴别式训练研究[D];北京交通大学;2011年
8 胡毅;关节式坐标测量机热变形误差建模及修正研究[D];合肥工业大学;2011年
9 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
10 孔志周;多分类器系统中信息融合方法研究[D];中南大学;2011年
中国硕士学位论文全文数据库 前10条
1 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
2 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
3 邢鑫岩;基于序列模型的情感分析研究[D];大连理工大学;2010年
4 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
5 邓忠莹;中文文本倾向性分类系统研究[D];昆明理工大学;2009年
6 周杰;网络舆情话题情感倾向性分析技术研究[D];解放军信息工程大学;2010年
7 李海林;网络舆情热点信息发现及其倾向性研究[D];武汉理工大学;2010年
8 汪前秀;基于改进的VSM的不良文本过滤模型研究[D];东北财经大学;2010年
9 罗亚平;面向网络舆情的中文评论文本情感倾向分析研究[D];东北财经大学;2010年
10 戴霖;网络舆情信息挖掘关键技术研究与应用[D];浙江工商大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 董振东,董强;知网和汉语研究[J];当代语言学;2001年01期
2 高凯;;搜索引擎中信息动态采集策略的研究[J];电子学报;2007年10期
3 刘铭;王晓龙;刘远超;;基于主题分析的文本分割技术研究[J];电子学报;2009年02期
4 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
5 刘挺,王开铸;基于篇章多级依存结构的自动文摘研究[J];计算机研究与发展;1999年04期
6 李蕾;王劲林;白鹤;胡晶晶;;基于FFT的网页正文提取算法研究与实现[J];计算机工程与应用;2007年30期
7 石晶;胡明;石鑫;戴国忠;;基于LDA模型的文本分割[J];计算机学报;2008年10期
8 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期
9 赵健,王晓龙,关毅;中文名实体识别中的特征组合与特征融合的比较[J];计算机应用;2005年11期
10 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
中国博士学位论文全文数据库 前1条
1 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
中国硕士学位论文全文数据库 前1条
1 王璟琦;基于内容单元的网页解析与内容提取[D];哈尔滨工业大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 徐燕;李锦涛;王斌;孙春明;;基于区分类别能力的高性能特征选择方法[J];软件学报;2008年01期
2 杨帆;孙强;;从Web网页上获取一价事件常识的方法[J];科学技术与工程;2010年25期
3 徐燕;李锦涛;王斌;孙春明;张森;;文本分类中特征选择的约束研究[J];计算机研究与发展;2008年04期
4 肖燕;20世纪我国信息检索研究的历史回顾[J];图书馆学研究;1999年06期
5 叶鹰,马景娣,黄晨,朱聪,胡晓珍,刘琼;信息检索网上自助教学探索[J];大学图书馆学报;2000年02期
6 李慧敏,方敏,张雪梅;高校信息检索教育课教学改革构想[J];山东图书馆季刊;2001年02期
7 吴良凯;大学生信息检索教育的现状与对策[J];图书馆论坛;2003年05期
8 罗映红;基于网络的信息检索与信息检索能力的培养[J];高校图书馆工作;2004年02期
9 李其港;对高职信息检索课程教学改革的构思[J];职教论坛;2004年23期
10 李宙星;;浅析互联网信息超载[J];中国西部科技;2004年16期
中国重要会议论文全文数据库 前10条
1 李恒训;张华平;秦鹏;于满泉;刘金刚;;基于主题词的网络热点话题发现[A];第五届全国信息检索学术会议论文集[C];2009年
2 徐燕;王斌;李锦涛;孙春明;;知识增益:文本分类中一种新的特征选择方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 孙金立;李路路;王栋;;生物信息检索教学网的建设[A];向数字化转型的图书馆工作[C];2004年
4 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
5 孙金立;李路路;董明强;;建立生物信息检索教学网的研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
6 ;编者的话[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
7 米晓红;;一种基于LSI的用户兴趣模型构建方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
8 王敬成;;HNC农村智能信息检索系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
9 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 于志刚;杨金生;;农业机械网络书签[A];第十三次全国农机维修学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 希安;微软试水信息检索[N];经济日报;2004年
2 叶静;开辟信息检索的新天地[N];人民邮电;2001年
3 记者 侯梅竹;汉语语料检索系统问世[N];计算机世界;2004年
4 温端政;山西社科院试建“汉语俗语语料数据库”[N];中国社会科学院院报;2003年
5 本报记者 潘永花;组件化平台提升信息检索效率[N];网络世界;2003年
6 刘静一;个人档案信息检索[N];建筑报;2000年
7 刘光强;搜索个人、企业、垂直三大搜索新进展[N];中国计算机报;2007年
8 柏荣;国家973项目在因特网大规模信息检索领域取得突破[N];中国高新技术产业导报;2003年
9 刘立新;信息社会技术前瞻[N];学习时报;2006年
10 佟文柱;语料更实 题材更广 语速更快[N];中国教师报;2002年
中国博士学位论文全文数据库 前10条
1 徐军;面向金融信息检索的体裁分类与情感分析技术研究[D];哈尔滨工业大学;2011年
2 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
3 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
4 王君泽;基于大规模问答语料的问题检索系统[D];华中科技大学;2010年
5 王一川;基于内容的海量文本探索式查询导引中若干关键技术的研究[D];北京邮电大学;2011年
6 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
7 吴定峰;基于本体的语义搜索模型研究[D];中国农业科学院;2012年
8 董道国;高维数据索引结构研究[D];复旦大学;2005年
9 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
10 林古立;互联网信息检索中的多样化排序研究及应用[D];华南理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 孙长秋;基于体裁的金融网页自动分类方法[D];哈尔滨工业大学;2009年
2 方鸷飞;中文文本体裁的自动分类机制[D];大连理工大学;2005年
3 乔智勇;Web数据挖掘系统的设计及关键技术研究[D];西安电子科技大学;2002年
4 杨才峰;基于自动分类的元搜索引擎的研究与应用[D];华北电力大学(河北);2005年
5 郭磊;P2P系统中的信息检索理论及应用研究[D];山东师范大学;2011年
6 姜鑫;跨汉蒙语言信息检索中的查询项翻译方法研究[D];内蒙古大学;2011年
7 宋海林;基于语言模型的信息检索中负反馈技术的研究与实现[D];内蒙古大学;2011年
8 Ssengonzi Charles;模糊聚类算法在个性化的WEB信息搜索助手的应用研究[D];大连理工大学;2003年
9 罗建利;基于用户兴趣的概念查询扩展研究[D];扬州大学;2005年
10 管玉娟;基于智能Agent的个性化信息检索技术研究[D];西安建筑科技大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026