收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

特征耦合泛化及其在文体挖掘中的应用

李彦鹏  
【摘要】:文本挖掘(Text Mining)技术是利用计算机程序自动读取和理解自然语言文本,并从中发现有价值的信息,从而提高人们的工作效率。随着信息技术的飞速发展和互联网时代的来临,该技术拥有了很大的实际应用价值和广阔的应用前景。在处理文本挖掘问题的方法中,基于机器学习(Machine Learning)的方法得到了广泛的应用,在很多实验中取得了较好的效果。特征表示(Feature Representation)是机器学习方法中至关重要的一步,很大程度决定了系统效果的高低,然而在传统的基于局部特征的监督学习(Supervised Learning)策略中,由于已标注训练集中的样本数量有限,存在着数据稀疏问题,即产生了很多低频特征,由于缺少信息量这些特征在机器学习过程中往往得不到好的利用,这种影响在文本挖掘和自然语言处理任务中更为严重。针对此问题,本文研究如何利用未标注数据将这些被忽略的特征转化成更富有信息量的新特征,从而可以激发出这些特征潜在的作用,达到提高系统的性能的目的。本文提出了一种新的特征构建方法—特征耦合泛化(Feature Coupling Generalization, FCG),该方法利用原始特征在海量未标注数据中的共现信息以及特征间的概念层次关系生成新的特征。相比于原始特征,新特征具有更丰富的信息量和更泛化的表示。本文讨论了该方法中各种因素对系统性能的影响,并通过实验验证该方法在文本挖掘任务中的效果。 本文将FCG方法应用于三个经典的文本挖掘任务:命名实体识别(Named Entity Recognition)、关系抽取(Relation Extraction)、文本分类(Text Classification),对每个任务进行了详细的研究,从不同角度比较了经典特征与FCG方法的效果、检验了FCG方法所带来的贡献,并通过观测低频特征在不同方法中的效果分析了FCG方法有效的原因以及对数据稀疏问题的解决情况。实验结果显示,FCG可以将传统方法中被忽略的低频特征转化为有效的特征,在传统方法的基础上有显著的提高,而且FCG方法可以很容易的应用于海量的未标注数据,这是相比于其他半监督学习方法(Semi-supervised Learning)的优势。更有趣的现象是,仅仅使用FCG方法所生成的新特征的效果普遍好于经典的特征,这说明该方法有可能在普遍的机器学习问题中取代经典特征表示方法,为特征生成的研究开辟了新的思路。此外,在公开评测数据上与其他研究者的对比结果显示,基于FCG方法的系统取得了很好的效果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张晓艳;王挺;陈火旺;;基于混合统计模型的汉语命名实体识别方法[J];计算机工程与科学;2006年06期
2 葛金虎;;基于条件随机场的中文命名实体识别的研究[J];科技信息;2010年16期
3 李中言,李普跃;信息抽取方法综述[J];廊坊师范学院学报;2005年03期
4 刘海鹏;王小捷;;基于条件随机场和知识库的手机短信命名实体识别[J];广西师范大学学报(自然科学版);2009年01期
5 李桂兰;余正涛;毛存礼;郭剑毅;侯波;线岩团;;旅游领域实体答案的抽取[J];广西师范大学学报(自然科学版);2009年01期
6 佘俊;张学清;;音乐命名实体识别方法[J];计算机应用;2010年11期
7 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期
8 邱莎;;几种基于机器学习的生物命名实体识别模型比较[J];电脑知识与技术(学术交流);2007年05期
9 林旭东;彭宏;林丕源;邓健爽;;基于依存关系的问句理解与问句分类[J];计算机科学;2007年07期
10 许晓丽;卢志茂;张格森;;基于条件随机场的中文命名实体识别研究[J];中国新技术新产品;2009年02期
11 林旭东;孙爱东;林丕源;刘汉兴;;基于依存关系与支持向量机的中文问题分类方法[J];郑州大学学报(理学版);2009年01期
12 马续补;郭菊娥;;基于GATE的任务信息抽取研究[J];情报杂志;2010年01期
13 韩普;姜杰;;HMM在自然语言处理领域中的应用研究[J];计算机技术与发展;2010年02期
14 张朝胜;郭剑毅;线岩团;余正涛;雷春雅;王海雄;;基于条件随机场的英文产品命名实体识别[J];计算机工程与科学;2010年06期
15 邹涛;;一种电子产品领域命名实体识别方法研究[J];情报学报;2010年06期
16 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[J];通信学报;2006年02期
17 郑强;刘齐军;王正华;朱云平;;生物医学命名实体识别的研究与进展[J];计算机应用研究;2010年03期
18 蔡华利;刘鲁;李红;;基于规则推理的突发事件发生地点识别研究[J];情报学报;2011年02期
19 周俊生;戴新宇;尹存燕;陈家骏;;自然语言信息抽取中的机器学习方法研究[J];计算机科学;2005年03期
20 王浩畅;赵铁军;于浩;;生物文本中蛋白质名称的识别[J];计算机应用研究;2007年01期
中国重要会议论文全文数据库 前10条
1 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
2 李渝勤;孙丽华;;面向互联网舆情的热词分析技术[A];第六届全国信息检索学术会议论文集[C];2010年
3 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
4 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
5 翟海军;郭嘉丰;王小磊;许洪波;;基于用户查询日志的命名实体挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
8 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 张祝玉;任飞亮;朱靖波;;基于条件随机场的中文命名实体识别特征比较研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 李彦鹏;杨志豪;林鸿飞;;基于条件随机域的生物医学命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
2 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年
3 豆增发;生物命名实体识别及生物文本分类[D];西安电子科技大学;2013年
4 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
5 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
6 杨黎;面向生物医学文本的疾病关系挖掘模型及算法研究[D];华中科技大学;2013年
7 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
8 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
9 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
10 陈慧;基于DCC动态流通语料库的中文组织名考察与研究[D];北京语言大学;2008年
中国硕士学位论文全文数据库 前10条
1 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
2 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
3 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
4 江超男;面向社会网络应用的关系抽取研究[D];南京理工大学;2010年
5 陈扬;基于命名实体识别的学科智能答疑模型研究[D];东北师范大学;2010年
6 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
7 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
8 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
9 陈禹;基于语篇的中文命名实体识别研究[D];厦门大学;2008年
10 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978