收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文功能组块分析及应用研究

袁彩霞  
【摘要】: 近年来,中文自然语言处理技术在分词、词性标注等方面获得了很大进步。然而,自然语言处理应用系统(如信息抽取、问答系统等)则需要对文本信息进行深层解释。功能组块分析任务为句子成分自动标注主语、宾语、时间状语、地点状语等功能标记,作为语法分析及语义理解的一种实现方式,具有定义清晰、便于评价等优点,近年来受到越来越多学者的关注。 本文提出基于序列判别模型的中文功能组块自动分析技术,将传统的支持向量机分类模型扩展到序列学习任务中,灵活地使用了输入输出序列之间的多重相依特征。研究表明,本文提出的方法获得目前中文功能组块分析的最好性能,系统整体F1值达到93.76,并且可以较好地扩展到不同的特征集合,适合于众多自然语言处理问题。 论文的第一部分说明了功能组块分析的几个问题:课题的提出与研究及意义,相关研究现状,以及本论文的研究重点。然后简要介绍了本课题采用的语料库资源——宾夕法尼亚大学中文树库,讨论了中文功能组块的划分标准。接着,以自然语言理解的全信息方法论为基础,分析了功能组块标记在语法、语义、语用理解中的位置及作用。最后说明了几个常用的考察组块标记性能的指标。 论文的第二部分详细介绍了本研究的理论基础,具体说明了序列判别模型在中文功能组块识别中的应用。在对算法模型进行分析的基础上,构建了中文功能组块自动标注器,并通过大量实验,从多方面分析了系统的性能,检验了不同特征对于系统性能的影响及其语言学解释。接着,比较了两个不同的构建功能组块标注器的方法:采用简单词法信息(词、词性等)的标注器和采用完全句法树信息(短语类型、句法树路径等)的标注器,并通过实验说明了基于词法信息的功能组块标注器具有性能稳定、领域适应能力强等优点,适用于缺少句法资源或句法分析本身存在困难的语言,是进行汉语功能组块分析的有效方法。 论文的第三部分介绍了功能组块标记在自然语言处理系统中的应用。我们选取文本观点挖掘中的观点要素识别为应用领域,以句子成分的功能类别为依据,构建了观点主题自动识别系统,并通过实验验证了该方法的可行性。最后,给出了本研究的结论以及未来的研究方向。 以上工作不仅实现了汉语功能组块自动分析系统,并且从计算语言学的角度,对汉语功能组块进行了明确界定,对其它相关的应用研究具有参考价值。目前的实验结果也显示了功能组块分析技术具有非常好的应用前景。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 林长方;;支持向量机及其应用研究[J];和田师范专科学校学报;2010年05期
2 陈立孚,周宁,李丹;基于机器学习的自动文本分类模型研究[J];现代图书情报技术;2005年10期
3 张洪胜;耿焕同;喻为民;;有限样本下中文垃圾邮件过滤的研究与实现[J];计算机应用与软件;2008年01期
4 李卓;刘斌;刘铁男;任珍珍;;基于支持向量机的抽油机故障诊断研究[J];微计算机信息;2006年07期
5 刘解放;侯振雨;吴亮;;支持向量回归及其在农产品成分分析中的应用[J];广东农业科学;2007年12期
6 李应红,尉询楷;支持向量机和神经网络的融合发展[J];空军工程大学学报(自然科学版);2005年04期
7 王国胜;;核函数的性质及其构造方法[J];计算机科学;2006年06期
8 刘解放;侯振雨;吴亮;;支持向量机在模式识别和回归模型中的应用[J];河南科技学院学报(自然科学版);2007年04期
9 胡哲;郑诚;闵鹏鹏;;支持向量机及其应用研究[J];重庆科技学院学报(自然科学版);2008年02期
10 赵鹏;;基于支持向量机的文本分类方法研究[J];齐齐哈尔大学学报;2008年01期
11 金珠;马小平;;基于蚁群聚类算法的SVM半监督式训练方法[J];西华大学学报(自然科学版);2011年01期
12 刘颖,林元烈,覃征;含先验信息的学习机在生物序列分析中的应用[J];计算机应用;2005年09期
13 郭崇慧;孙建涛;陆玉昌;唐焕文;;线性支持向量机优化问题的极大熵方法[J];小型微型计算机系统;2006年07期
14 沈莉芳;方贵盛;;支持向量机及其在草图编辑手势识别中的应用[J];电脑知识与技术(学术交流);2006年23期
15 黄丽琼;何中市;;基于统计语义和结构特征的自动文摘[J];广西师范大学学报(自然科学版);2006年04期
16 张艳;兰光华;郁生阳;杨静宇;;一种快速SVM学习算法[J];计算机工程与应用;2006年32期
17 王杰;刚轶金;石成辉;;SVM-RBF网络在混沌时间序列预测中的应用[J];微计算机信息;2008年33期
18 鲁庆明;徐东平;;基于支持向量机和纹理特征的人脸识别[J];计算机与数字工程;2010年10期
19 李琳;张晓龙;;支持向量机学习方法的选择与应用[J];武汉科技大学学报(自然科学版);2006年01期
20 张振领;徐东平;贾仰理;;基于支持向量机的说话人识别研究[J];电脑知识与技术(学术交流);2007年07期
中国重要会议论文全文数据库 前10条
1 宋普云;沈雪勤;吴清;;一种改进的SMO算法[A];第六届全国计算机应用联合学术会议论文集[C];2002年
2 冯元勇;孙乐;张大鲲;李文波;;基于单字提示特征的中文命名实体识别快速算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 郭永辉;吴保民;马芳;王炳锡;;基于粗糙集的自然语言基本名词短语识别[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
4 符敏;程德福;张广峰;;基于支持向量回归的声音转换[A];第八届全国人机语音通讯学术会议论文集[C];2005年
5 刘伍颖;王挺;;一种多过滤器集成学习垃圾邮件过滤方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 章成志;;基于机器学习的文本聚类描述算法研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 晏庆华;;支持向量机算法综述[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
8 程国建;蔡磊;潘华贤;;核向量机在大规模机器学习中的应用[A];第十一届中国青年信息与管理学者大会论文集[C];2009年
9 谢湘;匡镜明;;支持向量机在语音识别中的应用研究[A];现代通信理论与信号处理进展——2003年通信理论与信号处理年会论文集[C];2003年
10 蒋铁军;张怀强;李积源;;多变量系统预测的支持向量机方法研究[A];管理科学与系统科学研究新进展——第7届全国青年管理科学与系统科学学术会议论文集[C];2003年
中国博士学位论文全文数据库 前10条
1 袁彩霞;中文功能组块分析及应用研究[D];北京邮电大学;2009年
2 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
3 王国胜;支持向量机的理论与算法研究[D];北京邮电大学;2008年
4 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
5 徐海祥;基于支持向量机方法的图像分割与目标分类[D];华中科技大学;2005年
6 李鑫;问题回答系统中的问题分类研究[D];复旦大学;2007年
7 武国正;支持向量机在湖泊富营养化评价及水质预测中的应用研究[D];内蒙古农业大学;2008年
8 张超;基于支持向量机的汽轮机轴系振动故障智能诊断研究[D];华北电力大学(河北);2009年
9 邢永忠;最小二乘支持向量机的若干问题与应用研究[D];南京理工大学;2009年
10 俞晓晶;基于蛋白质序列和生物医学文献的蛋白质功能挖掘[D];中国科学院研究生院(上海生命科学研究院);2006年
中国硕士学位论文全文数据库 前10条
1 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
2 王晶;支持向量机及其在癌症诊断中的应用研究[D];东北师范大学;2006年
3 马波;支持向量机多类分类算法的分析与设计[D];扬州大学;2008年
4 杨雪;支持向量机多类分类方法的研究[D];哈尔滨工程大学;2006年
5 刘华煜;基于支持向量机的机器学习研究[D];大庆石油学院;2005年
6 马金刚;基于向量空间的信息过滤关键技术研究[D];山东师范大学;2006年
7 张昕;基于SVM方法的医学图像分类研究[D];浙江大学;2006年
8 杨辉;汉语新词语发现及其词性标注方法研究[D];复旦大学;2008年
9 赵斌;多值SVM分类投票法的改进[D];武汉科技大学;2007年
10 赵莹;基于向量投影的支持向量机增量学习算法[D];哈尔滨工程大学;2007年
中国重要报纸全文数据库 前10条
1 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
2 黎骊/文 [美] Tom M.Mitchell 著;机器学习与智能化社会[N];中国邮政报;2003年
3 本报记者 余建斌;机器学习与互联网搜索[N];人民日报;2011年
4 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
5 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
6 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
7 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
8 黄刚、特约通讯员崔铁良;沈阳军区某师健全信息安全防范手段[N];解放军报;2003年
9 记者 何边;网络化激活人工智能[N];计算机世界;2001年
10 本报记者 张晔通讯员 李玮;周志华:永不墨守成规[N];科技日报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978