收藏本站
《大连理工大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

中文文本体裁的自动分类机制

方鸷飞  
【摘要】:二十世纪末以来,计算语言学很多的文本分类研究者认识到按照形式分类的重要性,并出现了一个重要的理论转向,即由重视内容的分类转而重视内容与形式并重的研究。体裁属于形式的范畴,与写作风格、句法分析联系紧密,对文章的写作有着明显的制约和规范作用。把体裁分类信息附加于信息搜索引擎的方案,可以显著改善其效能。此外,体裁信息用于协助数字图书馆系统的可视化表示。因此,研究体裁自动分类,有着极高的理论价值和深远的现实意义。 然而,如何识别、描述、利用文本体裁是一项复杂而具有挑战性的工作。首先,体裁概念体系很大程度上是人类思维的抽象归纳,研究者认知受限和体裁自身动态演变等因素使得其概括和表述工作相当困难。其次,这个课题交叉于传统的汉语修辞学与计算语言学之间,需要有较深的语言学功底和计算语言学理论基础。因此,在其研究道路上还存在一些必须要克服的障碍。整体来看,体裁分类研究尚处于全面探索阶段的初期,其技术还不够成熟。而且,国内汉语体裁自动分类的研究工作也刚刚起步。 本文参照英语体裁分类机制,提出了一种基于浅层特征的中文体裁自动分类机制。其中,利用样本分类决策选出十三个中文特征项,借鉴模糊隶属度理论接合定性与定量指标,采用支撑向量机技术计算特征值。该分类机制已经在科学体、政论体、诗歌体、公文体、新闻体共五类体裁的典型文本的语料上得到实现,并获得了较好的效果。系统的局限性是特征提取程序缺乏通用性,必须随着体裁分类体系的每一项变化而做大幅度的调整。本课题尽管取得了一些进展,但必竟只是体裁自动分类研究的一个初步尝试,更多后续理论及应用研究尚待完成。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP391.1

手机知网App
【引证文献】
中国期刊全文数据库 前2条
1 黄臻臻;吴扬扬;;基于体裁的中文网页分类的特征选取[J];计算机工程与设计;2007年11期
2 马连刚;夏克俭;;中医方剂与图集的转换的设计与实现[J];网络安全技术与应用;2010年02期
【共引文献】
中国期刊全文数据库 前10条
1 王一杰;;《红楼梦》中女性疾病的概念隐喻分析[J];安徽文学(下半月);2010年06期
2 栾颖;;从认知角度看英汉隐喻概念的异同[J];边疆经济与文化;2010年09期
3 彭宣维;认知发展、隐喻映射与词义范畴的延伸——现代汉语词汇系统形成的认知机制[J];北京师范大学学报(社会科学版);2004年03期
4 陈强;汉英动、植物词和颜色词联想意义的差异及其原因[J];成都师专学报;2003年03期
5 周芳;;论词语的异常搭配[J];成功(教育);2009年02期
6 田小中;启文述源[J];渝西学院学报(社会科学版);2004年03期
7 刘海泉,杨有军;入党申请书写作误区及对策[J];滁州师专学报;2003年01期
8 肖翠云;;文学文本的修辞论阐释:中国语言学批评的第二个视角[J];闽江学院学报;2007年04期
9 姚怀新;老调重弹“挡”与“档”[J];工程机械;2000年05期
10 蔡丽娜;;语境与词语的异常搭配[J];中国科教创新导刊;2008年09期
中国重要会议论文全文数据库 前3条
1 王惠;苏新春;;XHK基于语法知识的汉语词义描述[A];第六届汉语词汇语义学研讨会论文集[C];2005年
2 时达明;林鸿飞;;基于内容相关度和语义分析的Blog热点话题发现[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 时达明;林鸿飞;;基于内容相关度和情感分析的Blogger声誉度研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前9条
1 陈佳;论英汉运动事件表达中“路径”单位的“空间界态”概念语义及其句法—语义接口功能[D];上海外国语大学;2010年
2 王全林;“知识分子”视角下的大学教师研究[D];南京师范大学;2005年
3 常颖;汉、俄语言语行为动词语义对比研究[D];黑龙江大学;2008年
4 韩建立;《艺文类聚》编纂研究[D];吉林大学;2008年
5 阮氏黎心;汉越人体名词隐喻对比研究[D];华东师范大学;2011年
6 谢元春;女性修辞研究[D];复旦大学;2011年
7 杨劲松;零度课程设计[D];上海外国语大学;2011年
8 李先锋;全球语境下的实用文章研究与教学应用[D];西南大学;2011年
9 李丽虹;汉英温觉词语义对比研究[D];中央民族大学;2012年
中国硕士学位论文全文数据库 前10条
1 王宇轩;基于汉民族思维模式的情感计算[D];大连理工大学;2010年
2 唐薇薇;汉语连词的非连词用法研究[D];广西民族大学;2010年
3 王旸;论言语交际中话语基调的含义[D];黑龙江大学;2002年
4 王新波;社会判断中样例激活效应的实验研究[D];西北师范大学;2003年
5 靳雅姝;“东西南北”与方位文化[D];延边大学;2003年
6 王晓明;信息的注意水平对启发法社会决策的影响[D];西北师范大学;2004年
7 谢洪欣;汉语数变格的再认识[D];曲阜师范大学;2005年
8 王丽群;语境移位及其语用功能[D];湖南师范大学;2005年
9 贺琛;报纸新闻文体演变探因[D];湖南师范大学;2005年
10 张军;安徽省青年志愿者行动组织架构及其运行模式研究[D];安徽大学;2005年
【同被引文献】
中国期刊全文数据库 前2条
1 孟朝晖;;半边图模型之构造演算[J];计算机工程与应用;2006年29期
2 方卫东,袁华,刘卫红;基于Web挖掘的领域本体自动学习[J];清华大学学报(自然科学版);2005年S1期
【二级引证文献】
中国期刊全文数据库 前1条
1 刘晓勇;;基于GA与SVM融合的网页分类算法[J];辽宁工程技术大学学报(自然科学版);2010年05期
中国重要会议论文全文数据库 前1条
1 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国硕士学位论文全文数据库 前1条
1 杨芹;基于最大熵模型的中文网页分类器设计和实现[D];苏州大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 骆剑承,周成虎,梁怡,马江洪;支撑向量机及其遥感影像空间特征提取和分类的应用研究[J];遥感学报;2002年01期
2 李元诚,方廷健;基于粗糙集理论的支撑向量机预测方法研究[J];数据采集与处理;2003年02期
3 曹树金,杨涛;自动分类在搜索引擎性能优化中的应用[J];情报科学;2004年02期
4 张新峰,沈兰荪,卫保国,蔡轶珩;多类支撑向量机在中医舌质、舌苔分类和识别的应用研究[J];电路与系统学报;2004年05期
5 孙剑,郑南宁,张志华;一种训练支撑向量机的改进贯序最小优化算法[J];软件学报;2002年10期
6 李青,焦李成,周伟达;基于向量投影的支撑向量预选取[J];计算机学报;2005年02期
7 何昕,刘重庆,李介谷;基于支撑向量机的文本无关的说话人识别系统[J];计算机工程;2000年06期
8 汪闽,骆剑承,周成虎,明冬萍,陈秋晓,沈占峰;结合高斯马尔可夫随机场纹理模型与支撑向量机在高分辨率遥感图像上提取道路网[J];遥感学报;2005年03期
9 万嘉若,章明;教学模式的特征抽取与自动分类[J];信息与控制;1985年01期
10 林平青,王莉;计算机自动分类标引研究(续完)[J];中国中医药信息杂志;1995年10期
中国重要会议论文全文数据库 前10条
1 董静;林鸿飞;杨志豪;;中文网页形式自动分类[A];第三届学生计算语言学研讨会论文集[C];2006年
2 田云飞;李训诰;;基于模糊聚类阈值λ的噪声目标自动分类研究[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
3 何元烈;陈萍;毛宗源;田联房;;基于灰度阈值分割法和灰度均匀法的全身骨图像分析及计算机自动分类[A];第二届全国核素显像及治疗学术会议论文摘要汇编[C];2004年
4 翟伟斌;许榕生;;基于Internet的CIS研究[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年
5 孙雄勇;罗霄;;中图分类法体系下的自动分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 何琳;侯汉清;;基于标引经验和机器学习相结合的多层自动分类[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
7 李旭超;;视频序列中的人脸检测与跟踪[A];2007中国控制与决策学术年会论文集[C];2007年
8 于凤鸣;包玉海;卓义;;BP神经网络在土地覆被分类中的应用研究[A];中国气象学会2007年年会生态气象业务建设与农业气象灾害预警分会场论文集[C];2007年
9 董广军;周海芳;朱朝杰;;基于粗糙聚类模型的支撑向量机分类技术[A];第七届全国信息获取与处理学术会议论文集[C];2009年
10 王若鹏;徐红敏;石红;;GSVM优化问题的调节熵函数法[A];第十届中国青年信息与管理学者大会论文集[C];2008年
中国重要报纸全文数据库 前10条
1 胥小红 本报记者  雅梓;下一代搜索轮廓初现Autonomy力挺中文搜索[N];大众科技报;2006年
2 王萍;Web文本的知识化管理[N];计算机世界;2006年
3 赵明;第二代搜索软肋犹在 第三代搜索浮出水面[N];中国经济时报;2006年
4 张利;下一代搜索轮廓初现Autonomy力挺中文搜[N];中国企业报;2006年
5 易水;IT新词集锦(420)[N];计算机世界;2004年
6 白晓燕;第二代电子商务交易平台“商务搜”正式发布[N];中国高新技术产业导报;2006年
7 叶佳;索尼发布蓝光DVD新机[N];经济参考报;2008年
8 王仲 马桦 胡彪;搜索引擎的应用[N];计算机世界;2006年
9 王文;新系统能“随心所动”[N];科技日报;2007年
10 郑晓春;以色列开发出生活垃圾处理设施[N];科技日报;2008年
中国博士学位论文全文数据库 前10条
1 徐军;面向金融信息检索的体裁分类与情感分析技术研究[D];哈尔滨工业大学;2011年
2 关欣;音乐信号自动分类相关算法研究[D];天津大学;2009年
3 刘志刚;支撑向量机在光谱遥感影像分类中的若干问题研究[D];武汉大学;2004年
4 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
5 王坚;语音识别中的说话人自适应研究[D];北京邮电大学;2007年
6 路威;面向目标探测的高光谱影像特征提取与分类技术研究[D];中国人民解放军信息工程大学;2005年
7 乔建苹;超分辨率重建与图像增强技术研究[D];山东大学;2008年
8 王晓宇;红外图像分析关键技术研究[D];华中科技大学;2008年
9 王兵;蛋白质相互作用及其位点的预测方法研究[D];中国科学技术大学;2006年
10 胡永刚;数据深度在再生核Hilbert空间及张量空间的扩展[D];国防科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 方鸷飞;中文文本体裁的自动分类机制[D];大连理工大学;2005年
2 孙忠泽;行政立法草案公众意见自动化分类研究[D];复旦大学;2011年
3 吴勋;基于支撑向量机与模板匹配的眼底图像分割[D];华中科技大学;2011年
4 孙长秋;基于体裁的金融网页自动分类方法[D];哈尔滨工业大学;2009年
5 宋建锋;基于支撑向量机的手写英文字符识别[D];西安电子科技大学;2004年
6 吴娟;军用信息自动分类的研究与实现[D];南京理工大学;2004年
7 陈波;中文WEB文档自动分类的研究与实现[D];武汉理工大学;2005年
8 张玉颖;基于梯形模型及支撑向量机的非结构化道路检测[D];复旦大学;2010年
9 柯丽;基于频繁共现熵的跨语言网页自动分类研究[D];江西师范大学;2011年
10 吴海丽;基于支撑向量机的纹理分类[D];华中科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026