收藏本站
《南京大学》 2015年
收藏 | 手机打开
二维码
手机客户端打开本文

基于线性回归的中文文本可读性预测方法研究

孙刚  
【摘要】:随着Internet的发展,网络上的信息越来越多,人们往往通过向搜索引擎提交查询,然后搜索引擎能够返回与用户的查询最相关的结果。然而人们的阅读水平与理解能力不尽相同,如何为用户找到适合其阅读的网页文本成为一个重要的课题,而文本的可读性预测在这一过程中扮演着重要的角色。因此,如何准确地预测文本的可读性具有十分重要的意义。文本的可读性预测指的是度量文本的阅读难度,这在多个领域中都有应用,如语言教育,信息检索和文本简化。迄今为止使用最多的方法是可读性公式,这些公式一般是基于一些简单的特征通过线性回归模型建立的。近期的研究使用了机器学习技术,并且受益于自然语言处理技术等其他领域的发展,一些新的复杂的特征得以被利用。这些新的可读性预测方法表现出对经典可读性公式的优越性。然而可读性公式的这种表现很有可能是由于使用的特征有限,并且它们是基于特定的训练语料库建立的。本文总结并分析了现有的可读性研究成果,提出了基于线性回归与特征选择的中文文本可读性预测方法,然后通过一系列的实证研究来评估该方法的有效性。现将本文的主要贡献概括如下:1.综述了文本可读性预测问题的研究进展。首先对文本可读性预测问题进行了介绍,包括文本可读性的基本概念,以及可读性预测的问题定义。然后总结了现有的文本可读性预测方法,并将其分为四类进行了介绍,包括基于传统的文本特征的可读性公式方法、基于认知理论的方法、基于单词统计的语言模型方法和基于复杂特征与机器学习的方法。2.提出了基于线性回归与特征选择的中文文本可读性预测方法。首先对本文提出的基于线性回归与特征选择的中文文本可读性预测方法的动机进行了介绍,接着阐述了该方法的框架,并从中文特征计算、特征选择和线性回归模型三个方面对该框架进行了介绍,最后介绍了该方法的设计与实现。3.展开了对基于线性回归与特征选择的中文文本可读性预测方法的实证研究。为了评估本文中提出的基于线性回归与特征选择的中文文本可读性预测方法的有效性,我们首先提出两个主要的研究问题。接着对实验用的数据集进行介绍。然后介绍实验设计部分,包括实验设置和所使用的性能评价指标。最后通过分析实验结果,验证本文提出方法的有效性。
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1;O212.1

手机知网App
【参考文献】
中国期刊全文数据库 前2条
1 黄敏;;汉语特质与中文新闻易读性公式研究[J];新闻与传播研究;2010年04期
2 王蕾;;可读性公式的内涵及研究范式——兼议对外汉语可读性公式的研究任务[J];语言教学与研究;2008年06期
【共引文献】
中国期刊全文数据库 前8条
1 冯宇乐;;易读性测量在微博新闻报道中的运用——以新浪微博“头条新闻”的“毒胶囊”报道为例[J];东南传播;2012年11期
2 朱勇;宋海燕;;汉语读物编写的理念与实践[J];海外华文教育;2010年04期
3 刘潇;;文本易读度相关研究评述[J];湖北大学学报(哲学社会科学版);2015年03期
4 朱勇;;汉语分级读物的现状与研发对策[J];国际汉语教学研究;2015年02期
5 李薇;;新闻叙事者的前理解与受众认同[J];江西社会科学;2015年09期
6 朱勇;邹沛辰;;《中文天天读》易读性研究[J];云南师范大学学报(对外汉语教学与研究版);2012年03期
7 王战平;;翻译难易度评估[J];译林(学术版);2012年06期
8 曹勇;邹思梅;;健康信息易读性研究进展[J];中国健康教育;2013年07期
中国硕士学位论文全文数据库 前10条
1 张星星;公司年报语言设计行为及其实证研究[D];湖北工业大学;2011年
2 储慧峰;对外汉语分级读物考察[D];华东师范大学;2011年
3 郭望皓;对外汉语文本易读性公式研究[D];上海交通大学;2010年
4 常伟;甘肃旅游景点英文介绍文本的可读性研究[D];西北师范大学;2012年
5 彭巍;对外汉语教材的趣味性:一份评估表的构拟[D];暨南大学;2012年
6 郑静静;基于图式理论的对韩中级汉语阅读教学研究[D];兰州大学;2013年
7 黄林芳;对外汉语分级读物考察[D];湖南师范大学;2013年
8 耿嘉;《人民日报》头版头条报道“迷雾”研究[D];河北大学;2013年
9 姜莉;《成功之路》(进步篇·听和说Ⅰ)课文语料难度的定量分析[D];上海外国语大学;2014年
10 佟叶;新手熟手教师初级综合课上的话语难度对比研究[D];北京外国语大学;2014年
【二级参考文献】
中国期刊全文数据库 前6条
1 蔡芸;流水句现象分析[J];广东外语外贸大学学报;2002年02期
2 余美根;论可读性程式设计的不充分性[J];国外外语教学;2005年03期
3 李绍山;易读性研究概述[J];解放军外国语学院学报;2000年04期
4 张积家,王惠萍,张萌,张厚粲;笔画复杂性和重复性对笔画和汉字认知的影响[J];心理学报;2002年05期
5 夏洪平;新闻可读性新探[J];新闻大学;2000年01期
6 王佶旻;;HSK[基础]阅读理解难度的影响因素研究[J];云南师范大学学报;2006年03期
【相似文献】
中国期刊全文数据库 前10条
1 汪维家,陈笑蓉,秦进,陆汝占;一种基于窗口技术的中文文本自动校对方法[J];贵州大学学报(自然科学版);2003年02期
2 任小燕;;中文情感分析综述[J];科技信息;2011年31期
3 邹箭;钟茂生;孟荔;;中文文本分割模式获取及其优化方法[J];南昌大学学报(理科版);2011年06期
4 张玉芳;杨柯;熊忠阳;;基于关联规则的中文文本分类算法的改进[J];郑州大学学报(理学版);2007年02期
5 郑家恒;张虎;魏善德;谭红叶;;面向中文文本的欺骗行为检测方法研究[J];山西大学学报(自然科学版);2009年04期
6 王虹,张仰森;基于词性预测的中文文本自动查错研究[J];贵州师范大学学报(自然科学版);2001年02期
7 王虹,张仰森;基于词二元接续的中文文本自动查错研究[J];贵州大学学报(自然科学版);2001年01期
8 李荣艳;金鑫;王春辉;郑宁;别荣芳;;一种新的中文文本分类算法[J];北京师范大学学报(自然科学版);2006年05期
9 李群;;文本分词的自动校对[J];渤海大学学报(自然科学版);2006年03期
10 徐全生;陈莹;;基于二元、三元统计模型与规则相结合的中文文本自动查错研究[J];科技信息(学术研究);2008年36期
中国重要会议论文全文数据库 前10条
1 郑天宏;许杭杰;董黎刚;;中文文本抄袭检查技术的研究[A];浙江省电子学会2010学术年会论文集[C];2010年
2 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年
3 宋兰;孙茂松;;中文文本全文查重的实验研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 李思;张浩;徐蔚然;郭军;;基于合并模型的中文文本情感分析[A];第五届全国信息检索学术会议论文集[C];2009年
5 徐幸;王厚峰;;中文文本蕴含的推理模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 徐艳华;;中文文本中时间日期表达形式的自动检索[A];2004年辞书与数字化研讨会论文集[C];2004年
7 张云涛;龚玲;王永成;;识别中文文本中的未登录专有名词的类别[A];2007年中国智能自动化会议论文集[C];2007年
8 甘灿;孙星明;刘玉玲;向凌云;;一种改进的基于同义词替换的中文文本信息隐藏方法[A];第七届全国信息隐藏暨多媒体信息安全学术大会论文集[C];2007年
9 蒙应杰;司蕾;是垚;;基于矢量图形的中文文本零水印算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
10 肖志文;陈伟;梁久祯;雷彬;;基于LZW算法的中文文本压缩算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
中国重要报纸全文数据库 前4条
1 中国社科院法学所研究员 刘仁文;国际公约中文文本的纠错与重译[N];法制日报;2008年
2 詹亦文;签英文合同谨防陷阱[N];中国改革报;2003年
3 熊建;让汉字插上信息化的翅膀[N];人民日报;2013年
4 绨星;注意合同形式和背面条款[N];中国船舶报;2002年
中国硕士学位论文全文数据库 前10条
1 陈健;自然场景的中文文本定位技术研究[D];华南理工大学;2015年
2 麦跃;无约束联机手写中文文本识别[D];华南理工大学;2015年
3 朱万山;中文文本褒贬倾向性分类研究[D];北方工业大学;2015年
4 张宁;基于语义的中文文本预处理研究[D];西安电子科技大学;2011年
5 夏恒;基于沙普利值的中文文本识错研究[D];湖北工业大学;2013年
6 徐琼;面向自然场景图像中的中文文本定位技术研究[D];南京邮电大学;2014年
7 孙刚;基于线性回归的中文文本可读性预测方法研究[D];南京大学;2015年
8 邹娟;面向中文文本的特征值提取[D];湘潭大学;2005年
9 马鹏飞;中文文本分类算法研究[D];南京理工大学;2012年
10 张会昌;基于领域词典的中文文本相似度匹配[D];山东大学;2014年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026