收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文报业出版的文字质量智能辅助控制技术研究

侯锋  
【摘要】:从汉字“激光照排”技术的应用开始,中文新闻出版业的信息化水平突飞猛进。近年来,我国中文报业出版规模不断扩大,报社中的采编、组版、印刷、财务和发行等生产环节已实现信息化。但是,报业生产流程中的质量控制环节仍然以传统的全手工方式处理每日见报的新闻稿件及版面,效率低,成本高,成为报业生产的瓶颈所在。 本文从当前报业出版的现状和存在的问题出发,以报业生产流程优化为切入点,以自动文字查错和重稿检测为手段,以期实现智能辅助的报业出版文字质量控制。论文取得的主要成果如下: 1.对现有的报业生产流程和相关软件进行整合优化,提出了文字质量数字化智能辅助控制的概念框架和技术框架。优化后的生产流程不仅为人和计算机提供了协同质量控制的数字化平台,而且为计算机构建了闭环学习的环境,使其能从历史稿件中不断学习新词和语言知识,这些知识又应用于基于词汇语义类的文字查错和重稿检测算法,因此计算机可以较高的智能辅助人工质量控制。 2.为利用词汇语义进行语义层面的文字查错,提出了面向文字查错的汉语实词语义分类体系划分方法及种子词获取方法。并提出一种基于种子词的汉语实词义类自动获取算法,利用句法和构词素两种特征,从大规模未分词语料库中自动获取实词的义类标签,该算法能自动获取多义词的多个义类,并能识别情感词。给出了基于词汇义类的汉语词法分析过程,利用条件随机场模型标注词汇义类并识别名词短语边界。 3.根据新闻稿的文字错误类型及造成错误的原因,针对中文自动校对研究中没有解决的语法、语义以及前后不一致等错误,提出了四种针对不同错误类型的文字查错算法。基于义类3-gram的语义查错算法是利用词汇义类之间的邻接异常查找普通查错算法无法查出的真词替换错误,以及部分语法、语义错误。基于语义优选的查错算法是利用动词对主语和宾语的语义优选,查找长距离的动宾或主谓搭配错误。基于点互信息的复句结构和标点查错算法,是利用复句连词和标点之间的共现概率查找语法和标点错误。人名-职务不一致检测利用人名-职务对的比较,查找人名或职务在前后文的不一致错误。 4.针对重稿检测对历史稿件自动更新的需求,提出了重稿检测的流程与具体算法。算法首先对历史稿件按照广义话题进行分类,并在广义话题内对稿件聚类。在线重稿检测时,首先根据待测稿件的首段文字将其分配到相应的事件类下;然后利用全文特征在事件类内判断其是否为重稿。算法可以同时实现历史稿件自动更新和重稿检测,通过段落间的相似比较,提高重稿检测的精度。 基于生产流程优化的应用系统在《长江日报》上线并运行2年多,其在效率和成本方面的优势得到证明。本文提出的自动文字查错和重稿检测算法绝大多数也已在系统中得到应用。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 肖文辉;;基于MySQL的全文检索系统的研究与应用[J];广西质量监督导报;2008年06期
2 崔晓玲;;数控代码查错与仿真[J];科技资讯;2009年23期
3 肖克曦;;在线英语语料库自动分词和分句的实现[J];电脑知识与技术;2010年28期
4 徐九韵,仝兆岐,向逐聪,王新民;数据库汉语查询语言的分词研究与实现[J];中文信息学报;1998年04期
5 李家福,张亚非;一种基于概率模型的分词系统[J];系统仿真学报;2002年05期
6 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
7 许云,樊孝忠,张锋;一种不需分词的中文文本分类方法[J];北京理工大学学报;2005年09期
8 陈福生;;全文检索在网站搜索系统中的应用[J];电脑编程技巧与维护;2009年12期
9 赵晓凡;胡顺义;;基于正向最大匹配的汉语分词[J];安阳师范学院学报;2010年05期
10 韩世欣,王开铸;基于短语结构文法的分词研究[J];中文信息学报;1992年03期
11 曹焕光,郑家恒;自动分词软件质量的评价模型[J];中文信息学报;1992年04期
12 林发秀;在TJ2230上调试FORTRAN程序[J];广西大学学报(自然科学版);1995年01期
13 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
14 王圆;孙铁利;李杨;;Web文本挖掘中的特征表示和特征提取[J];电脑知识与技术(学术交流);2006年14期
15 曹晓声;乔杰华;;网络数据的挖掘[J];辽宁工程技术大学学报;2006年S1期
16 马国俊;韩利凯;;Web站内检索系统的研究与实现[J];西安文理学院学报(自然科学版);2006年04期
17 谢廷彦;林芝;王鑫;;答疑系统的资源建设[J];中国教育信息化;2007年23期
18 刘高原;张国平;;基于Nutch的搜索引擎技术[J];平顶山学院学报;2008年05期
19 杨晓恝;蒋维;郝文宁;;基于本体和句法分析的领域分词的实现[J];计算机工程;2008年23期
20 胡长春;刘功申;;面向搜索引擎Lucene的中文分析器[J];计算机工程与应用;2009年12期
中国重要会议论文全文数据库 前10条
1 徐润华;陈小荷;;一种利用注疏的《左传》分词新方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 李怡平;吴飞;;多语言环境下的分布式互联网分词平台[A];第十六届全国数据库学术会议论文集[C];1999年
3 赵伟;路永刚;吴琼;;一种新的基于BMM和RMM分词方法的研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
4 徐冰;姚建民;杨沐昀;赵铁军;;汉语分词在机器翻译评价中的影响[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 陈丽江;;ACL-SIGHAN第一届国际中文分词竞赛评述[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
7 周俊;孙啸;;频繁序列算法在生物信息挖掘中的应用[A];第十次中国生物物理学术大会论文摘要集[C];2006年
8 苏新春;顾江萍;;“人”“机”分词差异及规范词典的收词依据——对645条常用词未见于《现汉》的思考[A];中国辞书论集2000[C];2000年
9 刘桐菊;于浩;赵铁军;;基于标引技术的特定领域XML文本自动生成[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 王厚峰;;机器翻译中汉语词节点的识别[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前10条
1 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
2 颜红菊;现代汉语复合词语义结构研究[D];首都师范大学;2007年
3 祝文骏;基于视觉皮层网络的物体整体特征分析与算法研究[D];上海交通大学;2011年
4 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
5 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
6 荚济民;基于互联网数据集的图像标注技术研究[D];中国科学技术大学;2009年
7 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
8 王欣;类型逻辑语法与现代汉语“是”和“的”[D];北京语言大学;2009年
9 吕宁;基于数据驱动的故障诊断模型及算法研究[D];哈尔滨理工大学;2009年
10 吴尉林;可移植的稳健口语理解方法研究[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
2 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
3 赵春红;外包数据库模型中文本数据完整性检测方案的研究[D];燕山大学;2010年
4 卢育红;半结构化药物数据智能分类技术研究与系统实现(全日制专业学位)[D];北京交通大学;2011年
5 卢忠良;基于多类的汉语文本自动分类研究[D];中国人民解放军国防科学技术大学;2002年
6 苗玺;中文语料库切分不一致字串分类校验方法研究[D];山西大学;2006年
7 盛鹏;基于全文过滤的垃圾邮件防范机制[D];昆明理工大学;2006年
8 张楚屏;从分词的静词作用看分词在计算机英语中的翻译方法[D];华中科技大学;2006年
9 皮鹏;智能搜索引擎系统的研究[D];哈尔滨工程大学;2002年
10 都菁;基于论坛语料的未登录词自动识别新方法[D];西南大学;2010年
中国重要报纸全文数据库 前10条
1 见习记者 魏东柱;2008年(开封)淮海经济区域城市报业联盟印务经营管理研讨会召开[N];开封日报;2008年
2 记者 胡光耀 韩万宁;美报业巨擘资不抵债申请破产[N];新华每日电讯;2008年
3 记者 杨菁;长江报业园步入全面建设期[N];长江日报;2008年
4 记者 禹超;促进报业更好更快发展[N];秦皇岛日报;2008年
5 曹亚宁;报业《落实“十一五”规划的发展措施》发布[N];中国改革报;2008年
6 广字;本报四项目获评中国数字报业第二批创新项目[N];广州日报;2008年
7 王伟;用科学发展观引领报业[N];齐齐哈尔日报;2008年
8 余丽娜;贵州金黔报业发行物流有限责任公司成立[N];中华新闻报;2008年
9 许宝健;迎接没有报纸的报业新时代[N];中国县域经济报;2009年
10 记者 杨蕾;危机促转型,美报业寻找新生存模式[N];新华每日电讯;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978