中文报业出版的文字质量智能辅助控制技术研究
【摘要】:从汉字“激光照排”技术的应用开始,中文新闻出版业的信息化水平突飞猛进。近年来,我国中文报业出版规模不断扩大,报社中的采编、组版、印刷、财务和发行等生产环节已实现信息化。但是,报业生产流程中的质量控制环节仍然以传统的全手工方式处理每日见报的新闻稿件及版面,效率低,成本高,成为报业生产的瓶颈所在。
本文从当前报业出版的现状和存在的问题出发,以报业生产流程优化为切入点,以自动文字查错和重稿检测为手段,以期实现智能辅助的报业出版文字质量控制。论文取得的主要成果如下:
1.对现有的报业生产流程和相关软件进行整合优化,提出了文字质量数字化智能辅助控制的概念框架和技术框架。优化后的生产流程不仅为人和计算机提供了协同质量控制的数字化平台,而且为计算机构建了闭环学习的环境,使其能从历史稿件中不断学习新词和语言知识,这些知识又应用于基于词汇语义类的文字查错和重稿检测算法,因此计算机可以较高的智能辅助人工质量控制。
2.为利用词汇语义进行语义层面的文字查错,提出了面向文字查错的汉语实词语义分类体系划分方法及种子词获取方法。并提出一种基于种子词的汉语实词义类自动获取算法,利用句法和构词素两种特征,从大规模未分词语料库中自动获取实词的义类标签,该算法能自动获取多义词的多个义类,并能识别情感词。给出了基于词汇义类的汉语词法分析过程,利用条件随机场模型标注词汇义类并识别名词短语边界。
3.根据新闻稿的文字错误类型及造成错误的原因,针对中文自动校对研究中没有解决的语法、语义以及前后不一致等错误,提出了四种针对不同错误类型的文字查错算法。基于义类3-gram的语义查错算法是利用词汇义类之间的邻接异常查找普通查错算法无法查出的真词替换错误,以及部分语法、语义错误。基于语义优选的查错算法是利用动词对主语和宾语的语义优选,查找长距离的动宾或主谓搭配错误。基于点互信息的复句结构和标点查错算法,是利用复句连词和标点之间的共现概率查找语法和标点错误。人名-职务不一致检测利用人名-职务对的比较,查找人名或职务在前后文的不一致错误。
4.针对重稿检测对历史稿件自动更新的需求,提出了重稿检测的流程与具体算法。算法首先对历史稿件按照广义话题进行分类,并在广义话题内对稿件聚类。在线重稿检测时,首先根据待测稿件的首段文字将其分配到相应的事件类下;然后利用全文特征在事件类内判断其是否为重稿。算法可以同时实现历史稿件自动更新和重稿检测,通过段落间的相似比较,提高重稿检测的精度。
基于生产流程优化的应用系统在《长江日报》上线并运行2年多,其在效率和成本方面的优势得到证明。本文提出的自动文字查错和重稿检测算法绝大多数也已在系统中得到应用。
|
|
|
|
1 |
肖文辉;;基于MySQL的全文检索系统的研究与应用[J];广西质量监督导报;2008年06期 |
2 |
崔晓玲;;数控代码查错与仿真[J];科技资讯;2009年23期 |
3 |
肖克曦;;在线英语语料库自动分词和分句的实现[J];电脑知识与技术;2010年28期 |
4 |
徐九韵,仝兆岐,向逐聪,王新民;数据库汉语查询语言的分词研究与实现[J];中文信息学报;1998年04期 |
5 |
李家福,张亚非;一种基于概率模型的分词系统[J];系统仿真学报;2002年05期 |
6 |
龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期 |
7 |
许云,樊孝忠,张锋;一种不需分词的中文文本分类方法[J];北京理工大学学报;2005年09期 |
8 |
陈福生;;全文检索在网站搜索系统中的应用[J];电脑编程技巧与维护;2009年12期 |
9 |
赵晓凡;胡顺义;;基于正向最大匹配的汉语分词[J];安阳师范学院学报;2010年05期 |
10 |
韩世欣,王开铸;基于短语结构文法的分词研究[J];中文信息学报;1992年03期 |
11 |
曹焕光,郑家恒;自动分词软件质量的评价模型[J];中文信息学报;1992年04期 |
12 |
林发秀;在TJ2230上调试FORTRAN程序[J];广西大学学报(自然科学版);1995年01期 |
13 |
高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期 |
14 |
王圆;孙铁利;李杨;;Web文本挖掘中的特征表示和特征提取[J];电脑知识与技术(学术交流);2006年14期 |
15 |
曹晓声;乔杰华;;网络数据的挖掘[J];辽宁工程技术大学学报;2006年S1期 |
16 |
马国俊;韩利凯;;Web站内检索系统的研究与实现[J];西安文理学院学报(自然科学版);2006年04期 |
17 |
谢廷彦;林芝;王鑫;;答疑系统的资源建设[J];中国教育信息化;2007年23期 |
18 |
刘高原;张国平;;基于Nutch的搜索引擎技术[J];平顶山学院学报;2008年05期 |
19 |
杨晓恝;蒋维;郝文宁;;基于本体和句法分析的领域分词的实现[J];计算机工程;2008年23期 |
20 |
胡长春;刘功申;;面向搜索引擎Lucene的中文分析器[J];计算机工程与应用;2009年12期 |
|