计算机辅助诗词创作中的风格辨析及联语应对研究
【摘要】:作为中国文化传承和精美艺术品的诗词曲联作品,在信息时代面临着重新整理和信息挖掘的问题,而立足于当代,需要运用信息处理工具进行深入分析和智能模拟,由于语料库技术和机器学习技术的发展,解决了海量数据的结构化存储和机器自动处理的问题。在机器学习的框架下,传统诗词的问题得到探索分析的条件已经初步具备,相对而言传统的文学分析能在信息技术的提携下,获得处理理念和视角上的一次更生,使得海量而又错综棘手的古典文学分析研究,在机器辅助下,其结果更加易懂明了,其处理更加自动化。
本文是在国家自然科学基金项目“计算机辅助文学艺术创作——诗词曲联(上)(项目编号60173060)的支持下,进行的是应用驱动型的研究,即“诗词风格的机器评判和联语(对仗)语句的生成”。在本文的研究中,对诗词采用向量空间模型表示,并用基于机器学习中的Na?ve Bayes 等方法,首次提出了古典诗词的豪放和婉约风格辨析计算模型,并用遗传算法等方法对模型进行改进,取得较好的诗词风格评判结果。首次提出了古典诗词的作者辨析计算模型,该模型已经在精典诗词语料的机器学习基础上得以实现,也获得较好的诗词作者评判效果。通过将联语应对问题转化为序列学习建模的问题,进行了联语应对生成的研究,依据输入的上联,机器能较为成功地应对生成下联,并在实际的诗词对联语料数据上进行了大量的实验,实验的结果验证了这些方法的可行性和有效性。本论文的主要研究内容如下:
1) 由于机器学习和古典文学数字化的需要,本文提出的方法和实验研究都基于语料库的数据驱动进行,因此简要介绍了唐诗、宋词和对联语料库的建立。这部分内容主要集中在本文的第二章。
2) 针对高度抽象的艺术概念“风格”的辨析,着重从三个问题展开研究。第一、诗词的风格能否用机器评判,即可行性问题;第二、诗词的风格由机器通过什么方式评判,即怎么做问题;第三、如何提高机器评判的效果,即优化问题。对于第一个问题,本文提出将诗词的风格评判问题转化为一种文本的模式识别问题而得以解决。对于第二个问题,本文探索了诗词的韵部和声调对风格的影响,发现两者对解决诗词风格的评判问题的难度较大,最后采用了用以字为研究对象的向量空间模型来表示诗词,使诗词的风格得以顺利进行。对于第三个问题,结合信息增益挑选用于风格评判的汉字,并用遗传算法等方法改进了诗词风格的评判效果,用55 个汉字获得了88.5%的评判准确度。这部分内容方法论述集中在本文的第三章,实验介绍在第四章。