基于词频统计的《徐霞客游记·粤西游日记》词汇研究
【摘要】:对于《徐霞客游记》,学界多从地理学、文学、旅游、历史、民俗、宗教、美学、文化等方面来研究,从语言文字角度进行的研究较少。我们运用计算机辅助方法进行词频统计,从语言词汇的角度,选取其中的《粤西游日记》,以它的的词汇特点和语言特色及词汇和语言的发展变化规律为研究对象,试图拓展粤西语言词汇研究的领域,为近代汉语词汇研究提供一定的资料或佐证。
研究的基本思路是:1.把《徐霞客游记?粤西游日记》按照1982年上海古籍出版社出版的由褚绍唐、吴应寿合作整理本录入计算机;2.校对文本;3.用ICTCLAS分词软件进行机器分词并对分词结果人工干预;4.以SPSS统计软件统计词频;5.分析统计结果,研究词汇体系。在得出的《徐霞客游记?粤西游日记》系列词表中,有123230个词,10060个不重复的词条。按照出现频率的不同,将词汇分为四个词区:核心词区、高频词区、中频词区和低频词区。核心区只有一百词,出现率高且覆盖率广;对于高频词区和中频词区词类,通过比较,我们可以看到这两个词区的词类特点;低频词区的词汇中,专有名词占了较大的比重,将专有名词的出现频率列出并对这个大类分小类,可以比较直观的看到它的分布。
除专有名词外《徐霞客游记?粤西游日记》,有7870个词条。这7870个词条分单音节词和复音节词,单音节词占优势;按复音节词的结构分析,可分为七大类,复音节词中联合式和偏正式结构比其他结构占有绝对的优势。《徐霞客游记?粤西游日记》的词汇平均词长明显低于现代汉语平均词长,这是词的复音化发展的结果。同时,《徐霞客游记?粤西游日记》词汇从衣、食、住、行四个角度反映了当时广西的民生、民俗。此外,这部专著的写作手法具有自己的特色,作者的思想有一定的局限性。