评分员背景对大学英语期末考试写作评估信度和效度的影响
【摘要】:不论是在课堂测试还是在大型标准化语言考试中,写作都是必不可少的一部分。它能够有效地测试出学生的综合语言运用能力。然而,由于评分的主观性,写作评分的准确性和公平性一直备受质疑。同一篇作文,不同评分员给出的分数可能会有很大的差别。这种情况下,写作评分的信度、效度和公平性就无法得到保证。Eckes(2008)也曾指出评分员不一致性是语言测量专家面对的最大挑战之一。现有研究表明,评分员的背景差异是导致作文得分偏离“真分数”的最重要原因之一。运用概化理论,本文旨在探究评分员的背景差异对大学英语期末考试中写作评估信度和效度的影响。基于此目的,本文将六位评分员按照三个背景因素(性别、教育经历和写作评阅经历)进行分组(每个背景因素分成两组,每组三人),比较了不同背景组别评分员的写作评分结果。本文的研究样本是从2017年6月湖南大学大一非英语专业学生的期末考试中抽取的60篇作文,由六位评分员采用整体评分的方法(1-15分)进行评阅。每位评分员独自评分。最终的分数在EXCEL和GENOVA中进行分析。分析结果表明,该写作评分的总体信度和效度较低。组间比较表明:与女性评分员相比,男性评分员的评分一致性更差,但两者在评分信度、聚合效度和区分效度上几乎无差别;与语言测试背景的评分员相比,非语言测试背景评分员的评分一致性、信度、聚合效度和区分效度明显偏低;与有经验的评分员相比,普通评分员的评分一致性、信度、聚合效度和区分效度相对较低。最后,本文挑选了两位评分员进行半结构化访谈,结果显示评分员的语言测试知识和评阅经历会对其评分观念和行为产生一定的影响,从而影响最终的作文得分。本文研究结果表明,评分员性别不会影响作文评分质量,但是评分员的语言测试背景与评阅经历却会产生明显影响。因此,探究评分员偏颇产生的原因对于写作评估信度和效度的研究至关重要。一旦了解了偏颇来源,我们就能够采取针对性措施来保障写作评分的信度、效度及公平性。