【揭秘GRE】⑥E-rater自动化作文评分系统是什么

作者：网编整理来源：北京新东方学校发布时间：2019-12-30

　　本期和我们分享《E-rater自动化作文评分系统是什么》是来自北美项目组的刘慧老师，“E-rater”听上去这么高大上，到底是如何在作文评判中发挥作用的呢？

　　E-rater自动化作文评分系统是什么

　　E-rater 是由ETS开发的自动化作文评分系统。目前在包括GRE和托福在内的一系列标化考试作文评分中均有E-rater参与。

　　1、E-rater的诞生

　　上世纪末，人们逐渐意识到传统的选择题不足以全面地考查学生的能力，于是包括GRE在内的各大标准化考试纷纷将写作纳入考查范围。

　　与选择题相比，以作文为代表的主观题阅卷成本极高。阅卷本身以及对阅卷人的培训和质量监督都花费极大。尤其是考虑到为了保证分数的可靠性，ETS规定每篇作文至少需要两位阅卷人打分。而这部分多出来的成本最后只能以考试费上涨的形式转嫁到考生身上。于是早在GRE作文考试尚在筹备阶段时，ETS便以在着手开发计算机自动化评分系统，也就是后来的e-rater。

　　除了成本更低之外，机器阅卷的评分标准更加客观和统一。然而机器阅卷的缺点也很明显：由于计算机不能理解人类语言，因此机器阅卷只能专注于单词拼写以及语法等，无法判断文章的思想水平高低。于是理论上考生可以通过写出形式上完美但内容很糟糕的文章去欺骗计算机以获得高分。反过来，也可能考生的作文内容很精彩但形式上不合常规，导致计算机无法有效识别而得到低分。于是ETS将e-rater认作人类阅卷者的补充，而不打算用之完全取代人类阅卷者。此外，此前有大量研究表明，至少对美国学生而言，其作文的内容水平和形式水平是高度相关的。这为e-rater的开发和使用进一步提供了理论基础。

　　2、E-rater 的应用

　　e-rater在1999年在GMAT上率先采用。之后，GRE作文评分开始引入e-rater。过去 e-rater仅用于对人类评分员分数进行监督，其分数不计入最终的作文成绩。从2016年开始，在GRE写作中，e-rater打分也开始计入总分。如果一篇GRE作文中的e-rater打分和人类评分员打分相差小于1，则作文最终成绩为两者平均，否则作文交由第二名人类评分员打分。GRE之所以采用这样的设计是因为经过多年的发展，e-rate人对于绝大多数文章的打分已经可以做到与人类评分员相差无几，甚至有些时候比人类评分员可靠性更高。

　　将e-rater打分计入作文分数的另一个原因是，这样得到的分数可以更接近考生的真实分数（考生的作文由无限多人类评分员打分后最终的平均分）。不同于只允许打整数分的人类评分员，e-rater给出的是实数分数，因此精确到更高，也就更容易接近考生的真实分数。假如一个考生的issue作文的真实分数为3.6，人类评分员打分为4，e-rater打分为3.55，两者分差小于0.5，考生issue最终得分为3.775（注意只有在最后计算写作部分总分时才会将成绩舍入到0.5分）。

　　3、E-rater的原理

　　e-rater的设计上的目标是对于同一篇作文可以打出与人类评分员尽可能接近的分数。也就是说，e-rater的功能本质上是模仿或者是预测人类评分员的行为。为此，e-rater在开发过程中采用了机器学习的方法。

（责任编辑：admin）

预约在线测评，免费赠送体验课

免费预约

我接受并同意《用户服务条款》和《隐私权相关政策》