托福

资讯中心 > 托福 > 托福备考指导 > 正文
2023托福阅卷评分机制

2022.11.29 14:56

新东方在线托福整理了托福考试题型介绍、评分标准、评分细则等内容,今天带来的是2023托福阅卷评分机制,希望对刚开始接触托福考试的小伙伴有所帮助!

托福的电脑评分

托福口语和写作这两个项目中,都会涉及到电脑评分,而且电脑评分的结果是真实有效的,并会记录为真实成绩的。

自从2010年1月起,iBT(Internet-based Testing)就已对写作评分系统进行了调整,由原来的2个阅卷人评分,取算术平均分作为原始分(raw score),改为1个阅卷人和1个电脑评分系统(E-Rater)评分。我们其实可以更形象地把他们理解成为分工协作,联合判分。

电脑评分最大的优势就是具备足够的客观性,不存在阅卷的疲惫度,能够关注每一个评分标准,考虑到文章中的每一个细节和每一个特征。没有情绪,也就不存在主观印象,对于同一篇文章永远只会给出一个不变的分数;对于每一篇文章所给出的分数都能给出具体的解释,这是人为评分无法做到的。

电脑阅卷人:E-Rater

E-Rater的工作内容

E-Rater 就是托福阅卷中使用的电脑评分系统,这个系统与人工评分互相分工。但它主要负责文章的Grammar(语法)、Usage(用法)、Mechanics(格式体例)、Style(风格)、Organization & Development(组织与展开),而人工主要负责文章的内容和含义的理解。

E-Rater的工作原理

E-Rater的工作原理主要是利用计算机语言学中的自然语言处理(Natural Language Process,简称NLP)方法,对于文本相关信息进行标签匹配,结合ETS的数据审查来评分,简单点来说,和一些唱歌类app 的打分模式是一样的原理。

但它其实更像一个基于强大数据系统支持的一个运算系统,能够将输入的文章内容和数据库里面的内容进行比照式批阅,极大程度地增强了阅卷评分的灵活度和广泛度,又节省了一大批人力。

决定托福分数的方法

人工评分和电脑评分是独立的,相互之间看不到对方的分数。两者的分差在一定的区间内,取一个人工评分和一个 E-Rater 评分的算数平均分作为原始分(1—5分),然后再换算成满分30分的分值,从而得出最终的得分。

系统会将考生的文章进行了不同色块的标注:

  • 开头段的黄色表示 background information

  • 红色表示 thesis statement

  • 中间段蓝色表示 topic sentence

  • 绿色表示 supporting information

  • 结尾段橙色表示 conclusion

如果阅卷人和 E-Rater的差值,超过合理的区间范围,则电脑评分和人工评分都无效,改换成下一个评分组重新评分。现在的 E-Rater 和人工评分的准确性、一致性高达98%。

E-Rater工作步骤

以托福的独立写作为例,托福独立写作主要从三个维度去考量考生的作文:Development(内容发展)、Organization(结构组织)和 Language Use(语言使用)。

E-rater 读不懂我们的文章内容,那它是如何判分的呢?

Development

这个维度要求考生在文章发展中做到内容充实,而 E-Rater 并不能读懂考生的文章内容表达,因此它采取的方式是评估考生文章的 The Length of Discourse Element(话语元素长度)。简单来说,话语元素长度从两个方面进行评估:

1、平均句长:如果全文的句子写的都很短,则证明考生的思想内容很简单,不能有效表述清楚自己的论述,托福官方建议写作的平均句长应该在15-20词左右比较合适。

2、正文段句子数量:在中间发展段中,如果句子数量过少,证明考生没有话说,也就无法有效展开自己的观点。

Organization

这个维度要求考生合理组织段落,并且注意文章内容的逻辑衔接,E-Rater 很聪明地从下面这两个角度去评估:

1、The Number of Discourse Elements:话语元素数量,也就是合理分段。一般来说,建议文章分为4-5个段落。E-Rater 也能检测考生是否在文章中呈现了thesis statement、main ideas、supporting ideas、conclusion等。

2. The Use of Transitions:逻辑连接词的使用,E-Rater 通过检测考生句子之间的逻辑连接词,去判断文章的逻辑是否存在,以及是否合理。

Language Use

这个维度是通过对考生的语言表达进行数据分析,并匹配以往数据库里的语言数据,从而对考生的文章语言质量进行审核。

在语言层面,E-Rater 会从 Grammar 角度去审核考生文章中的 Fragments(句子碎片)、主谓一致(Subject-verb agreement)等;

·从 Usage 角度去审核考生文章中的 Missing or Extra Article(冠词错误)、Preposition Error(介词错误)、Wrong Part of Speech(词性错误)等;

·从 Mechanics 角度去审核考生文章中的Spelling(单词拼写)、Missing Comma(逗号缺失)等;

·从 Style 角度去审核考生文章中的 Repetition of Words(词汇重复)、Short Sentences(过多短句使用)、Passive Voice(过多被动语态使用)等。

阅卷人都是ETS官方人员?

ETS在整个试卷的制作过程中,非常关注 “Fairness 公平” 这样一个核心要素。而公平原则其中非常重要的一个体现就是确保全球的做题结果都是由统一的阅卷人来进行批改。尤其是ETS将托福改革成iBT之后,更是加速了利用网络进行统一阅卷评分的进程。

虽然托福考试的直属机构为ETS,但ETS却不仅有托福这一项考试项目,像是托业、GRE、Praxis教师资格考试都属于ETS执管,仅仅是托福项目在中国每年就有超过20万人报考,这也意味着仅是从阅卷评分这个层面就需要投入大量的人力。

所以ETS的阅卷人并非仅限于ETS官方人员,而是面向美国本土的人员通过特定的流程进行招募的。招募的对象主要是在美国本土工作的人员,他们不需要在ETS办公,甚至是在家里阅卷也可以。

为了确保评分的科学性和准确性,所有的评分人员都必须参与评分培训,并且最终通过认证测试。在培训者熟练掌握所有的评分标准之后,就会进入线上评分环节,培训者必须利用大量的模板文章进行对比式评分,直至自己的打分和目标打分完全一致方能通过测试。而在整个过程中,ETS 官方人员充当的就是裁判和导师这个角色。

在完成培训任务之后,阅卷人会得到一个给定的账号用于登陆一个专门用于阅卷的软件。ETS 每个月会不定时地给这些阅卷人发送邮件,阅卷人需要在收到邮件后在七个工作日之内完成在线阅卷并给出反馈。考生的作文在送到阅卷人手上之前会先经过机器检查一遍,也就是一个检查雷同、字数(主要针对托福写作)、逻辑连接词以及一些语言问题的软件,阅卷人会看到机器的反馈并在此基础上再去评分。阅卷人在阅卷时是会严格按照 ETS 给出的评分标准评分,他们只需要给出一个最终成绩而不需要给出相关的评价。

ETS 作为全球最大的测试服务机构,有着得天独厚的优势,那就是它每年都能够积累大量的文章数据,而且能够不断进行更新迭代,这能使得他的电脑评分系统的智能化不断地提升。

相比而言,其他测试机构的电脑评分系统却虚有其表,没有大量数据内核作为支持,所以自然无法得到一个理想的评分效果。另一方面,电脑评分有着它独特的优势,那就是具备足够的客观性。

你是否还想知道:

2022年最新托福阅读30题评分表

托福写作评分标准细则

2022年最新托福阅读30题评分表

加载更多
课程推荐
加载更多课程>>
托福辅导

关注新东方在线托福

托福机经||Official题目练习

资料下载查看更多>>