托福口语|机器评分机制揭晓

杭州编辑 2021-07-15 16:42

各位同学,相信大家第 一次上托福口语课的时候你们的口语老师肯定会进行介绍口语的评分标准这一环节,主要包括三大标准:delivery、language use 、 topic development. 但其实各位同学听完也不是非常清楚托福官方对于大家的口语是怎么样具体的评分,具体的评分机制是什么?其实在ETS官方进行评分的时候,他们是结合人评和机评两种评分方式的结合,今天老师就给各位同学介绍一下托福口语机器评分机制。


2019年8月托福改革除了减少题目数量,缩减了考试时间之外,还有一个重大的改变就是托福口语部分的评分引入了机器评分,开始实施人工评分和自动化评分结合的评分机制。从官方的报告中可以发现此次自动评分系统使用的是5.0版本的引擎(最早口语自动评分的引擎是2008年的1.0版本),那个时候这个自动评分系统只用于托福考试的官方练习平台TOEFL Practice Online 中的口语练习的自动评分,并没有用于正式考试的口语评分;并且根据官方报告,真人评分和机器评分的相关系数已经达到了0.81,也就是说ETS觉得这个自动评分系统已经非常人工智能化了,可以用于真实考试的评分机制中。


从官方的第23页中的表格可以发现,机器评分主要可以评的部分是delivery(表达)和language use(语言使用)总共细分成20个小项,最终20个小项的系数加起来是1。每个小项所占比重不一样也就是权重不一样,系数越高也就表示权重越高,今天挑出几个权重较大的评分小项来分析一下,也指明了在实际口语练习过程中侧重点。


1、20项中权重最 大的是第 一项--- Mean silence duration (平均沉默时长),达到了0.119也就是11.9%, 也是20项中唯 一一项超过0.1的影响因素,也就是说在托福口语回答中,不正常的停顿是负面影响口语分数最严重的因素,停顿的时间越长,停顿的次数越多,对分数的负面影响越大。


2、20项中权重第二位的一项--- Score point with the highest word CVA similarity score (单词的相似性) 权重是0.099。这一项指的是你的词汇量越大,在口语回答中能够适当的应用不同的词或者词组来表达同一个意思,那么分数就会越高。


3、20项中权重第三位的一项—Speaking rate in words per second(每秒平均的单词数),影响指数到达了0.097. 这里指的其实就是语速,在正常的情况下(强调),你的语速越快,分数就越高;相反,你说的越慢,分数就越低。再次强调并不是单纯的越快越好,你整体的回答必须是在正常范围内,让人听起来比较舒服的语速,让考官easy to follow, 而不是像机关枪一样。


4、20项权重位居第四位的一项--- Total acoustic model score for all words with model trained on native data, 权重是0.081, 这里的意思是评判考生的英文是否地道,这里的地道是从音上来判断,即发音/语音语调/节奏,越接近地道的发音,你的分数就越高;


除了以上权重最 大的四小项,后面其次分别是:Average of chunk length in seconds –平均意群长度;No repetitions--- 重复程度;Score point with the highest grammatical similarity score--- 语法的相似程度;total no different lexical types --- 词汇的多样性等等。


综上所述是机器评分的几大核心要素的介绍和解析,希望各位同学能更进一步的了解评分细则然后在实际的口语学习中针对性提高口语得分。




2024年杭州新航道秋季班

推荐阅读

托福口语的应急备考指南 托福口语 | 如何避免空洞表达 2021 年上半年托福考情及趋势分析:口语篇 托福口语|机器评分机制揭晓 独立口语话题万 能理由素材 完美语调决战托福口语26+