用最少题目得出最精确的分数
——GMAC测评研究部副总裁郭凡民分享GMAT的奥秘
作为全球唯一的专为商科和管理专业研究生招生设计的标准化考试,经企管理研究生入学考试(GMAT)已被全球近6100个管理专业研究生项目采用,被称为商科研究生课程学术成功的可靠预测指标。近日,管理专业研究生入学考试委员会(GMAC)测评研究部副总裁郭凡民在接受本报采访中分享了这项考试是如何用最少的题目给出考生最精确的能力判断。
记者:这项考试每年帮助全球的商学院筛选申请者,为什么这个考试被如此认可?
郭凡民:其实,这项考试没有把自己定义成一个承担着向社会输送各种高技能人才的考试。我们的目标很现实,作为一个入学考试,就是要为全球的商学院筛选出入学以后能够很好地完成学业的优秀学生。那么,什么样的学生能够达到这样的要求?我可以确定,如果你的成绩很高,那就意味着你入学以后可能会学得好,或者学得更好,或者说你辍学的机会更少。
因此,它不是一个大学毕业生的结业考试,不是测试考生学了什么,学会了什么,学到什么程度,而是测试考生在学习的过程中有没有养成一种能够顺利参与商学院研究生学习所需要的基本能力,例如推理能力、逻辑辨别能力、分析能力等。这些能力也是一个人未来从事管理专业或技术性工作的基本要求。因为商学院申请者的专业背景是多样的,有学管理的、学文学的、学理工的,所以,这项考试用数学和语言的基本概念和技巧来测试考生的能力,这样也能保证对考生的公平。
记者:从测试内容来讲,这项考试是怎么样从考题中、从学生答案中,来判断考生的素质和能力的?
郭凡民:试题中有一些题目是测试学科知识,也有大部分题目是测试考生会不会通过现有知识进行推理、判断的能力,着重点是在于逻辑分析、推理方面,而不是在考查学科知识方面。
例如,在定量推理(quantitative reasoning)部分,我们的落脚点是在推理上面,所涉及的数学知识其实不深。个别题目是高中一年级水平,绝大部分都是初中二年级左右的数学知识,中学的数学教学就能够覆盖了。但是对于考生来说,并不是会某个数学的运算技能,就能够解题,因为我们实际上是利用数学的知识技能来考查推理能力。例如,一个考题类型叫“数据充分性判断”(data sufficiency),每题给考生两组已知条件,然后让考生在5个选项中选择正确的。第一个选项是“第一组给出的已知条件足够进行解题”;第二个选项是“第二组给出的已知条件足够解题”;第三个选项是“两组已知条件合起来可以解题,其中单个不够”;第四个选项是“两组中任意一组已知条件足够解题”;第五个选项是“两组合起来也不够”。
所以,从某种角度来说,定量推理考查的是数学的一部分技能,我们只是借用了较基础的数学技能来测试考生的逻辑推理能力。当然,文本逻辑推理部分也一样,我们会提供一篇文章,测试考生读完了以后能不能得出某种结论,或者说哪种结论是对的,哪种结论是不对的。而综合推理部分则是从更高层次上考查逻辑推理的能力。
记者:从技术层面来讲,这项考试如何测试出考生的真实能力?
郭凡民:它是一种自适应考试。考生坐在考试计算机面前的时候,面对的是一个题库,计算机根据考生的答题水平,给出相应的考题。
为什么这么做?举例来说,考试中有人得200分,有人得800分,不应该使用一套考卷来测试不同水平的群体。拿800分难度的考题给只有200分水平的考生完全是挫伤他的积极性。反过来,800分的学生答200分难度的题目也浪费考生的时间。
计算机自适应考试就是这样的一种考试,首先假定考生是一个中等水平的学生,先给出一道题,如果这道题答对,那么计算机就会选一个比该题难度更高一点的题目。答完后,电脑将两题合起来给考生评一次分,然后根据这个成绩再选第三题。再把三道题合起来给考生打一次分,四道题合起来打一次分,计算机每次选出的下一道题都是难度最适合考生当前水平的题目。
实际上,自适应考试是根据每一个人的实际水平出一套最合适他的考题。自适应考试可以用最少的题目,在最短的时间内得出考生最精确的分数。有些考试是把试卷分成两个或三个部分,计算机按考生水平选择难度合适的下一部分考题,而且只能进行一次或两次自适应选题。但经企管理研究生入学考试是以试题为自适应选题的单位,每一道题完了以后,计算机都给考生测分数,并根据分数选下一道题,因此是效率最高的考试模式。
记者:那么,写作部分的阅卷如何进行,如何给出合理的分数?
郭凡民:经企管理研究生入学考试是全世界高风险入学考试里面第一个采用计算机批阅作文的。在机器阅卷方面,我们做了很多研究。在我们分析计算机阅卷能够给出可靠的分数之后,我们把这一技术用于阅卷。一直以来,我们采取人机阅卷结合的方式,计算机阅卷给出一个分数,阅卷考官再给出另外一个分数。这两个分数相差如果在一分以上,我们会再请更高一个层次的,比如说阅卷组长再给一个分数。在这种情况下,阅卷组组长给的那个分数会替代其他两个分数。
记者:计算机能测评考生文章的语法、结构和表达艺术吗?
郭凡民:考试技术正在发生突破性或颠覆性变化,我们正处在这个变化之中。因为,早期的机器阅卷是从语法开始的。计算机阅卷一方面可以考查语法,也可以考查段落之间的修辞手法。比如一共要给三个论据,这三个论据是否一致,这三个论据之间是否有过渡词、关联词。从某种角度来说,当前的计算机阅卷已经超越了纯语法的考查。从语言学角度来看,有相当一部分超段落,若干个段落组成的大段之间,机器可以考查文章内部的过渡、连接等。
记者:您刚才提到现在对于机器阅卷来说是关键的转折期,为什么?
郭凡民:一些人工智能研究,特别是一些深层学习的研究,一旦获得成功就很可能会给机器阅卷带来革命性变化。人工智能从某种角度上来说,有可能超越对词汇、语法、段落的分析,在语义分析上有重大突破。机器阅卷很可能在新的层面上,利用这些新技术。未来的机器阅卷,很可能会出现质的变化。它不但能够判断,还能一边学习,一边判断。人工智能的引入,很可能会引起机器阅卷颠覆性的变化。
其实,我们的测试也在不断地更新和发展。因为目前单纯利用数学和文字语言来做考试介质,已经不能适应能力考查的需求,特别是商界管理所需要的技能。作为管理者,需要对多种数据进行分析,例如大数据、调查报告、图表、录像、录音等多重信息。对于这些元素的综合分析和考查,传统的多项选择试题类型很难做到。这也是我们在2012年增加了综合推理部分的原因。(本报记者 张东)
《中国教育报》2016年12月23日第5版