《面向大学英语教学的通用计算机作文评分和反馈方法研究》序言
冯志伟
葛诗利博士的《面向大学英语教学的通用计算机作文评分和反馈方法研究》一书就要出版了 ,他要我为他的这本专著写一个序言,我欣然应允了。
面向大学英语教学的通用计算机作文评分和反馈属于计算机辅助语言测试((Computer Assisted Language Test,简称CALT)的领域。计算机辅助语言测试可简称为“语言自动评测”(Automatic Language Test)或“自动评测”(Automatic Test)。
自动评测一般分为客观题自动测评和主观题自动测评两种。
客观题一般都是有现成答案的多项选择题,测试时只要求学生选出正确选项即可。这种题型的自动测评对于计算机而言没有技术上的困难,很容易实现。
主观题又分为两种,一种是用于考查学生知识掌握情况的主观题,另一种是用于考查学生语言掌握情况的主观题。
这两种主观题的区别是:用于考查学生知识掌握情况的主观题的测评内容是知识体系中的知识点及其相互关系,所使用的语言并不是测评的对象;而用于考查学生语言掌握情况的主观题的测评内容是语言本身,看其表达得是否正确、通顺,学生所使用的语言同时也是测评的对象。从测评的角度来讲,后者对自动测评的精度要求更高。
任何语言测试试卷一般都由客观题和主观题两种题型组成,这样便于更加准确地测评学生实际的语言水平,避免由于猜测而造成的测试信度的降低。
但是,由于主观题的自动测评涉及许多领域,有许多难题没有解决,国内许多大规模考试都采取人工批阅主观题的方法。这种做法不但需要投入大量的时间和人力,而且评判的标准也不容易统一,影响测试的信度。在这种情况下,主观题的自动测评研究对于大规模标准化考试(如大学英语四、六级考试)中主观题的自动评分就显得十分迫切。
自从出现学习和教学活动以来,测试就一同诞生了。语言测试是随着外语教学而出现的。随着测试实践的发展和测试理论研究的深入,逐渐形成了“测试学”这门学科。测试学家们根据测试的形式和性质等,对测试进行了分类,以明确人们对测试的认识,以便更好地指导测试和教学实践。
从宏观上说,测试可分为客观测试和主观测试两种。
客观测试又称为“选择回答”(Selective response)、“非构建性回答”(Non-constructed response)、“接受性回答题目”(Receptive-response items)等。客观测试时题目的答案是固定的,不允许考生自由发挥,通常也不必由考生自己写出答案。因为这种测试的答案在出题时就已准备好了,考试时考生只需选择某个答案即可。多项选择题、判断正误题、匹配题、填空题等都属于客观测试。
主观测试的题目需要考生用文字来回答,又称为“产出性回答题目”(Productive-response items)、“构建性回答”(Constructed response)、“生成回答”(Generated response)、“开放回答”(Open-ended, Free text)等。主观测试又分为“受限的主观回答”(Limited constructed response)和“扩展的主观回答”(Extended constructed response)两种。前者是指答题时必须用一个词或短语来回答,而后者则指答题时不受任何限制,具体用词可以不固定,只要将关键词或关键信息包括在答案内即可,如简答题、作文题等。
根据测试实施时的风险,如测试时考生作弊可能性的大小、题目被泄漏可能性的大小等因素,测试被分为“低风险测试”(Low-stake assessment)、“中风险测试”(Medium-stake assessment)和“高风险测试”(High-stake assessment)三种。
低风险测试是指考生没有作弊动机的测试。这种测试只为学习服务,即给语言学习者提供反馈信息,告诉他们距离学习目标还有多远,如小测验、自测等。
中风险测试是指考生可能出现作弊动机的测试。这种测试对考生有一定的影响,但不会有深远的、可改变考生命运的影响,如语言水平分级考试、期中、期末考试、远程教育课程考试等。
高风险测试则是指可改变考生命运的考试,如入学考试、证书考试、职业考试等。
众所周知,最初的测试是通过纸和笔进行的,称为传统测试。随着计算机的发明及个人计算机的普及,出现了通过计算机实施的测试,即“基于计算机的测试”(Computer-based testing, 简称CBT)。基于计算机的测试又叫做“计算机管理的测试”(Computer-managed testing), “计算机增强的测试”(Computer-enhanced testing),“计算机辅助的测试”(Computer-assisted testing)等。随着研究的深入,人们不再满足于只让计算机起一个测试媒介的作用,还利用了计算机的智能化功能,推出了“计算机自适应测试”(Computer-adaptive testing,简称CAT)。计算机自适应测试可以根据考生的具体答题情况,调整测试难度,一旦测出考生水平,考试立刻终止。这种测试在很大程度上不但节约了测试时间和测试资源,而且使测试更加人性化,因为考生不会因为答不出某些很难的测试题而感到难堪,也不会因为测试题太多或太容易而浪费时间。目前采用CAT进行的语言测试题有词汇题、语法题、阅读理解题、听力理解题等,这些试题的出题形式都是多项选择题。
此外,测试还可以按其目的分为“诊断性测试”(Diagnostic test)、“水平测试”(Proficiency test)和“成就测试”(Achievement test);也可以按参加测试的人数和规模分为“大规模测试”(Large-scale test)、“中等规模测试”(Medium-scale test) 和“小规模测试”(Small-scale test) 等。
早在1935年,在第一台电子计算机ENIAC还没有研制成功的时候,IBM公司就研制出805型模型机来进行语言测试,这是目前利用机器进行语言测试的最早记录,805型模型机是第一个可以使用机器批改客观题(多项选择题)的工具。这个模型机在美国引起了广泛的关注,得到了普遍的使用,大大地降低了人工阅卷的工作量,节省了语言测试的费用。
美国伊利诺伊大学研制出可以测评学生语言学习情况系统,叫做“全面行为分析”(General performance analysis)系统,这个系统可用于测评学生的法语课程学习情况,可记录学生一个学期的学习情况。当学生要了解学习情况时,该系统可随时提供各种信息,如所学语法项目的数量以及所得到的总分等。此外,学生还可以知道不及格的具体语法项是哪些。
1966年,美国杜克大学的派基(Ellis Batten Page)开发了评价文章写作质量的“文章分级”(Project Essay Grade)系统,简称PEG。派基认为,一个人的写作风格有其内在的特性,可以用“trins”进行描述,并可对其进行量化,量化后的结果叫“proxes”(代理量度标准)。所谓代理量度标准是指某些写作构造物,比如:作文长度代表了写作的流畅性;介词、关系代词及其它词性表明了句子结构的复杂度;词长的变化指出了文章措辞的情况(因为非 常用词一般都较长)。代理量度标准由训练集中计算得出,然后经过转换,与训练集的人工评分一起用于标准多元回归的计算,从而得出回归系数。这些回归系数代表了人对作文评分的最佳模拟,与代理量度标准一起用于未评阅过的作文的自动评分。 PEG的评分达到了较高的准确率,但它只是依靠统计方法来评定文章的质量,没有使用自然语言处理的深层分析技术,也没有考虑到词汇的语义。
1984年美国评估系统公司(Assessment Systems Corporation)推出了MicroCAT系统。1999年又推出了更为先进的FastTEST CAT系统。这些系统的所有题目都有难度、区别度和猜测参数标注,还有题目的内容、上下文等信息。所有题目和题目水平等级信息都存储在本地计算机或本地网络的题库中。
1985年,美国扬伯翰大学(Brigham Young University)的拉莘(Larson)和麦德森(Madsen)开发了法语、德语和西班牙语的CAT工具,用于大学的分级测试。
英国剑桥大学地方考试集团(The University of Cambridge Local Examinations Syndicate,简称UCLES)开发了用于学术和商业不同目的的各种语言(英语、法语、德语、西班牙语)的CAT测试工具。
欧盟理事会(the Council of Europe)资助了可测试丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、冰岛语、爱尔兰语、意大利语、挪威语、葡萄牙语、西班牙语、瑞典语等14种欧洲语言的DIALANG 项目。通过DIALANG,考生可以了解自己的词汇、语法、写作、阅读、听力的水平。考生还可以自己选择他们想测试语言的等级,系统通过提供词汇测试来完成语言能力的测评,所有题目都可以通过测试的进程随时进行调整。DIALANG还可给考生提供如何提高语言水平的反馈意见。
1997年,Ordinate Corporation公司开发了PhonePass系统,用于测试母语为非英语人士的英语听力和英语口语水平。测试仅需10 分钟,PhonePass系统包括大声朗读句子、重复句子、回答简短问题、造句和回答开放题等5项内容,还可以通过电话测试口语水平。计算机可以利用统计模型把说话人说的某个词的声音与数据库中北美地区英语为本族语的人的发音进行比较。测试结果显示,PhonePass与人工测试结果的相关系数为0.93,在某些情况下,PhonePass测试的结果甚至比人工测试的结果还要准确。
上世纪90年代末是由培生知识分析技术公司(Pearson Knowledge Analysis Technology,简称 PKT)在潜在语义分析(Latent Semantic Analysis,简称LSA)技术的基础上开发了作文自动评分系统IEA。IEA不仅能评判基于内容的作文,还能评判有创意的记叙文。这种作文评分系统虽然主要在于评价文章内容方面的质量,但也包含了对语法、文体以及操作细节方面的评分与反馈,并能发现抄袭现象。
成立于1947年的美国教育考试服务中心(Educational Testing Service,简称ETS)从成立之日起就致力于英语作文计算机评阅系统的研究。经过多年的研制,推出了可以批改学生英语作文的“电子-打分”系统,叫做E-rater。
E-rater可分别在全文和文中的单个论点两个层次上对学生提交的作文与训练所用作文的词汇进行比较,计算其相似度,并根据计算结果判断学生作文在词汇运用方面所处的分数档次。1999年该系统正式投入使用,不仅可用于美国国内著名的高风险大规模考试,如GMAT (Graduate Management Admission Test)和GRE(Graduate Record Examinations)两个考试的写作题批改中,而且还可用于托福考试(Test of English as Foreign Languages,简称TOEFL)的写作题批改,并于1998年在美国本土及许多其他国家推出了基于计算机的托福考试。仅在1999年的GMAT考试中,E-rater就成功批改了750000份作文,与人工批改的一致性高达97%。
E-rater采用整体评分策略,从写作风格、修辞等角度整体上对作文进行评判,不存在正确或者错误答案,同时该系统需要大量的训练数据以建立评分模型。但是,对于那些需要判断答案内容是否正确并给出具体分数的自动批改类问题,E-rater显得无能为力。
在成功开发和广泛使用E-rater的基础上,美国教育考试服务中心的研究人员还开发了基于内容和限定领域的自动评分系统叫做C-rater(Concept-rater的缩写),用于短文回答问题题型的自动测评。该系统目前只用于心理学和生物学两门学科的短文回答问题的自动评分。
英国朴次茅斯大学(University of Portsmouth)研制了专门用于非多项选择题和短文回答问题的自动测评系统,叫做The Automated Text Marker ,简称ATM 。ATM系统可以对用自然语言书写的答案内容进行评测,并且能够用于各种具体学科上。
英国利物浦大学(University of Liverpool)开发了AutoMark自动评分系统,用于短文回答问题的评分。1999年该系统正式用于全英国11岁小学生的自然科学课程测试中。该自然科学课程测试属高风险测试,自1995年以来,全英国每年都有50万名11到14岁的学生参加该考试。这样有影响的高风险考试采用了这个机器评分系统,说明AutoMark自动评分系统的性能已完全达到了实用的要求。
由朗文英语中心开发的朗文英语水平测试系统(Longman English Assessment)是一个低风险的 “计算机自适应测试”系统,它通过让考生回答诸如“你为什么学英语?”等问题,来了解考生是出于商业目的,还是出于一般目的来参加测试,以发现其感兴趣的内容,然后给出词汇和语法题目。系统可根据考生回答的情况,推荐初级、中级、高级作为下一级的测试水平。考试时间仅15分钟。而该中心开发的朗文英语交互系统(Longman English Interactive),则把诊断性测试与成就性测试整合在一起。Longman English Interactive 2003版在测验和考试中还包含录像内容。
目前,利用计算机进行口语测试以及交互式测试的探索已经开始。应用语言学中心推出的“计算机口语能力面试系统”(Computerized Oral Proficiency Interview)以及随后的“模拟口语能力面试系统”(Simulated Oral Proficiency Interview)等都是最先进的英语口语计算机交互式考试系统。
其它各种类型的“计算机自适应测试”系统还有很多。例如,由国防语言研究所(Defense Language Institute)开发并实施的英语理解水平测试(English Comprehension Level Test);由商业英语测试服务处(The Business Language Testing Service)研制的ACT ESL评测(ACT ESL Placement Test);由美国教育考试服务中心研制的基于计算机的TOEFL考试(the Computer-based TOEFL)中的“结构与写作表达评测”(The Structure and Written Expression Section)以及听力评测(the Listening Section);由COMPASS/ESL研制的“COMPASS电子写作”(COMPASS e-Write)系统等。
IntelliMetric是一个投资超过千万美元的商用系统,能够模仿人工评卷,对作文的内容、形式、组织和写作习惯进行评分。它集中了人工智能、自然语言处理、和统计技术的长处,是一种能够内化专家级评卷员集体智慧的学习机。IntelliMetric能够评阅多种语言的作文,如:英语、西班牙语、以色列语、印度尼西亚语、荷兰语、法语、葡萄牙语、德语、意大利语、阿拉伯语、以及日语等。
贝叶斯作文评测打分系统(Bayesian Essay Test Scoring sYstem,简称BETSY)是由美国教育部投资,由马里兰大学的鲁德勒(Lawrence M. Rudner)开发的基于训练语料的文本分类程序。该系统使用了包括内容与形式特定方面的一个大型特征集,根据优,良,合格,不合格等类型,把一篇作文划分到一个最合适的类型中去。文本分类所采用的底层模型是多项式模型和伯努利模型,两者都属于朴素贝叶斯模型。
总之,“基于计算机的测试”和“计算机自适应测试”的各种语言测试系统已从最初的只限于客观题的测评,发展到了主观题的测评,从小规模、试验性的低风险测试,发展到了大规模的高风险测试。
Ordinate Corporation公司开发了自动口语测评系统PhonePass。该系统利用语音识别技术来测评学生在重复发某个词的音、语音语调、阅读流利程度、重复流利程度等方面的精确性。PhonePass系统还设计了一种算法,可以从说各种英语地区方言和社会方言的英语本族语人的大规模口语语料库中获取参数,匹配评分。
2005年,为我国学者梁茂成研制了中国学生英语作文的自动评分系统。他对学生作文的语言(包括流利度、准确度、和复杂度)、内容、和组织三个方面进行了特征的自动抽取,吸取PEG和IEA的优点,并作出适当改进,构建了中国学生英语作文自动评分模型。他收集了人工评分的220篇作文,120篇作为训练集,100篇作为验证集,采用线性回归方法,得到回归方程,用于验证集作文的评分,获得了较高的评分准确率,与人工评分的相关性最高达到0.837。
可见,目前利用计算机自动测评英语主观题的技术已经逐步成熟,并且已经走向实用化了。
葛诗利在本书中研究的计算机作文评分和反馈属于主观题自动测评的领域,而且他评测的对象又是中国非英语专业的大学生的英语作文,这样的作文英语不地道,具有“中介语”的性质。非英语专业大学生在我国人数众多,亟需大量的写作训练以提高语言运用能力,研究一种通用计算机作文评分和反馈方法,具有重要的应用价值。
我怀着极大的兴趣通读了全书,觉得本书具有如下的特点:
第一, 研究了一种通用的计算机作文评分方法。在大学英语写作教学中,大量的平时练习和各种考试涉及的作文题目是多种多样的;如果对于每次练习、每次考试都要进行语料训练,人工标注的工作量就相当大,而且由于特定练习和考试的样本规模较小,样本特征的统计意义差,训练效果不可能尽如人意。因此,研究非特定题用的评分系统很有必要。葛诗利研究的这种通用评分方法,适用于非特定题目的作文评阅,具有创新性。
第二, 重视反馈的研究。反馈在大学英语写作教学的作文评阅中的重要性甚至高过作文的评分,因为分数只是说明这篇作文写得好坏,是对已完成作品的评价,而有价值的反馈能告诉写学生作文中存在的问题,使其能明白自己语言使用的偏误,并在以后的写作中自觉地更正,注意前车之鉴,避免重蹈覆辙。
第三, 重视词汇在计算机作文评分和反馈中的作用。英国功能语言学的奠基人弗斯(Firth)认为,词汇是语言描述的中心。1957年,Firth首先提出了搭配和类连接理论,在某种程度上将词汇内容从语法和语义学中分离出来。数十年来,新弗斯学者坚持以词汇研究为中心,强调词汇与语法的辩证关系,深入发展了弗斯的词汇理论。韩礼德(Halliday)提出词汇不是用来填充语法确定的一套空位(slots),而是一个独立的语言学层面;词汇研究可以作为对语法理论的补充,却不是语法理论的一部分。近年来,语料库证据支持的词汇学研究蓬勃发展。越来越多的实证研究表明,词汇和语法在实现意义时是交织一起的,必须整合描述。词汇是话语实现的主要载体,语法则起到管理意义、组合成份和构筑词项的作用,而不是更多。美国语言学家史密斯(Smith)甚至认为,词汇是语言间所有差异的潜在所在。排除词汇差异这一因素,人类的语言只有一种。葛诗利在本书中采用作文长度、词汇多样性、分级词汇分布作为词汇特征,在词汇分布中来剔除题目词和改进词表。对于面向大学英语写作教学通用评分的目标,使用这种少而精的词汇特征集合效果良好。
第四, 引入短语特征,包括动词短语数量和每个短语的使用与否。短语特征的选取基本都是内容无关的。两项特征都对作文评分具有较大贡献,而且短语模板的使用对学生作文中短语使用情况的反馈达到了较高的准确率。
第五, 引入一级词语的二元接续特征。对于学生作文中最常用词汇的共现错误进行检查,报错准确率较高,对学生语言使用错误的反馈具有针对性。
第六, 采用聚类方法发现跑题作文
本文的工作说明,计算机在统计、匹配和存储方面有远胜于人的能力。只要
恰当地选定应用目标并设计好方法,许多看似智能性十分强的工作也可以由计算
机完成。计算机在面向大学英语教学的汉英中介语一次训练多次使用的非特定题
目作文评阅领域是大有可为的。
但是,另一方面,本文将各种特征集成以后,自动评分的准确率只有 75%左
右。查错反馈仅限于高频词语的邻接及常用短语的使用形式,而且即使在这十分
狭窄的范围内,反馈的准确率和召回率也比较有限。本文的研究实践说明,中介
语作文评阅完全由机器来自动完成是不现实的。这是由自然语言处理和中介语处
理这双重的复杂性所决定的。因此,研究人机结合的中介语评阅方法,设计一种
人和机器最佳结合的评阅流程,使人和机器最大限度地相互取长补短,应该是中
介语作文评阅的发展方向。

