<h5>刘桓中,2025年8月</h5> 作文考试中,阅卷历来是件难事。尤其是大规模考试,耗费大量人力物力,评分也很难做到客观公正。如今很多试题都能借助电子手段自动阅卷,选择题几乎是全自动阅卷。一些科目的主观题虽难以自动化,考生能把要点说清就行,不像作文要求这么高。作文阅卷人如果自己写作水平不高,很难客观评判学生的作文。年复一年,作文阅卷始终是教育圈的一大难题。<div><br>如今有了 AI,情况大为不同。很多人在想:既然 AI 这么能写,让 AI 批阅作文是否可行?<br></div> <h1><b>作文机器阅卷已进入成熟期</b></h1> 要论作文机器阅卷,美国考试服务中心 ETS 出手最早。2005年,ETS 推出改进版机器评分软件 E-rater,首先用于托福和 GRE 考试。那时 AI 尚显稚嫩,E-rater 是用来辅助阅卷,也就是人工阅卷和机器阅卷并行,相互参照,以减小人工阅卷的主观误差。随着AI 快速发展,E-rater 也有望提高智能,逐渐取代人工阅卷。<div><br>国内发达地区近年也有小规模机器阅卷尝试,如上海、浙江、广东和香港都有实例。在国家层面,教育部也联合高校做过局部尝试。这些尝试是把机器阅卷作为辅助手段,以检验其效能。</div><div><br>AI 自动写作研发历史悠久,但长期来进展缓慢。这两年神经网络技术爆发式突破,智能生成大模型纷纷出台,AI 写作能力也有了惊人进展。从技术突破到技术应用总有一段消化期。期待最新AI 技术能早日在教育圈落地。</div><div><br>第三方开发者往往动作很快,国内外涌现不少 APP 和网站,专注于作文评测和批改,吸引了大量用户。借助 AI 给自己的作文打分,虽不知分数打得是否合理,却能与他人的分数比较,也可观察自己的进步,很有实用价值。<br></div><div><br></div> <h1><b>大规模考试数据录入问题</b></h1> AI 技术用于大规模作文考试,时机已渐成熟,但要首先解决数据录入问题。大规模上机考试目前还很难实施,仍要沿用纸面答卷模式,关注点是如何让自动文本识别达到考试要求。<div><br>手写体文本识别技术现在已很成熟,问题是:考试不同于日常应用,任何一份卷子都不能因识别率低影响评分。好在这问题有应对办法。识别率偏低时,机器自己有感知,可以给这种卷子打上标记,单独拿出来做二次复核。</div><div><br>为提高识别率,中文作文考试应该用方格纸,每格写一个字,标点也占一格,如同投稿时那种写法。这样就避免了字与字的连笔纠缠导致误判,也迫使考生将字写得工整些。这是中文写作的独有优势。当然,对考生硬笔写字方法也应该有要求。综合各种措施,整体识别率达到考试要求应该没问题。</div><div><br>英语作文考试无法用方格纸。但英文字母比汉字少得多,机器自动识别本就有巨大优势,只要考生写字不过分潦草,识别率也没有多大问题。<br></div><div><br></div> <h1><b>改进作文考试模式</b></h1> 传统人工审阅作文,弊病之一是标准难以一致。即便有统一阅卷准则,事先经过培训,也难以避免人为因素干扰。命题作文这种考试形式就是鼓励考生发散式思维,作文一发散,阅卷就不好办。借助 AI 阅卷可以减小阅卷人差别的影响,但对作文本身的发散性同样无能为力。<div><br>命题作文不能改吗?例如,改成缩写作文和扩写作文。缩写和扩写由来已久,已被教育界广泛采用,但在大规模考试中只是偶然出现,成不了主流。这应该归因于对作文考试目标的误解。很多人希望作文考试让考生尽情发挥,以展示其写作才能。如此推论,是否其他科目也从做考题改为写论文?写论文才能让考生尽情展示创造力。那当然很荒唐,因为基础教育重点不在那里。那么,写作不也同样如此?要考的是学生的基础写作能力,不是看谁适合当作家。</div><div><br>缩写和扩写不仅降低了发散性,让作文阅卷更容易保持统一标准,还能有效避免猜题、押题。每年都有一批考生猜中题目,致使一些地方大搞集体猜题,把功夫用偏了。这实在不应该。<br></div><div><br></div> <h1><b>把阅读理解与作文合二为一</b></h1> 目前AI 自动写作比人类顶尖水平还差很多,但已超过一般人水平。其最大优势是涵盖面广,逻辑清晰,描述手法多样,所以最适合评判缩写作文。为避免答卷同质化,缩写率必须足够大,原文必须足够长。<div><br>目前的高考语文阅读理解题已走入误区:题型难度大,主观题做题时间长。这会严重带偏基础语文教育。中小学语文教学应该从啃书转向读书,鼓励学生大量、广泛阅读,通过阅读增长知识,认识世界,提高理解力、判断力和表达力。不应像古人那样逮住几本经典死啃。语文考试应选用多数人较易理解的文本,增加长度,全部用选择题考察阅读速度。学生想提高阅读速度,除了平日大量阅读,别无他法。这才是对语文教学的正确引导。</div><div><br>至于高考中的作文题,可以从阅读理解题中选择一部分,要求考生缩写。这样他们就不必为缩写再读额外篇章,能腾出很多时间用于写作。<br></div><div><br></div> <h1><b>从不同角度检验AI阅卷的信度</b></h1> AI取代人工阅卷,首先要通过实际考试检验AI阅卷的信度。近年来AI技术迅猛发展,为这种检验提供了有利条件,完全有可能让AI阅卷从尝试走向实用。<div><br>AI开发者和教育机构都倾向于借大规模考试来检验。其实,做这种检验并不需要很大样本,一所学校同年级几百个考生,样本已足够大。在学校内部做这种研究有很多有利条件。例如,中学可以组织理科教师和文科教师合作,以日常语文和英语考试为统计样本,选择各种不同 AI 工具来检验。经过多次检验,可以发现信度较高的 AI 工具作为继续研究的重点。</div><div><br>AI开发者都非常看重产品的效能。学校做的实验研究为AI产品提供了第一手参照。尤其是那些效能领先的产品,必然欢迎学校的研究成果,很可能会主动寻求合作,加速AI 阅卷的落地。<br></div><div><br></div> <h1><b>前景展望</b></h1> AI 一旦找到突破口,必然会加速发展,这一点毋庸置疑。不久的将来,AI 阅卷会成为教育测量的主流。它不仅会用于大规模考试,也会用于各学校内部的考试,甚至会成为日常教学的必备工具。<div><br>AI 的发展也会推动教育方法的大变革,进而导致教育理念和教育体制的深刻变革。将来的学校会是什么样?教师的角色会有什么变化?学生还会像现在这样学习吗?这些问题不久将提上日程,成为众议目标。无论是教育主管部门,还是教师、学生和家长,对此都应有思想准备。</div><div><br>也许变化会来得很突然,让所有人措手不及。<br></div> <h5><b>未来学校展望</b></h5>