借 AI 实现作文阅卷自动化

陌上秋草

<h5>刘桓中，2025年8月</h5> 作文考试中，阅卷历来是件难事。尤其是大规模考试，耗费大量人力物力，评分也很难做到客观公正。如今很多试题都能借助电子手段自动阅卷，选择题几乎是全自动阅卷。一些科目的主观题虽难以自动化，考生能把要点说清就行，不像作文要求这么高。作文阅卷人如果自己写作水平不高，很难客观评判学生的作文。年复一年，作文阅卷始终是教育圈的一大难题。<div><br>如今有了 AI，情况大为不同。很多人在想：既然 AI 这么能写，让 AI 批阅作文是否可行？<br></div> <h1><b>作文机器阅卷已进入成熟期</b></h1> 要论作文机器阅卷，美国考试服务中心 ETS 出手最早。2005年，ETS 推出改进版机器评分软件 E-rater，首先用于托福和 GRE 考试。那时 AI 尚显稚嫩，E-rater 是用来辅助阅卷，也就是人工阅卷和机器阅卷并行，相互参照，以减小人工阅卷的主观误差。随着AI 快速发展，E-rater 也有望提高智能，逐渐取代人工阅卷。<div><br>国内发达地区近年也有小规模机器阅卷尝试，如上海、浙江、广东和香港都有实例。在国家层面，教育部也联合高校做过局部尝试。这些尝试是把机器阅卷作为辅助手段，以检验其效能。</div><div><br>AI 自动写作研发历史悠久，但长期来进展缓慢。这两年神经网络技术爆发式突破，智能生成大模型纷纷出台，AI 写作能力也有了惊人进展。从技术突破到技术应用总有一段消化期。期待最新AI 技术能早日在教育圈落地。</div><div><br>第三方开发者往往动作很快，国内外涌现不少 APP 和网站，专注于作文评测和批改，吸引了大量用户。借助 AI 给自己的作文打分，虽不知分数打得是否合理，却能与他人的分数比较，也可观察自己的进步，很有实用价值。<br></div><div><br></div> <h1><b>大规模考试数据录入问题</b></h1> AI 技术用于大规模作文考试，时机已渐成熟，但要首先解决数据录入问题。大规模上机考试目前还很难实施，仍要沿用纸面答卷模式，关注点是如何让自动文本识别达到考试要求。<div><br>手写体文本识别技术现在已很成熟，问题是：考试不同于日常应用，任何一份卷子都不能因识别率低影响评分。好在这问题有应对办法。识别率偏低时，机器自己有感知，可以给这种卷子打上标记，单独拿出来做二次复核。</div><div><br>为提高识别率，中文作文考试应该用方格纸，每格写一个字，标点也占一格，如同投稿时那种写法。这样就避免了字与字的连笔纠缠导致误判，也迫使考生将字写得工整些。这是中文写作的独有优势。当然，对考生硬笔写字方法也应该有要求。综合各种措施，整体识别率达到考试要求应该没问题。</div><div><br>英语作文考试无法用方格纸。但英文字母比汉字少得多，机器自动识别本就有巨大优势，只要考生写字不过分潦草，识别率也没有多大问题。<br></div><div><br></div> <h1><b>改进作文考试模式</b></h1> 传统人工审阅作文，弊病之一是标准难以一致。即便有统一阅卷准则，事先经过培训，也难以避免人为因素干扰。命题作文这种考试形式就是鼓励考生发散式思维，作文一发散，阅卷就不好办。借助 AI 阅卷可以减小阅卷人差别的影响，但对作文本身的发散性同样无能为力。<div><br>命题作文不能改吗？例如，改成缩写作文和扩写作文。缩写和扩写由来已久，已被教育界广泛采用，但在大规模考试中只是偶然出现，成不了主流。这应该归因于对作文考试目标的误解。很多人希望作文考试让考生尽情发挥，以展示其写作才能。如此推论，是否其他科目也从做考题改为写论文？写论文才能让考生尽情展示创造力。那当然很荒唐，因为基础教育重点不在那里。那么，写作不也同样如此？要考的是学生的基础写作能力，不是看谁适合当作家。</div><div><br>缩写和扩写不仅降低了发散性，让作文阅卷更容易保持统一标准，还能有效避免猜题、押题。每年都有一批考生猜中题目，致使一些地方大搞集体猜题，把功夫用偏了。这实在不应该。<br></div><div><br></div> <h1><b>把阅读理解与作文合二为一</b></h1> 目前AI 自动写作比人类顶尖水平还差很多，但已超过一般人水平。其最大优势是涵盖面广，逻辑清晰，描述手法多样，所以最适合评判缩写作文。为避免答卷同质化，缩写率必须足够大，原文必须足够长。<div><br>目前的高考语文阅读理解题已走入误区：题型难度大，主观题做题时间长。这会严重带偏基础语文教育。中小学语文教学应该从啃书转向读书，鼓励学生大量、广泛阅读，通过阅读增长知识，认识世界，提高理解力、判断力和表达力。不应像古人那样逮住几本经典死啃。语文考试应选用多数人较易理解的文本，增加长度，全部用选择题考察阅读速度。学生想提高阅读速度，除了平日大量阅读，别无他法。这才是对语文教学的正确引导。</div><div><br>至于高考中的作文题，可以从阅读理解题中选择一部分，要求考生缩写。这样他们就不必为缩写再读额外篇章，能腾出很多时间用于写作。<br></div><div><br></div> <h1><b>从不同角度检验AI阅卷的信度</b></h1> AI取代人工阅卷，首先要通过实际考试检验AI阅卷的信度。近年来AI技术迅猛发展，为这种检验提供了有利条件，完全有可能让AI阅卷从尝试走向实用。<div><br>AI开发者和教育机构都倾向于借大规模考试来检验。其实，做这种检验并不需要很大样本，一所学校同年级几百个考生，样本已足够大。在学校内部做这种研究有很多有利条件。例如，中学可以组织理科教师和文科教师合作，以日常语文和英语考试为统计样本，选择各种不同 AI 工具来检验。经过多次检验，可以发现信度较高的 AI 工具作为继续研究的重点。</div><div><br>AI开发者都非常看重产品的效能。学校做的实验研究为AI产品提供了第一手参照。尤其是那些效能领先的产品，必然欢迎学校的研究成果，很可能会主动寻求合作，加速AI 阅卷的落地。<br></div><div><br></div> <h1><b>前景展望</b></h1> AI 一旦找到突破口，必然会加速发展，这一点毋庸置疑。不久的将来，AI 阅卷会成为教育测量的主流。它不仅会用于大规模考试，也会用于各学校内部的考试，甚至会成为日常教学的必备工具。<div><br>AI 的发展也会推动教育方法的大变革，进而导致教育理念和教育体制的深刻变革。将来的学校会是什么样？教师的角色会有什么变化？学生还会像现在这样学习吗？这些问题不久将提上日程，成为众议目标。无论是教育主管部门，还是教师、学生和家长，对此都应有思想准备。</div><div><br>也许变化会来得很突然，让所有人措手不及。<br></div> <h5><b>未来学校展望</b></h5>