视觉中国 供图
国际大规模教育质量评价项目引领了考试评价理论和技术的发展趋势,其价值不仅在于比较评价各国教育质量如何,更是检验各国教育改革效果的客观手段。
国际教育成就评价协会(简称IEA)成立于1958年,是开展国际教育质量评价最早和评价范围最广的研究机构,是全球大型教育评价项目的开创者。该协会目前有67个正式成员国和地区,超过100个教育系统参与了该协会的评价项目。
国际教育成就评价协会的测评项目构建了人力资源可持续发展评估体系。该协会的国际数学和科学趋势研究(TIMSS)、阅读素养评价(PIRLS)、信息素养评价(ICILS)和公民素养评价(ICCS)等测评项目的结果被联合国用于可持续发展评价以及教育2030指标达成度评价。2019年,欧盟宣布出资支持成员国参加2023年度信息素养测试并将结果用于制定欧盟教育发展指标和考察未来劳动力准备情况。此外,国际教育成就评价协会还承担了经济合作与发展组织(OECD)的教师专业能力发展测试和成人文化素养测试等任务。
关注终身学习能力
从国际教育成就评价协会的测评体系来看,虽然在具体项目上聚焦于较为微观领域的改革,如课程体系等,但其评价体系和框架的理论基础则体现了终身学习思想和21世纪核心素养理念,通过问卷调查分析如何培养这些终身发展需要的素养,以及各地区教育事业的可持续发展情况。
测评项目关注课程实施的质量,选择四年级、八年级学生为测试对象被各国教育质量监测效仿。作为过程性评价,该协会整合了各国课程标准确定测量内容,能够及时、更具针对性地为参与国和地区教育质量提高提出改进建议,而不是等到义务教育结束后才发现问题。2015年的调查显示,大约一半的参与单位正在修订其数学和科学课程标准,而这些国家和地区都依据了国际数学和科学趋势研究的测评数据进行改革。美国数学共同核心课程标准在该测评的启发下缩窄了覆盖面并增加了深度。俄罗斯近年依据阅读素养诊断分析结果开展全民阅读计划和家庭阅读项目。
近年来,国际教育成就评价协会响应信息化社会发展趋势。测验的信息化程度不断提高,采用人机交互实现高阶思维能力的测试,如基于计算机模拟在线阅读,测试学生阅读网络信息的能力。此外,该协会的各类测试考虑到了数字化时代学生应具有的素养。率先将公民素养测评发展到参与社会生活的素养,关注社会多样性以及数字化时代的公民责任和素养。这项测评不仅关注学生的计算机使用能力、计算能力、生产信息的能力,还关注学生表达信息的能力以及适应信息技术迅速变化的能力等。信息素养评价主要测量学生计算机和信息素养、计算思维,评价学生对学习、工作和参与数字世界的准备情况,使用计算公式识别真实世界的问题的能力,以及评价和开发解决这些问题的算法的能力,检验学校如何使用数字技术发展学生的核心素养,支持各国决策,帮助学生对不断变化的数字技术时代做最好的准备。
反映国际教育改革动态
从评价技术角度看,检验一个教育政策的效果可以进行自我前后对比,但与其他国家进行横向比较则提高了评价的科学性和准确性,能够厘清目标变化是缘于政策的作用还是社会变化的作用。国际教育成就评价协会的测评项目是一个教育实验场,解决了教育政策评估需要设置对照组的伦理问题和科学性问题,也有助于各个国家相互了解教育政策和环境。
参与国际数学和科学趋势研究2015的国家和地区小学四年级数学一年上课时间平均151个小时,科学为69个小时。我国小学一学年一般36—42周,实施大课间政策后每课时40分钟,每周4—5节数学课,则四年级数学一年的上课时间为96—140小时;科学课普遍一周2课时,则一年48—56小时。由此可以看出,相对于国际平均水平,我国小学四年级的数学和科学课时偏少,但由于我们没有进入这个实验场,就无法准确判定我们在少课时情况下的教育质量和效率如何。但在参与测评的国家和地区中,有的在校上课时间看似很短,是因为学生活动没有计入在校时间,并且学生课间休息时间很短。这个经验告诉我们,有统一标准的国际性测评能够提供更加有效的比较,能让我们准确判断是否需要降低课程难度、减少教材内容、减少在校时间等。
国际教育成就评价协会的项目兼顾了评价的引领性和被评者的参与性,各参与单位不是被动的被评价者,而是评价的参与者、建构者。其国际学业成就评价项目并不是用某国的课程标准来评价某国的学生,而是成员国家和地区共同参与测评框架和试题的研制,以共性的标准为主、评分考虑课程进度,客观考量各国学生的培养质量,可比性更强,与教育教学的联系也更加紧密。参与国家和地区平等输出与交流教育理念和标准,有助于深度了解其他国家的教育改革动向,以及教育改革的国际趋势,确保本地区跟得上时代步伐。
《国际数学和科学趋势研究20年》报告显示各国课程改革有四大特点。第一,数学和科学是学校整体学业课程的核心,占用了1/4到1/3的可用教学时间。第二,大约90%的2015年测评参与国家和地区制定了将信息技术融入数学和科学教学的课程指南,相关指南覆盖的范围很广,既有关于如何把通信技术整合到教学中的一般性建议,也有关于如何利用表格和图形解决问题、处理动态几何以及表达数据的具体建议。第三,各国越来越明确地在课程实施中关注过程性技能,尤其是数学教育注重问题求解、推理和交流,科学教育注重探究和调查。第四,课程越来越有挑战性。高年级课程范围的一些专题已经被下放到低年级,如数据分析和统计被包括在四年级的数学中,自变量和因变量的教学放到了五年级的课程中。这些内容对于培养理性思维非常重要。
创新大规模学业测评方法
国际教育成就评价协会最初由科研人员创立,60年来坚持学术性立场。研发工作总部设置在德国汉堡,同时与美国的教育考试服务中心(ETS)合作基础性研究,数学科学素养和阅读素养评价的具体研发工作设置在美国,信息素养评价研发工作主要设置在澳大利亚,公民素养评价研发在英国,聚集了测评技术最发达的几个国家的技术力量,国际协作带动各国测评技术的发展也让该协会的研究保持了技术领先。
国际教育成就评价协会率先使用项目反应理论、试题矩阵设计等测量技术,并形成了大规模测评的工作和协作规范。各测评项目的测试目标、框架和方法也始终站在国际前沿。
2015年国际数学和科学趋势研究的科学评估框架涉及科学实践,其中包括在日常生活和学校学习中获得的技能。考查的五种实践技能包括,基于观察提出问题和研究假设、形成检验假设的证据、处理数据探寻变量间的关系、回答研究问题、就证据展开讨论说明结论的可推广性。由此可见,该测评中科学实践所需的理解和技能不是单独评估的,而是置于一定的内容领域情境下和认知领域的思维过程中,人机互动将更有助于科学实践素养的测试。从评价角度研究科学实践、研究如何培养学生的实践能力和创新能力的方法,也值得我们借鉴。
教育评价技术不是课业负担和人才培养、选拔问题的万能药,但提升评价技术有利于问题的缓解。如何提高考试设计的效度,让考试设计体现课程标准蕴含的思想,让考试结果体现学生的综合素质和高阶思维能力,我们应向更多的国际测评项目深度学习。
(作者单位:中国教育科学研究院)