学业水平测试如何抽样

首页 > 教育新闻 > 教育杂谈/1970-01-01 / 加入收藏 / 阅读 [打印]

  ■周群

  目前我国大规模教育考试采取封闭的经验性考试开发模式,先根据知识内容、认知技能配比方案抽取考试内容,形成双向细目表,再据此进行试题的命制和磨制,最后组卷。因此,对考试内容的抽样,是我国考试开发的核心环节。而在实际开发中,这个环节似乎始终未能引起足够的重视。

  根据抽样理论的逻辑,考试内容抽样涉及从哪里抽样、怎样抽样和抽样多少等三个问题。

  从认知领域内容标准抽样

  学业水平考试,顾名思义,内容应从学业标准,即课程标准中抽样。课程标准的实体是内容标准,规定了学生各学段的内容标准总量。从课程知识与技能、过程与方法、情感态度价值观的三维目标看,内容标准涉及认知、动作技能、情感等多个领域。但大规模学业水平考试(不包括实验等技能考试)都是纸笔考试,只能考查认知领域的内容,考试结果只能解释为学生在特定学段,所习得的学科认知结构,和所达到的认知领域学业水平。如果想要全面评价学生学业水平,就需要开发其他非纸笔的考试及其评价体系。

  采用分层抽样法

  怎样抽样就是指抽样方法的选择。学业水平考试的结果主要用于评定和诊断考生学业水平、教师教学效果、学校或学区教学管理绩效,其中评定和诊断考生学业是基础。评定是从总体上判断考生达到的学业水平,诊断是为获得考生学业各方面表现优劣的信息,从而促进学业改进。因此,必然采用分层抽样方法。分层抽样设计需要考虑分层变量、抽样层比例、抽样层内部抽样分布等。

  分层变量的选择取决于对考试结果的诊断到哪一层。国外已有学业考试产品和国内考试实践的大多数学业诊断,都从内容领域和认知技能类目两个维度分别进行,考试内容抽样可以此作为分层变量。

  选择分层变量后,就要考虑根据怎样的比例抽样。内容领域和认知技能类目的抽样层比例可以由学科、课程、测量学、心理学等专家组成团队,通过技术方法和经验判断来协商决定。其中用到的技术手法主要是课时累加法,这种方法用于规定内容领域的比例较为简单,但用于对认知技能类目的比例规定,则需要进行较大范围的内容标准与课时关系的调查。

  抽样层内部的分布指特定内容领域中内容主题之间、重点和非重点内容标准之间的合理分布,特定认知技能类目中各认知技能的合理分布。为确保内容领域样本的代表性,考试内容应尽可能覆盖到每个内容主题。同理,考试文件中规定的认知技能都应该有试题考查。但国内对各学科课程内容领域下的内容主题,划分得较多、较细,在实际抽样中,较难覆盖到每个内容主题,即便满足了抽样分布要求,也有可能因没有突出重点内容主题而弱化样本代表性。另外,认知过程的复杂程度与知识内容的综合度有较强相关性,若抽样分布过于分散,就无法真正考查高水平认知技能,无法真正达到课程目标。因此,考试开发中,应通过专家团队的论证,适当结构化地归并内容主题,突出重点,呈现完整的认知结构。

  以内容标准抽样率衡量

  “抽样多少”是内容标准的抽样率问题,是指试卷包含的内容标准数量占总体的比例。

  根据Webb模型的标准,在每条内容标准权重相等的情况下,每个标准类目的抽样率应达到50%以上。Achieve模型也认为每个标准类目的抽样率在50-66%之间为“可接受”。由此可见,50%是学业水平考试内容标准抽样率的底线。在实际抽样中,假定内容标准抽样率为50%,则特指在确保各内容领域抽样率都达到50%的前提下,总抽样率达到50%。

  当前,影响我国基于标准的教育考试内容标准抽样率达标的,不仅是考试时间和题量、试题命制技术等因素,更主要的是由内容标准描述不当而引起的总量增加问题。课程内容的“一尺宽,一寸深”(mile wide, inch deep)问题在我国课程标准中同样存在。(作者单位:上海市教育考试院)

  • 最新内容
  • 相关内容
  • 网友推荐
  • 图文推荐