乐于分享
好东西不私藏

今日推荐:开发一套科学素养评估工具:以葡萄牙语九年级学生为例

今日推荐:开发一套科学素养评估工具:以葡萄牙语九年级学生为例

编译:张成良 东南大学儿童发展与教育研究所、东南大学脑与学习科学系

研究生导师:李骏扬

作者:Marcelo Coppi;Isabel Fialho;Marí lia Cid

热点解析

科学素养:科学素养对现代学生的培养越来越重要,随之而来的如何进行教育评价是值得探究的问题。“科学素养测评”成为热议焦点,背后折射出全社会对科技创新与公民素质的双重关切。科学素养不仅是知识储备,更是批判思维、实证精神与解决实际问题的能力。测评正在导向正从单一知识考核转向综合性能力评估,引发教育转型、人才标准重塑等深层讨论。

【摘要】当前适用于评估学生科学素养技能熟练程度的工具极为匮乏。本文详细阐述了 ALCE 仪器的设计流程以及效度证据的收集过程。该仪器聚焦于评估九年级结束时学生在认知理解领域的科学素养技能,涵盖对现象的分析与评价,同时涉及自然科学和物理化学学科的相关内容、知识及技能在各类问题与日常场景中的应用。研究通过收集工具内容与内部结构相关的效度证据,并结合当前评估工具验证的相关文献,为 ALCE 仪器在九年级结束时评估学生科学素养水平的适用性提供了有力支撑。ALCE 仪器有望成为实用的教学辅助工具,助力教师识别教学目标与学生科学素养水平之间的差距。

【关键词】:ALCE;基础教育;评估工具;学习目标;效度

1 介 绍

1.1科学素养定义

经济合作与发展组织(OECD)将科学素养定义为 “作为反思型公民参与科学相关问题和科学思想讨论的能力”,具备科学素养的人愿意参与有关科学技术的理性论述。米勒是较早对科学素养作出定义的研究者,他认为科学素养包括掌握基本科学概念、理解科学事业以及知晓科学技术对社会的影响。Bybee 则将科学素养阐释为 “个人所具备的科学知识,以及运用这些知识识别科学问题、解释科学现象并就科学相关问题得出基于证据的结论的能力”。而 DeBoer 提出,科学素养是一个涵盖多个具有历史意义且随时间演变的教育方面的广泛概念,可等同于公众对科学的理解。

尽管科学素养的定义不尽相同,但所有定义都强调学生理解科学过程并在实际日常情境中运用科学知识的能力。这一概念注重知识与理解的广度,旨在服务于通识教育,而非为特定的科学技术职业做准备。此外,科学素养还应包含科学信息生命周期各阶段相关的知识与技能,涉及对科学事业、科学产品与社会关系的理解,以及对科学传播过程及其被公众接纳情况的认知。

基于此,科学教育工作者普遍认为,创新教学方式对于科学素养的培养至关重要。这些教学方法需妥善处理科学及其产品与日常生活之间的复杂关联,运用有效的教学实践,助力学生应对社会面临的科学技术挑战。在部分国家,科学素养技能的培养一直是科学教育的重点,与之相呼应的是,学界对探索评估学生科学素养技能发展的机制与工具抱有浓厚兴趣。

1.2科学素养评估工具定义

目前,已开发的科学素养评估工具中,许多仅针对科学素养的个别方面或特定学科能力,且主要面向中学生和大学生。同时,大量相关研究在评估工具的验证过程阐述上存在欠缺,这在一定程度上限制了研究结果的应用。对于九年级,专门针对该阶段学生的科学素养评估工具更是稀缺。Coppi 等人的文献综述显示,在已确定的 13 种工具中,仅有 3 种适用于该教育周期的学生,因此,开发新的评估工具势在必行。

在葡萄牙,九年级具有独特性,这也凸显了对学生科学素养发展的重视。该阶段不仅为学生的中等教育学习奠定基础,还在教学方法与策略、内容专业化、科学科目数量以及授课教师数量等方面呈现出新的特点。在教育周期的过渡中,学生从仅学习一门由单一教师授课的自然科学学科,转变为学习由不同教师授课的自然科学和物理化学两门独立学科。此外,第三周期是所有学生都必须参与科学科目的最后阶段,进入中等教育后,仅有选择科学和技术课程的学生才会继续学习旨在培养科学素养的生物和地质、物理和化学等课程。

1.3研究设计

鉴于上述情况,本研究致力于描述 ALCE 仪器的开发过程及其在葡萄牙九年级学生中的应用结果,并围绕以下研究问题展开探讨:(1)如何开发适用于九年级结束时学生科学素养评估工具并收集其效度证据?(2)ALCE 仪器是否能收集到足够的效度证据,使其结果可用于相关决策?(3)九年级结束时学生的科学素养水平究竟如何?(4)具备科学素养的学生比例有多少?(5)教师应如何运用 ALCE 仪器?

ALCE 仪器由 34 个题目构成,采用 “真 – 假 – 不知道” 的答题形式,题目背景均围绕现实世界的情况和问题设计,例如了解岩石中化石记录对构建地球地质记忆的重要性等。该仪器的开发过程主要包括:明确当时有效的葡萄牙主要课程文件中关于科学素养技能及基准的要求;通过试点测试收集基于仪器内容和内部结构的效度证据;结合专家评审和心理测量审查结果对仪器进行优化;最后在葡萄牙大陆多所学校的学生中应用仪器的最终版本。

在开发 ALCE 仪器时,研究团队综合考虑了九年级课程中的生物、地质、物理和化学四个科学领域。题目设计力求避免依赖学生对学科专有知识的死记硬背,如 “什么是光合作用?”“光速是多少?” 等,而是着重考查学生运用所学科学技能解决问题、解释日常现象的能力。这一设计理念源于对科学素养的定义,即培养学生理解科学、解释自然现象、解决日常问题、积极参与科学相关辩论以及认识科学在社会中应用及其影响的科技能力。因此,该仪器不仅旨在评估学生对科学内容的掌握程度,更注重考查学生在实际生活中运用这些知识的能力。

2 仪器开发(ALCE)

2.1 流程概述:有效性

本研究采用多种方法来确定 ALCE 仪器的有效性,重点收集了基于仪器内容和内部结构的证据。基于内容的有效性证据包括对相关工具所涉及内容领域的适当性进行逻辑或经验分析、该领域与评估结果解释的相关性分析,以及专家对题目与所处理内容之间的对应关系、陈述措辞和题目要求程度等方面的分析。

2.2 基于测试内容收集效度证据

在为 ALCE 仪器的开发收集基于测试内容的效度证据过程中,研究团队借鉴了 Pasquali 提出的阶段划分,具体如下表1所示:

表1

2.2.1 认知领域的定义

ALCE 仪器所包含的认知领域的确定,是以科学素养的定义为基础的。该定义建立在先前讨论的概念之上,即 “对科学事业的理解以及有意识地运用科学技术知识来解决问题、解释日常生活中的自然现象,并积极参与涉及社会的科学问题的辩论,使个人能够以公民的身份行事”。

2.2.2 内容范围的定义

在收集有效性证据过程的第二阶段,研究团队利用 ALCE 仪器明确了要评估的内容范围,因为该仪器的题目仅能呈现内容的代表性样本。结合葡萄牙的教育实际,研究团队选取了九年级物理和自然科学领域当时有效的四个主要课程文件,分别是:《九年级课程物理和自然科学》《自然科学基本学徒制》《物理化学基本学徒制》以及《义务教育学生概况》。

在确定了课程文件之后,研究团队通过三个阶段的文献分析来筛选内容。第一阶段,列出每个文件中与物理和自然科学领域相关的所有内容和技能。第二阶段,为验证这些内容和技能之间的对应关系,进行跨文献比较,仅选择课程指南和基本学习中与 BFSL 存在一定相关性的内容和技能。例如,将两个课程文件中与 “生态” 主题相关的内容和技能,与 BFSL 中涉及同一主题的内容进行关联,而与文件无关的内容和技能则未纳入试点仪器的题目中。第三阶段,剔除相似的内容和技能,选择标准主要考虑 PASEO 的能力要求。这一步骤对于题目开发至关重要,因为相似内容和技能的存在可能导致题目之间产生关联性,使得一个题目的答案可能成为另一个题目的线索,这与评估工具的设计初衷不符。

经过这三个阶段的筛选,研究团队最终确定了 60 项内容和技能用于试点测试,其中 10 项来自《物理和自然科学课程指南》,50 项来自《自然科学和物理化学基本学习》(其中七年级 17 项、八年级 17 项、九年级 16 项)。

2.2.3 内容代表性的定义

基于米勒提出的科学素养的三个维度,ALCE 仪器内容的代表性分布如下:科学的性质维度 6 项、科学技术对社会的影响维度 7 项、科学的内容维度 51 项。题目分布详情如下表2所示:

表2

2.2.4 起草规范表

ALCE 仪器的初始规范表将科学素养的维度与认知领域相结合,并明确了每个领域的题目数量。如下表3所示,在 64 个题目中,理解领域 21 项、分析领域 17 项、评价领域 26 项。

表3

2.2.5 仪器的构造

仪器的构造核心在于题目的开发,这一过程涉及对题目格式、技术指南和陈述配置的决策。研究团队选择采用经改编的 “真 – 假 – 不知道” 格式,以减少学生的猜测行为。在技术指南方面,采用了 Haladyna 提出的针对客观题阐述的详细说明,以及 Ebel 和 Frisbie 专门针对真假题提出的相关指南。

2.2.6 题目的理论分析

鉴于缺乏针对题目理论分析的具体测试方法,研究团队先进行定性分析,再开展定量分析。在定性分析阶段,将题目提交给一个专家小组,由专家评估题目与课程文件的对应关系、陈述的准确性、是否存在歧义、语言和词汇对目标受众的适宜性以及题目与科学素养的相关性。该专家小组由四名中小学教师(两名自然科学教师、两名物理化学教师)和六名高等教育教师(两名教育科学教师、一名生物学教师、一名地质学教师、一名物理学教师、一名化学教师)组成。

在定量分析阶段,研究团队采用了内容效度指数,该指数 “用于衡量对仪器及其题目某些方面达成一致意见的专家比例或百分比”,主要评估题目与科学素养的相关性。研究团队决定剔除 CVI 低于 0.8 的题目,最终将 ALCE 仪器的题目数量缩减至 35 个,具体分布如下表4所示:

表4

2.2.7 题目的实证分析

为计算难度指数,研究团队采用了项目反应理论(IRT)的双参数逻辑模型。通过 RStudio 软件(版本 3.6.0)进行分析,方差分析结果(p<0.5)表明该模型与数据的拟合度最佳。选择 IRT 模型的合理性在于,它能够对单个题目进行独立分析,而不受测试总分的直接影响。

应用试点测试后,仪器题目的难度等级分布如下:非常容易的题目 7 个;容易的题目 6 个;中等难度的题目 10 个;困难的题目 4 个;非常困难的题目 8 个。从整体上分析试点测试结果可以发现,除困难题目的数量略少于其他难度等级外,题目难度分布相对均匀。通过计算各子测试和仪器的平均难度水平,研究团队确定 NOS 子测试为简单难度,ISTS、CS 子测试及仪器整体为中等难度。

然而,对各子测试的进一步分析揭示了子测试之间的异质性:NOS 子测试中非常容易的题目占比最高,而 CS 子测试中非常困难的题目占比最高。因此,分析结果表明需要对部分题目进行修改,并可能剔除那些技术质量不佳的题目。

2.3 基于内部结构收集效度证据

在收集基于内部结构的有效性证据时,研究团队采用了 Pasquali 的框架。根据该框架,可以通过分析结构的行为表征、假设分析或 IRT 信息函数等方式来收集相关证据。

综合信息函数、学生θ水平和核密度估计这三项分析的结果可以发现,在 NOS 和 ISTS 子测试中,信息曲线和密度曲线的顶点与学生θ的平均水平所在区间(即 0)相吻合。在 CS 子测试中,虽然存在微小差异 —— 大部分信息位于θ在-3到1之间的区间,而学生的平均θ值为0,最高密度也接近θ=0—— 但该子测试仍然能够较为准确地评估学生的相关能力,并收集到有关学生科学素养的有效信息。

此外,分析每个子测试的信息量可以发现,CS 子测试的信息量几乎是其他两个子测试的四倍,是信息量最高的子测试。当仅分析正常测试的典型θ范围(-3 到3之间)时,所有子测试都能提供测试总信息量的 75% 以上。

因此,基于内容和 ALCE 试点测试应用内部结构的效度证据收集结果,在一定程度上支持使用三个子测试的题目结果来评估学生的科学素养。2.4 试点后题目审查

为开发出适用于教师在九年级结束时评估学生科学素养水平的工具,ALCE 仪器的题目需要具备与学生θ水平相契合的难度等级。因此,所有难度指数高于 0.75 的题目(题目 1、11、16、21、22、23、24、26、27、31 和 32)均被提交给专家小组。专家小组需要回答以下三个问题:(1)在你看来,学生在这道题目上遇到困难的原因是什么?(2)考虑到该仪器旨在评估科学素养,你是否建议删除这道题目?(3)你建议通过哪些修改来降低这道题目的难度?

此外,研究团队还对部分学生存在较大疑问的题目(题目 2、5、7、8、10、15、16、30、34 和 35)进行了细微修改。具体做法是,在试点仪器每个子测试的题目集末尾添加一个陈述性题目,询问学生是否对任何题目的内容、词汇或其他方面存在疑问,并要求学生注明题目编号及具体疑问。根据收集到的信息,研究团队修改了那些可能干扰学生答题的、引起疑问的单词和表达。

最后,研究团队对难度水平低于- 0.75的题目(题目 2、3、4、7、9、12、13、17、18 和 25)进行了审查,以确定是否存在可能导致答案易被猜测的因素。研究团队对题目 2 和题目 7 的结构或所用词汇进行了修改,其余题目经审查未发现问题,研究团队认为这些题目的易用性源于学生对相应内容和技能的熟练掌握。

经过这一系列修订,研究团队成功识别并解决了 21 个题目的问题,并从 CS 子测试(具体为化学领域)中剔除了 1 个题目。最终,ALCE 仪器的最终版本包含 34 个题目,其规范表5如下所示:

表5

2.5 ALCE 的应用

ALCE 仪器的最终应用于 2022 年 4 月至 6 月(即 2021/2022 学年结束时)开展,共有来自葡萄牙大陆 20 所公立学校的 516 名 9 年级学生参与测试,其中男生 259 名(占比 50.2%),女生 257 名(占比 49.8%),受访者平均年龄为 14.69 岁(SD=0.88)。

研究团队采用与收集试点测试效度证据相同的统计方法(即 IRT 双参数逻辑模型),对 ALCE 仪器最终版本收集到的数据进行分析。对于基于测试内容的效度证据收集,再次对题目进行了实证分析;对于基于内部结构的效度证据收集,则采用了信息函数、学生θ水平和核密度估计的分析方法。

对 ALCE 仪器题目进行实证分析的结果显示,题目难度等级分布如下:非常容易的题目 5 个;容易的题目 8 个;中等难度的题目 7 个;困难的题目 6 个;非常困难的题目 8 个。

分析结果显示,题目难度等级分布的同质性略有提升。然而,尽管 NOS 和 ISTS 子测试的平均难度水平分别保持在简单和中等水平,但 CS 子测试的平均难度水平上升至困难水平,且所有被归类为非常困难的题目均来自该子测试。

对这 8 个非常困难的题目进行定性分析发现,其中 5 个属于物理化学学科(题目 20、22、23、28、30 和 31),3 个属于自然科学学科(题目 28、30 和 31);从认知领域来看,3 个属于理解领域(22、23 和 31),2 个属于分析领域(23 和 25),3 个属于评价领域(20、26 和 28)。这一结果与葡萄牙学生在 2019 年国际数学和科学趋势研究(TIMSS)评估中的表现一致 —— 该评估发现,尽管葡萄牙学生在生物和物理领域掌握了一些知识,但很少有学生能够运用生物、化学、物理和地球科学的知识和技能,并在多元情境中描述这些领域的概念。同时,这也与葡萄牙国际学生评估项目(PISA)最新报告中的结果相符,该报告显示,绝大多数学生未能达到 “自主且创造性地将科学知识应用于各种情境,甚至是不太熟悉的情境” 这一熟练程度。

关于 ALCE 仪器最终版本的信息函数分析结果显示,与试点测试相比,三个子测试的曲线略有扁平化,末端θ对应的信息量有所增加。例如,在 NOS 子测试中,最高信息量、最高准确性以及最低标准误差对应的θ范围现在为- 1.5到 1.5之间;在 ISTS 子测试中,信息量最高的区间仍为- 1到1。但在极值处的信息量有所提升;而在 CS 子测试中,信息量较多的区间为θ在- 3到2之间。

对 ALCE 仪器各子测试的总信息量进行分析,结果显示 NOS 子测试、ISTS 子测试和 CS 子测试分别产生6.38、5.11和11.17个信息单位。考虑到典型的熟练程度范围(θ在- 3到3之间),NOS 子测试的信息量为5.60,ISTS 子测试为4.30,CS 子测试为 8.33。

由此可见,三个子测试的信息量均略有减少,其中 ISTS 子测试的减少幅度最小。该子测试也是信息曲线变化最为明显的子测试 —— 在试点测试中,曲线的峰值位于θ量表的负区间,而在最终应用中,峰值则位于正区间。这一结果可能与该子测试题目难度指数与学生θ水平的契合度更高有关。

在学生θ水平和核密度估计方面,ALCE 仪器最终应用的结果与试点测试相似。三个子测试中学生的平均θ值均为 0,大多数学生集中在θ范围为 – 1 到 1 之间。

对比试点测试和最终应用中学生θ水平的分布情况(如下表6所示),并结合本研究规定的难度水平,可以发现结果较为相似。值得注意的是,在 NOS 和 CS 子测试中,最终应用中θ等于或大于 1.28 的学生比例分别增加了 10% 和 6%;而在 ISTS 子测试中,θ 在 0.52 到 1.27 之间的学生人数下降了 7%。

表6

2.6 评分与分类

研究团队采用二分法对仪器进行评分:回答正确的题目得 1 分,回答错误或选择 “不知道” 选项的题目得 0 分。在分类方面,根据各子测试中正确答案的百分比和数量,将科学素养划分为五个等级(非常低、低、中等、高和非常高)

该分布遵循葡萄牙九年级当前采用的评估评分模型,即考试评分范围为 0%-100%,最终分类进一步转换为 1-5 的等级范围:1 级(0%-19%)、2 级(20%-49%)、3 级(50%-69%)、4 级(70%-89%)、5 级(90%-100%)。学生需达到至少 3 级方可被认定为通过。

考虑到科学素养的定义并非指向一种理想甚至可接受的理解水平,而是一种最低水平,同时结合葡萄牙九年级学生通过科学学科的最低要求(3 级),研究团队确定,达到至少中等科学素养水平的学生可被认定为具备科学素养。

2.7 ALCE 最终应用结果

ALCE 仪器最终应用的结果显示,在 516 名参与测试的学生中,184 名(占比 35.7%)处于低科学素养水平,255 名(占比 49.4%)处于中等水平,74 名(占比 14.3%)处于高水平,3 名(占比 0.6%)处于非常高水平,没有学生被归类为非常低科学素养水平。

按照 ALCE 的分类标准,64.14% 的学生被认定为具备科学素养。此外,仅有 14.9% 的学生科学素养水平超过中等水平,35.7% 的学生在子测试中未达到被归类为具备科学素养所需的最低正确答案数量。

尽管无法对不同年级水平进行严格且直接的比较,但这些结果与葡萄牙学生在 TIMSS 2019 和 PISA 2018 中的最新表现报告相符。在 TIMSS 2019 科学测试中,73% 的八年级学生达到中级水平,34% 达到高级水平,仅有7% 达到顶尖水平;在PISA 2018科学测试中,虽然 80% 的学生达到了至少2级的熟练程度,但仅有5.1%和0.5%的学生分别达到5级和6级。

对各子测试结果的分析显示,大多数学生在 NOS 和 ISTS 子测试中处于中等水平,占比分别为 44.8% 和 49.2%,而在CS子测试中,55.63%的学生处于低水平。分别查看各子测试结果并结合 ALCE 的分类原则,在NOS、ISTS和CS 三个子测试中,具备科学素养的学生比例分别为70%、72.9% 和39.9%。

总体而言,结果表明学生在与科学基本基础相关的知识和技能题目上表现更为出色,这些题目包括对自然现象的科学认知、研究中使用的方法以及科学事业的本质(即科学的性质,NOS),还有对运用科技知识、成果和产品为社会服务所带来的风险和机遇的理解(即科学技术对社会的影响,ISTS)。而在评估自然科学和物理化学相关词汇、术语、表达及基本内容(以科学的内容,CS 为代表)的题目上,学生的表现相对较差。

推荐书籍

东南大学百研工坊:21世纪是我国创新型人才培养的关键期。东南大学百研工坊(儿童发展与教育研究所)是国内从事科学教育研究的专业团队,结合教育学、心理学、认知科学和现代信息技术,开展面向基础教育阶段的科学教育研究,包括:青少年科学教育、STEM教育、人工智能教育和科学素养评价研究,希望与广大科学教育工作者一起努力,为我国科学教育事业的发展做出贡献!

欢迎优秀作品投稿,邮箱:705632205@qq.com

责编:徐瑞蔓

本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » 今日推荐:开发一套科学素养评估工具:以葡萄牙语九年级学生为例

猜你喜欢

  • 暂无文章