软件工程论文速递 | 26.05.06 日报: 22篇新论文速递

• Architectural Constraints Alignment in AI-assisted, Platform-based Service Development
• SynConfRoute: Syntax-Aware Routing for Efficient Code Completion with Small CodeLLMs
• How Does Chunking Affect Retrieval-Augmented Code Completion? A Controlled Empirical Study
• CodeEvolve: LLM-Driven Evolutionary Optimization with Runtime-Enriched Target Selection for Multi-Language Code Enhancement
• SWE-WebDevBench: Evaluating Coding Agent Application Platforms as Virtual Software Agencies
• AuditRepairBench: A Paired-Execution Trace Corpus for Evaluator-Channel Ranking Instability in Agent Repair
• Beyond Retrieval: A Multitask Benchmark and Model for Code Search
• Deployment-Relevant Alignment Cannot Be Inferred from Model-Level Evaluation Alone
• Towards Robust LLM Post-Training: Automatic Failure Management for Reinforcement Fine-Tuning
• A meta-analysis of the effect of generative AI on productivity and learning in programming
• Conflict Essences for Transformation Rules with Nested Application Conditions -- Long Version

开发者行为与软件过程

• Toward an Understanding of Developer Behaviour while Using Bug Localization Tools
• Patterns of Developer Adoption of LLM-Generated Code Refactoring Suggestions
• Agentic Repository Mining: A Multi-Task Evaluation
• Accountable Agents in Software Engineering: An Analysis of Terms of Service and a Research Roadmap

软件系统可靠性与基础设施

• Toward a Risk Assessment Framework for Institutional DeFi: A Nine-Dimension Approach
• AFL-ICP: Enhancing Industrial Control Protocol Reliability via Specification-Guided Fuzzing
• Shedding Light onto Safety Integrity Level and Basic Software Constraints in a Real-World Automotive Application: Case Study with Driverator Framework
• UVMarvel: an Automated LLM-aided UVM Machine for Subsystem-level RTL Verification

软件教育与学习反馈

• AICoFe: Implementation and Deployment of an AI-Based Collaborative Feedback System for Higher Education
• AISSA: Implementation and Deployment of an AI-based Student Slides Analysis tool for Academic Presentations
• Ensuring Reliability in Programming Knowledge Tracing: A Re-evaluation of Attention-augmented Models and Experimental Protocols

研究方向：AI 与软件工程方法

Architectural Constraints Alignment in AI-assisted, Platform-based Service Development

• 作者：Julius Irion, Moritz Leugers, Paul Hartwig, Simon Kling, Tachmyrat Annayev, Alexander Schwind, Maria C. Borges, Sebastian Werner
• arXiv URL：https://arxiv.org/abs/2605.04973v1

Abstract
提出一种检索增强的脚手架方法，将基于平台的代码生成与代理式澄清循环结合起来，系统性暴露并消解服务开发中的架构约束歧义。该方法通过检索模板并结合结构化交互，在服务脚手架阶段嵌入生产环境所需的架构约束、基础设施依赖和组织标准。实验表明，相比通用 AI 代码生成流程，该方法在架构一致性与可部署性上均有明显改善，说明在 AI 辅助服务开发中，约束感知的检索增强机制对于使产物符合工程化实践是必要的。

SynConfRoute: Syntax-Aware Routing for Efficient Code Completion with Small CodeLLMs

• 作者：Kishanthan Thangarajah, Boyuan Chen, Ahmed E. Hassan
• arXiv URL：https://arxiv.org/abs/2605.04894v1

Abstract
企业希望代码补全兼具质量和隐私。专有模型精度高，但将企业代码外发可能带来泄露风险；自建大模型虽然可控，但部署和运维成本高。相比之下，1B 到 3B 参数的轻量 CodeLLM 可在开发者机器本地运行且不泄露代码，但在复杂场景下性能不足。论文在 29 个 0.5B–480B 量级、12 类的代码 LLM 上对 Python、Java、C++ 的 fill-in-the-middle 代码补全做了实测：模型家族和代码专门化训练的重要性高于规模，3B 模型在许多场景可接近 32B 模型。作者发现 3B 模型约 46% 的错误补全不是合法代码。基于此提出 SynConfRoute：在每次请求上，用 token 置信度与语法校验联合决策是否升级至更大本地模型。该方法在常规任务上比单纯置信路由将 pass@1 提升 6.4%，在更难的多语言任务上最高提升 31%，而整体管线在常规补全上达到 78.9%，比始终使用 480B 模型还高 7.4%，且加速器利用率下降 58%。

How Does Chunking Affect Retrieval-Augmented Code Completion? A Controlled Empirical Study

• 作者：Xinjian Wu, Jingzhi Gong, Gunel Jahangirova, Jie Zhang
• arXiv URL：https://arxiv.org/abs/2605.04763v1

Abstract
论文指出 RAG 代码补全系统中“分块策略”常被经验化地采纳，缺乏实证依据且实践建议并不一致。作者在 864 种实验配置下，交叉控制四类分块策略（函数、声明、滑动窗、cAST）、四种检索器、五种生成器和九种参数配置，并在 RepoEval 与 CrossCodeEval 两个基准上评估。结果表明分块策略对补全质量有显著影响；与直觉相反，按函数分块在 RepoEval 上比其他策略低 3.57–5.64 个百分点，且效果在所有检索器—生成器组合中稳定存在。进一步分析显示跨文件上下文长度是主导因素：从 2,048 增加到 8,192 token 可带来最多 4.2 个百分点提升；分块大小影响更弱且非单调。成本—质量权衡上，滑动窗与 cAST 在两项基准中均占优，函数分块在可达帕累托前沿上从未最优。

CodeEvolve: LLM-Driven Evolutionary Optimization with Runtime-Enriched Target Selection for Multi-Language Code Enhancement

• 作者：Ajay Krishna Borra, Wenzhuo Yang, Samarth Arora, Akhilesh Deepak Gotmare, Gokulakrishnan Gopalakrishnan, Tharun Gali, Madhav Rathi, Doyen Sahoo, Manpreet Singh, Mayuresh Verma, Laksh Venka, Shuchita Singh
• arXiv URL：https://arxiv.org/abs/2605.04677v1

Abstract
该文提出 CodeEvolve，这是一套面向程序性能与代码质量提升的进化优化框架。与 OpenEvolve 相比，它加入了运行时目标选择、蒙特卡洛树搜索、自动化代码精炼，并为 Java 与 Salesforce Apex 构建语言特定评测流水线。系统利用 Java Flight Recorder 形成加权组件图，以运行期开销为依据选择优化目标，减少人工识别瓶颈的依赖。对每个目标点，CodeEvolve 自动生成候选补丁，并经过构建校验、单元测试、性能检查、静态分析及 LLM 评审后，仅保留功能正确的变体。作者在真实优化任务上显示，该方法可持续提升性能与代码质量；在大型企业 Java 代码库的七个热点函数上平均提速 15.22 倍，并在 Apex 消融实验中，完整的 MCTS 配置平均生成 19.5 个有效程序（共20），说明搜索、过滤与精炼共同提高了优化可靠性。

SWE-WebDevBench: Evaluating Coding Agent Application Platforms as Virtual Software Agencies

• 作者：Siddhant Saxena, Nilesh Trivedi, Vinayaka Jyothi
• arXiv URL：https://arxiv.org/abs/2605.04637v1

Abstract
“Vibe coding” 平台允许用户用自然语言描述应用，由 AI 代理自动完成全栈开发，但现有评估多停留在代码层面。本文提出 SWE-WebDev Bench，一套 68 项指标评估体系（25 个主指标、43 个诊断指标），覆盖应用创建与修改两类交互模式、产品经理/工程/运维三种视角，以及三档复杂度（T4、T5）。作者在六个平台、三个领域、18 个评估单元上测试，发现四类共性短板：一是规格瓶颈，平台往往将丰富业务需求过度压缩为简单技术计划；二是前端后端解耦问题，表面上看起来完善的前端常对应缺失或损坏的后端；三是生产就绪急剧下滑，所有平台工程质量评分均未超 60%；四是安全与基础设施失败普遍，安全得分无一超过 65%，并发处理部分最低仅 6%。作者公开数据集与基准，以支持后续复现与改进。

AuditRepairBench: A Paired-Execution Trace Corpus for Evaluator-Channel Ranking Instability in Agent Repair

• 作者：Yuelin Hu, Zhenbo Yu, Zhengxue Cheng, Wei Liu, Li Song
• arXiv URL：https://arxiv.org/abs/2605.04624v1

Abstract
作者观察到代理修复榜单会因评估器通道的重配置而重新排序，其中一部分重排来自方法在候选修复选择阶段“咨询”评估器信号。研究在公开榜单上展示该失败模式，并发布 AuditRepairBench：一个包含 576,000 个注册单元（96,000 次执行）、用于分析评估器信号干扰与排名不稳定性的配对执行轨迹语料。该语料通过四种可插拔路径阻断实现：学习型影响代理、无需训练的规则化通道暴露比例、反事实敏感性代理和稀疏人工审计代理，并将其融合为筛查后验，输出单元级翻转函数、集合标签、分层系统分数和集合榜单。基于 80 个源级通道手术子集，80 案例机制验证显示该框架可区分耦合模式。盲审协议下两组标注者均能发现该耦合规律，冻结的集成在其 79 个样例上达到 AUROC 0.83。筛查驱动的去标签修复可将排名位移降低 55%–74%（均值 62%），代码改动少于 50 行；随机通道盲化仅降 7%，普通重训练仅 13%。AuditRepairBench-Lite 以规则版在 12,000 单元子集上以 42GB 存储保持 Kendall τ = 0.88，成为主要发布版本。

Beyond Retrieval: A Multitask Benchmark and Model for Code Search

• 作者：Siqiao Xue, Zihan Liao, Jin Qin, Yizi Zhang, Yixiang Mu, Fan Zhou, Hang Yu
• arXiv URL：https://arxiv.org/abs/2605.04615v1

Abstract
现有代码搜索评测多只衡量第一阶段检索，但生产系统通常还包含重排及更贴近开发者查询行为的流程；同时，现有基准还存在污染、标签噪声与二元相关判断不足的问题。论文提出 CoREB（Contamination-controlled Retrieval and REanking Benchmark）及其微调重排模型：在五种编程语言下，基于反事实重写的 LiveCodeBench 问题构建多任务代码检索与重排语料，并给出分级相关性标签。CoREB 在 11 个向量模型和 5 个重排器上覆盖文本到代码、代码到文本、代码到代码三类任务。实验显示：代码专门嵌入在代码到代码检索上显著优于通用编码器（约两倍），但不存在单模型全胜；短关键词查询在真实开发风格下显著压低所有模型性能；现成重排器在任务上表现不对称，且未有模型在三任务上均有正收益。CoREB-Reranker 在三任务上都带来持续增益，数据与模型已开源。

Deployment-Relevant Alignment Cannot Be Inferred from Model-Level Evaluation Alone

• 作者：Varad Vishwarupe, Nigel Shadbolt, Marina Jirotka, Ivan Flechais
• arXiv URL：https://arxiv.org/abs/2605.04454v1

Abstract
论文指出当前对齐评测主要停留在模型层面（如真实度、指令跟随、偏好排序等固定输入输出指标），这些结果常被直接外推到部署场景是不成立的。作者主张按证据层级区分对齐证据：模型级、响应级、交互级与部署级。基于 11 个扩展到 16 的基准与八维量表的双盲复核（Cohen kappa=0.87），研究发现所有被检基准均缺失面向用户的验证支持，过程可控性几乎缺位。少数交互类基准（如 tau-bench、CURATe、Rifts、Common Ground）同样覆盖不均衡，且构建方法决定了测量目标。进一步在 180 条对话上进行交叉模型压力测试显示，不同模型对同一验证 scaffold 的响应差异巨大：同一 scaffold 可使某模型达到接近上限，而对另一模型几乎无变化。作者据此提出系统级评估议程：以“对齐画像”替代单分数、采用固定脚手架实现可比交互评估，并报告评估证据与部署主张之间的推断距离。

Towards Robust LLM Post-Training: Automatic Failure Management for Reinforcement Fine-Tuning

• 作者：Lingzhe Zhang, Tong Jia, Yunpeng Zhai, Liancheng Fang, Kening Zheng, Hongyi Liu, Xiaosong Huang, Philip S. Yu, Ying Li
• arXiv URL：https://arxiv.org/abs/2605.04431v1

Abstract
强化学习后训练（RFT）已成为主流范式，但训练过程仍脆弱，现有工作大多集中于算法或系统层改进，鲜有针对训练过程失败管理的自动化方法。论文认为实践中仍大量依赖专家手工排查。作者构建了 RFT-FaultBench 首个细粒度 RFT 失败基准：5 类故障家族、16 类故障类型、779 次训练运行、22,549 条训练步记录与 1,457,288 条轨迹记录。实证表明失败在训练动态上可观测且具有可区分的特征指纹。基于该发现提出 RFT-FM，提供闭环的异常检测、故障诊断与自动修复框架，将三者统一。实验显示该基准难度非平凡：在细微故障条件下仍具挑战，而 RFT-FM 在检测、诊断与缓解方面表现出较强能力。

A meta-analysis of the effect of generative AI on productivity and learning in programming

• 作者：Sebastian Maier, Moritz Gunzenhäuser, Jonas Schweisthal, Manuel Schneider, Stefan Feuerriegel
• arXiv URL：https://arxiv.org/abs/2605.04779v1

Abstract
论文通过元分析评估生成式 AI 在编程中的影响，整合了 n=23 项研究、k=27 个效应量，考察生产力与学习两个方面。研究在 ACM、arXiv、Scopus、Web of Science 中筛选 2019–2025 年文献，要求比较使用 GenAI 辅助与未使用 AI 的编程任务，且以生产力（完成时间、提交数、代码行数）及学习（考试表现）为指标。偏倚评估结合 RoB2 与 ROBINS-I，效应量以 Hedges' g 进行标准化汇总。结果显示 GenAI 辅助对生产力有统计显著但中等程度正向影响（g=0.33，95%CI [0.09,0.58]），且异质性较大；在受控实验环境中收益更明显，开源与企业场景较小。对学习结果未观察到显著效应（g=0.14，95%CI [-0.18,0.47]）。结论是，生成式编程助手可提升生产力，但收益依上下文而定，教育场景下也未体现稳定学习增益，因此其融入计算机科学教育时应谨慎设计。

Conflict Essences for Transformation Rules with Nested Application Conditions -- Long Version

• 作者：Alexander Lauer, Jens Kosiol, Leen Lambers, Gabriele Taentzer
• arXiv URL：https://arxiv.org/abs/2605.04947v1

Abstract
冲突与依赖分析通过关键对和初始冲突，在最小上下文中刻画图变换规则之间的潜在交互，但关键冲突信息可被更小结构——“禁用/冲突本质”捕获。既有研究已将禁用本质扩展到带有应用条件的规则。本文进一步将其推广到任意嵌套条件，而非仅交替量词标准形。作者提出“符号化冲突本质”，由禁用本质构造，用于表示两条规则间的交互。论文证明：一对变换规则是否并行依赖等价于存在可嵌入的符号冲突本质，并给出该本质与初始冲突的关系。结果在粘附 HLR 范畴中给出，覆盖多类图结构。

研究方向：开发者行为与软件过程

Toward an Understanding of Developer Behaviour while Using Bug Localization Tools

• 作者：Pablo Diaz Pedreira, Tamara Lopez, Michel Wermelinger
• arXiv URL：https://arxiv.org/abs/2605.04828v1

Abstract
尽管缺陷修复复杂且耗时，现有研究对自动化缺陷定位工具的关注主要集中在准确率等算法指标。论文报告一项持续的定性用户研究：11 名参与者在受控环境下完成四个真实缺陷定位任务，并接收不同粒度支持信息的工具反馈，同时在半结构访谈中同步思维发声。初步结果显示，开发者使用工具方式受社会与情境因素、交互信息呈现和问题求解策略共同影响，定位过程远比“准确度”更复杂。研究提示：有效缺陷定位工具的采用不仅取决于模型性能，还依赖于用户在具体情境中的行为和信息整合过程。

Patterns of Developer Adoption of LLM-Generated Code Refactoring Suggestions

• 作者：David Schön, Faiza Amjad, Tehreem Asif, Ranim Khojah, Mazen Mohamad, Francisco Gomes de Oliveira Neto, Philipp Leitner
• arXiv URL：https://arxiv.org/abs/2605.04835v1

Abstract
论文研究 169 个开发者提交的 GitHub 提交，其中 commit 信息包含与 ChatGPT 的对话链接，分析开发者如何采用 LLM 建议的代码重构。结果显示，大多数建议被开发者直接采纳，若修改往往属于较大幅调整。作者归纳出五类修改模式，且这些模式与重构活动类型、开发者提示词、以及 ChatGPT 回答有效性相关。研究提示了 LLM 重构建议在真实开发流程中的采用边界与变更语义。

Agentic Repository Mining: A Multi-Task Evaluation

• 作者：Johannes Härtel
• arXiv URL：https://arxiv.org/abs/2605.04845v1

Abstract
软件仓库挖掘常需将提交、评审、代码行、仓库等工件分类到类别，但人工标注昂贵且易错，且有限上下文会造成标注不确定。本文比较了两类方法：一类是基于预先工程化上下文的静态 LLM，另一类是通过标准 bash 命令动态探索仓库上下文的 LLM 代理。作者在四个任务、八种方法配置和 4,943 条分类上比较，结果显示代理方法在分类质量上接近基线模型，并具备重要优势：更稳健、可避免上下文窗口溢出且扩展性不受单条工件大小影响。对 100 个与人工标签不一致样本的诊断发现，两类问题的误差既来自于人工规范歧义，也来自基准标签在有限上下文下的偏差，说明带有自主上下文检索能力的代理未必被过于苛刻评估。

Accountable Agents in Software Engineering: An Analysis of Terms of Service and a Research Roadmap

• 作者：Christoph Treude
• arXiv URL：https://arxiv.org/abs/2605.04532v1

Abstract
AI 编码助手与自主代理正在重塑代码生成、评审与维护流程，但可追责性研究明显不足。本文比较了主流 AI 辅助编码与代理开发工具的服务条款文本，分析所有权、责任、赔偿和披露义务如何在开发者与供应商之间分配。结果显示，主流 ToS 一致倾向于将正确性、安全性与合规责任向用户转移，但在数据再利用、赔偿范围、合规声明等问题上存在显著差异。基于此，作者认为现有政策框架未能跟上代理化开发实际，提出面向可问责代理的路线图：包括责任建模、治理工件设计、支持问责的软件工具，以及对开发者认知与实践的经验研究。

研究方向：软件系统可靠性与基础设施

Toward a Risk Assessment Framework for Institutional DeFi: A Nine-Dimension Approach

• 作者：Eva Oberholzer, Valeriy Zamaraiev
• arXiv URL：https://arxiv.org/abs/2605.05145v1

Abstract
去中心化金融（DeFi）协议当前已中介超 1000 亿美元资产，且涉及受监管稳定币及代币化资产抵押等高风险场景，但缺乏可在机构采用中执行的统一风险评估框架。现有方法多聚焦协议参数优化或概念分类，难以同时兼顾可解释性、可组合性与结构独立性。作者在 Moody's Analytics 与 Gauntlet 的六维框架上新增三维：可组合性风险、理解负债（comprehension debt）以及时间维风险动态，并引入“透明度置信度修正子”，将评估可靠性与风险严重度分离。该框架基于覆盖 8000 余个 DeFi 协议的本体驱动协议知识库进行结构化依赖分析。回顾 2024–2026 年 12 起主要事故（约 25 亿美元直接损失）表明：其中 5 起事故的根因至少需一个新维度才能完整刻画，且其中包括系统性影响最高的两起事件。

AFL-ICP: Enhancing Industrial Control Protocol Reliability via Specification-Guided Fuzzing

• 作者：Jiaying Meng, Xuewei Feng, Qi Li, Min Liu, Ke Xu
• arXiv URL：https://arxiv.org/abs/2605.04760v1

Abstract
工业控制协议是关键基础设施稳定性的核心，但长期受“缺乏规范化理解”限制；现有基于观测推断的模糊测试难以深入协议状态或捕获细粒度语义偏差。论文提出 AFL-ICP，一种以规范驱动为核心的自治模糊测试框架。其包括将复杂规范转为机器可执行语法的上下文感知规范形式化流程；在该流程基础上利用 LLM 自动完成协议适配与种子生成，以低人工成本扩展新协议；并引入 LLM 驱动的差分检测器，将实现输出与规范要求对齐以识别细粒度语义/逻辑缺陷。该框架在四种常用 ICP（含开源与闭源）上的实验显示，覆盖率与漏洞发现显著优于 SOTA 方法，并发现 24 个此前未知漏洞；其中 16 个为可悄然扰乱工业运行、降低可用性的语义与逻辑漏洞。

Shedding Light onto Safety Integrity Level and Basic Software Constraints in a Real-World Automotive Application: Case Study with Driverator Framework

• 作者：Tobias Denzinger, Matthias Becker, Peter Ulbrich
• arXiv URL：https://arxiv.org/abs/2605.04837v1

Abstract
汽车电子控制单元（ECU）包含数百个功能、多个软件组件和大量相互关联任务，因果链是其中常见结构。先前研究多关注数据时延和响应时间的时序优化，但对安全完整性级别（SIL）等关键非功能性质研究不足。论文指出，不同 SIL 的任务共置、错误分工或任务交织会削弱关键功能完整性；AUTOSAR 基础软件（如 OS、运行时环境、通信栈、诊断模块）也会因任务特征和 SIL 分类而显著改变系统复杂度；不同的内存架构与 SIL 依赖进一步约束任务分配。作者基于真实汽车应用案例，系统刻画了 SIL 约束、BSW 影响及内存需求，并介绍 Driverator 配置框架，以支持可扩展的系统级分析。

UVMarvel: an Automated LLM-aided UVM Machine for Subsystem-level RTL Verification

• 作者：Junhao Ye, Dingrong Pan, Hanyuan Liu, Yuchen Hu, Jie Zhou, Ke Xu, Xinwei Fang, Xi Wang, Nan Guan, Zhe Jiang
• arXiv URL：https://arxiv.org/abs/2605.04704v1

Abstract
集成电路开发中验证占用约 70% 的研发工作量。尽管 UVM 提供了结构化验证环境以提升复用，子系统级 UVM 测试平台构建和高质量激励生成仍依赖大量手工代码与反复 EDA 运行，并要求深入协议与微架构知识。UVMarvel 提供自动化验证框架，使用 LLM 在子系统级 RTL 的 UVM 测试平台构建中替代大量人工过程。框架引入中间表示（IR）与总线协议库，将异构规格转换为协议正确的子系统级 UVM 平台，并使用 Signal Tracker 与 Verilog Patching Library 引导 LLM 细化激励。该工作首次实现主流总线协议上的子系统级 UVM 测试平台自动生成，平均覆盖率达到 95.65%，验证时长由若干人工作日降至约 4.5 小时。

研究方向：软件教育与学习反馈

AICoFe: Implementation and Deployment of an AI-Based Collaborative Feedback System for Higher Education

• 作者：Alvaro Becerra, Alejandra Palma, Ruth Cobos
• arXiv URL：https://arxiv.org/abs/2605.04740v1

Abstract
论文介绍了 AICoFe（AI-based Collaborative Feedback）系统，面向高校同伴反馈质量波动的问题，采用以人为中心的 AI 设计弥合“反馈难以形成可执行意见”的缺口。系统采用模块化架构，编排多 LLM 管线（GPT-4.1-mini、Gemini 2.5 Flash、Llama 3.1），将量化评分量表与定性观察整合为可落地反馈。系统核心是“教师在环”流程：教师通过学习分析仪表盘审核与修订 AI 草稿，再发布给学生。系统还采用 SQL 与 MongoDB 混合的数据基础设施以支撑可追溯性并管理半结构化反馈版本。

AISSA: Implementation and Deployment of an AI-based Student Slides Analysis tool for Academic Presentations

• 作者：Alvaro Becerra, Diego Gomez, Ruth Cobos
• arXiv URL：https://arxiv.org/abs/2605.04729v1

Abstract
面对大班授课中教师难以及时为口头汇报材料逐一提供形成性反馈的问题，论文提出 AISSA，一个基于 Web 的学生课件分析系统。该系统结合 LLM 与学习分析仪表盘，支持按教师定义的评分量规，先在学生提交答辩稿件后自动给出量化分数和结构化反馈。AISSA 同时分析幻灯片级结构特征与内容特征，并通过 LLM（ChatGPT 5.2）生成结构化反馈，再由交互式仪表盘向师生展示。作者在真实教学场景中对 46 名本科生进行试点，结果表明系统在技术可靠性、经济可行性与学生满意度上表现良好，说明该模式有望支持大规模、可迭代的课件反馈。

Ensuring Reliability in Programming Knowledge Tracing: A Re-evaluation of Attention-augmented Models and Experimental Protocols

• 作者：Jaewook Kim, Hyeoncheol Kim
• arXiv URL：https://arxiv.org/abs/2605.04727v1

Abstract
编程知识追踪（PKT）近期常用注意力特征建模与 RNN 序列预测结合的混合模型，并声称提升显著。论文复现代表性模型发现，性能差异在很大程度上受实现配置与实验协议影响。作者指出注意力维度设置不当会改变性能估计，且若忽略 ServerTimestamp 等时间信息、打乱学生尝试顺序，会破坏时间因果性并导致过于乐观结果。为保证可复现性，作者采用单折网格搜索确定超参数后，在所有折上固定该配置；并系统分析作业级特征与最大序列长度的影响。基于 CodeWorkout 数据集的复评结果表明，在统一协议下，注意力增强模型与标准 DKT 之间性能差距显著缩小，复杂架构并不必然带来更优表现；同时给出了可靠且可比较的评估实践建议。

目录

AI 与软件工程方法