乐于分享
好东西不私藏

软件工程论文速递 | 26.04.23 日报: 26篇新论文速递

软件工程论文速递 | 26.04.23 日报: 26篇新论文速递

目录

AI 驱动的软件工程

  • • MathDuels: Evaluating LLMs as Problem Posers and Solvers
  • • Less Is More: Measuring How LLM Involvement affects Chatbot Accuracy in Static Analysis
  • • PrismaDV: Automated Task-Aware Data Unit Test Generation
  • • From If-Statements to ML Pipelines: Revisiting Bias in Code-Generation
  • • DryRUN: On the Role of Public Tests in LLM-Driven Code Generation
  • • A Metamorphic Testing Approach to Diagnosing Memorization in LLM-Based Program Repair
  • • Assessing the Impact of Requirement Ambiguity on LLM-based Function-Level Code Generation
  • • Conjecture and Inquiry: Quantifying Software Performance Requirements via Interactive Retrieval-Augmented Preference Elicitation
  • • mcdok at SemEval-2026 Task 13: Finetuning LLMs for Detection of Machine-Generated Code
  • • Agentic AI-assisted coding offers a unique opportunity to instill epistemic grounding during software development

软件测试与工程实践

  • • Generalizing Test Cases for Comprehensive Test Scenario Coverage
  • • Institutionalizing Best Practices in Research Computing: A Framework and Case Study for Improving User Onboarding
  • • VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation

形式化方法与程序验证

  • • NEST: Network Enforced Session Types (Technical Report)
  • • Promoting Simple Agents: Ensemble Methods for Event-Log Prediction
  • • Verifying Machine Learning Interpretability Requirements through Provenance
  • • SpecSyn: LLM-based Synthesis and Refinement of Formal Specifications for Real-world Program Verification
  • • Probabilistic Verification of Neural Networks via Efficient Probabilistic Hull Generation
  • • Linear Constraints
  • • Active Inference of Extended Finite State Machine Models with Registers and Guards
  • • Trustworthy Clinical Decision Support Using Meta-Predicates and Domain-Specific Languages

安全与漏洞治理

  • • CrossCommitVuln-Bench: A Dataset of Multi-Commit Python Vulnerabilities Invisible to Per-Commit Static Analysis
  • • Strategic Heterogeneous Multi-Agent Architecture for Cost-Effective Code Vulnerability Detection
  • • Hidden Dependencies and Component Variants in SBOM-Based Software Composition Analysis

系统、架构与交互系统

  • • Equinox: Decentralized Scheduling for Hardware-Aware Orbital Intelligence
  • • Can Large Language Models Assist the Comprehension of ROS2 Software Architectures?

AI 驱动的软件工程

MathDuels: Evaluating LLMs as Problem Posers and Solvers

  • • 作者:Zhiqiu Xu, Shibo Jin, Shreya Arya, Mayur Naik
  • • arXiv URL:https://arxiv.org/abs/2604.21916v1

Abstract

随着前沿语言模型在静态数学基准上达到接近天花板性能,现有评测越来越难区分模型能力,因为模型长期被当作固定题库的“解题者”来看。我们提出 MathDuels,这是一个自博弈基准:模型既担任出题者,也担任解题者。出题环节采用三阶段生成流水线(元提示、题目生成、难度扩展),并用独立校验器剔除不规范问题。我们用 Rasch 模型联合估计解题者能力与题目难度,题目质量由模型所出题目的难度表征。对 19 个前沿模型的实验显示,出题能力和解题能力有明显分离;双角色评测能够发现单角色评测无法揭示的能力差异。随着新模型加入,基准难度会与其能力共同演化,而不是停留在静态天花板,且保持可持续区分度。

Less Is More: Measuring How LLM Involvement affects Chatbot Accuracy in Static Analysis

  • • 作者:Krishna Narasimhan
  • • arXiv URL:https://arxiv.org/abs/2604.21746v1

Abstract

大型语言模型在将自然语言转写为静态分析查询语言中应用日益普遍,但不同系统在 LLM 参与比例上差异很大。我们比较了三种架构:直接查询生成、先生成受模式约束的 JSON 中间表示、以及工具增强的代理式生成。四个开源模型在 20 个任务、三档复杂度下通过 2×2 的模型族和规模组合进行评测。结果显示,结构化中间表示方案在准确率上最优,尤其对大模型优势明显,并在复杂度较高时超越代理式方法,且代价更低:其消耗 token 更少、推理更稳定。对小模型而言,最主要瓶颈在于模式服从性,表明在结构化约束明确的静态分析场景下,限制 LLM 输出为严格类型化中间表示可提升最终正确性。

PrismaDV: Automated Task-Aware Data Unit Test Generation

  • • 作者:Hao Chen, Arnab Phani, Sebastian Schelter
  • • arXiv URL:https://arxiv.org/abs/2604.21765v1

Abstract

数据是现代企业核心资产,数据验证是保证下游应用可靠性的关键,但现有数据单元测试框架通常不区分具体消费任务,缺乏任务语义约束。我们提出 PrismaDV,这是一套结合下游任务代码与数据特征构建的复合式 AI 系统,用于识别数据访问模式并推断隐含假设,进一步生成可执行、与任务相关的数据单元测试。为适应不同数据集与任务,我们提出 SIFTA(Selective Informative Feedback for Task Adaptation),在极少执行反馈下优化提示词。我们在两个新基准(60 个任务、5 个数据集)上验证,PrismaDV 在反映数据错误对端到端任务影响方面持续优于基线;与 SIFTA 联用后,在提示词学习上还能超越手工提示和通用优化器生成的结果。论文同步发布了基准与原型实现。

From If-Statements to ML Pipelines: Revisiting Bias in Code-Generation

  • • 作者:Minh Duc Bui, Xenia Heilmann, Mattia Cerrato, Manuel Mager, Katharina von der Wense
  • • arXiv URL:https://arxiv.org/abs/2604.21716v1

Abstract

先前对代码生成偏见的评测主要围绕条件语句,覆盖范围窄且只反映显式偏见。我们在更贴近工程实践的任务——机器学习流水线生成上重新评估偏见,考察 LLM 在代码特征选择中的倾向。无论代码专项模型还是通用指令模型,实验均显示敏感属性在生成流水线中的出现频率高达约 87.7%,远高于传统条件语句任务中的 59.2%,即使模型已能剔除部分无关特征。该现象在不同提示抑偏策略、属性数目和任务难度下都稳定出现,说明“if-语句级别”评测低估了真实部署风险,表明当前偏见基准需要覆盖更完整的代码建模任务。

DryRUN: On the Role of Public Tests in LLM-Driven Code Generation

  • • 作者:Kaushitha Silva, Srinath Perera
  • • arXiv URL:https://arxiv.org/abs/2604.21598v1

Abstract

多代理代码生成框架常依赖预置公开测试用例进行规划和自我调试,但真实工程环境中此类样例很少可得,导致方法受限于高质量数据集。我们指出这种依赖造成“过度自信差距”:模型可能在公开样例上过拟合而忽略隐藏输入。我们观察到,LLM 并非必须依赖真实样例即可完成生成流程,提出框架 DryRUN,通过让模型自动生成输入、执行轨迹模拟并迭代修正来替代对真实 IO 样例的依赖。实验证明,在 LiveCodeBench v6(2025 年 3 月后)上,DryRUN 在不使用公开测试与外部反馈的情况下,与依赖测试输入的 SOTA 框架 CodeSIM 性能接近,同时显著减少输出 token。

A Metamorphic Testing Approach to Diagnosing Memorization in LLM-Based Program Repair

  • • 作者:Milan De Koning, Ali Asgari, Pouria Derakhshanfar
  • • arXiv URL:https://arxiv.org/abs/2604.21579v1

Abstract

LLM 自动程序修复在降低调试成本方面前景突出,但评测结果可能受到数据泄漏影响:模型在预训练语料中可能记住补丁,从而夸大效果。本文探索将变形测试与负对数似然(NLL)结合,用语义保持变换重构 Defects4J 和 GitBug-Java 两个数据集,比较原始与变换版本下七个 LLM 的修复成功率。结果显示所有模型均出现明显下降,幅度从 GPT-4o 的 -4.1% 到 Llama-3.1 的 -15.98%,且性能退化与 NLL 相关性较强,说明记忆度越高的样本越容易“伪高分”。该证据表明,变形测试与 NLL 联合可更稳健地暴露数据泄漏风险,也可一定程度缓解 APR 评测中的过度乐观偏差。

Assessing the Impact of Requirement Ambiguity on LLM-based Function-Level Code Generation

  • • 作者:Di Yang, Xinou Xie, Xiuwen Yang, Ming Hu, Yihao Huang, Yueling Zhang, Weikai Miao, Ting Su, Chengcheng Wan, Geguang Pu
  • • arXiv URL:https://arxiv.org/abs/2604.21505v1

Abstract

需求歧义在真实软件开发中普遍存在,会降低基于自然语言输入的代码生成稳定性。现有基准多假设需求清晰,不足以覆盖实际不确定性。我们提出 Orchid 基准,包含 1304 个面向函数级的任务,覆盖词汇、语法、语义、模糊性四类歧义。基于该数据集的系统实验表明,歧义会持续削弱所有 LLM 表现,且复杂模型受影响更明显;面对同一含糊需求,模型常给出功能上不同的实现,且难以自动识别或消解歧义。结果说明下一代自动化软件工程工具需要显式处理需求模糊性,而非仅在理想化需求上优化。

Conjecture and Inquiry: Quantifying Software Performance Requirements via Interactive Retrieval-Augmented Preference Elicitation

  • • 作者:Wang Shi Hai, Chen Tao
  • • arXiv URL:https://arxiv.org/abs/2604.21380v1

Abstract

软件性能需求常以自然语言给出,自动将其量化为数学形式是软件工程的重要需求,但语义模糊和人类认知不确定性使其长期停滞。我们形式化该问题,提出 IRAP(Interactive Retrieval-Augmented Preference Elicitation)方法:结合问题特定知识进行偏好检索与推理,在交互中逐步澄清关键不确定性,同时尽量降低认知负担。我们在 4 个真实数据集上与 10 种方法对比,IRAP 在所有场景均取得更优结果,且在仅 5 轮交互内可实现高达 40 倍改进。

Agentic AI-assisted coding offers a unique opportunity to instill epistemic grounding during software development

  • • 作者:Magnus Palmblad, Jared M. Ragland, Benjamin A. Neely
  • • arXiv URL:https://arxiv.org/abs/2604.21744v1

Abstract

AI 辅助编码正在从聊天式“vibe coding”快速迈向代理式开发,人工只提供高层计划,代理自动落地实现。当前趋势是额外引入项目文档、方法文档等上下文。本文提出 GROUNDING.md,这是一类面向领域的社区治理文档,以“硬约束”(不可违反的正确性不变式)和“约定参数”(共识默认值)双轨机制显式写入。该文档在任何用户提示之上具有优先权,可直接约束生成行为,尤其适合科学软件中的准确性要求。通过质谱组学示例说明其可显著提高复杂领域软件开发中可验证正确性的基线,并在非专业开发者和审阅者之间共享约束能力,降低领域知识流失风险。

mcdok at SemEval-2026 Task 13: Finetuning LLMs for Detection of Machine-Generated Code

  • • 作者:Adam Skurla, Dominik Macko, Jakub Simko
  • • arXiv URL:https://arxiv.org/abs/2604.21365v1

Abstract

跨语言识别机器生成代码是多任务挑战问题,SemEval-2026 Task 13 在二分类、生成器家族识别以及混合共生成代码等方面提出了更细粒度设置。我们将原有 mdok 框架迁移到代码语境中,针对不同子任务调整模型与特征,系统评测表明所提交方案在三类子任务上均具竞争力,但与顶级系统仍有可观差距,说明该方向仍有较大改进空间。

软件测试与工程实践

Generalizing Test Cases for Comprehensive Test Scenario Coverage

  • • 作者:Binhang Qi, Yun Lin, Xinyi Weng, Chenyan Liu, Hailong Sun, Gordon Fraser, Jin Song Dong
  • • arXiv URL:https://arxiv.org/abs/2604.21771v1

Abstract

测试用例对开发与维护都至关重要,但实践中开发者通常依据隐含理解先写单测,后续才补齐缺失情景。仅按代码覆盖率生成测试无法充分反映真实需求,而需求常未文档化且隐含在设计与实现中。本文基于“开发者初始测试可视为可执行需求”的观察,提出 TestGeneralizer。该框架先提炼给定方法与示例测试背后的需求与场景,再生成可复用模板并实例化出多种场景,最终生成并细化可执行测试。我们在 12 个 Java 开源项目上对比三类基线,场景覆盖指标在变异测试和 LLM 评估下分别提升 31.66% 与 23.08%。

Institutionalizing Best Practices in Research Computing: A Framework and Case Study for Improving User Onboarding

  • • 作者:Ayush Chaturvedi, Rob Pokorney, Elyn Fritz-Waters, Charlotte Rouse, Gary Bax, Daryl Spencer, Craig Pohl
  • • arXiv URL:https://arxiv.org/abs/2604.21898v1

Abstract

全球各地科研计算中心在面向新用户时常见“资料多而上手难”问题:专家和研究人员面对复杂基础设施与多样化软件栈时缺乏清晰入口。本文提出面向科研计算中心的新用户入职改进框架,结合流程、文档与支持机制进行系统化设计,并在圣路易斯华盛顿大学的科研基础设施服务中开展案例验证。结果显示该框架能显著缓解新用户对系统资源与软件服务的理解负担,提高首体验收和持续使用效率。

VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation

  • • 作者:Qijun Han, Haoqin Tu, Zijun Wang, Haoyue Dai, Yiyang Zhou, Nancy Lau, Alvaro A. Cardenas, Yuhui Xu, Ran Xu, Caiming Xiong, Zeyu Zheng, Huaxiu Yao, Yuyin Zhou, Cihang Xie
  • • arXiv URL:https://arxiv.org/abs/2604.21375v1

Abstract

自主 GUI 代理常见两个核心失败模式:在未完成真实任务时提前结束,以及陷入循环动作而无法恢复。我们提出 VLAA-GUI,围绕“停止—恢复—搜索”构建三个核心模块。完整验证器在每次结束前通过 UI 可观察标准检查完成性;循环中断器检测重复失败并切换交互策略;在线搜索模块调用具备检索能力的 LLM 生成未知流程的文本级方案,并按需调度编码与 grounding 代理。五类主干模型在两套 Linux/Windows 基准上均取得新高(OSWorld 上 77.5%,WindowsAgentArena 上 61.0%),且三模块消融均带来稳定增益,循环中断模块可显著降低动作浪费。

形式化方法与程序验证

NEST: Network Enforced Session Types (Technical Report)

  • • 作者:Jens Kanstrup Larsen, Alceste Scalas, Guy Amir, Jules Jacobs, Jana Wagemaker, Nate Foster
  • • arXiv URL:https://arxiv.org/abs/2604.21795v1

Abstract

NEST(Network-Enforced Session Types)把应用层协议监控迁移到网络数据面执行,绕开传统在应用代码中埋点或封装的方式。我们从会话类型自动合成包级监控器,直接在数据平面执行协议约束,并扩展到处理丢包与乱序。基于 P4 的实现覆盖微服务与网络功能模型,在实验中表明网络级监控可在不修改业务代码的前提下执行具有实际复杂度的协议约束,强化运行时正确性保障。

Promoting Simple Agents: Ensemble Methods for Event-Log Prediction

  • • 作者:Benedikt Bollig, Matthias Függer, Thomas Nowak, Paul Zeinaty
  • • arXiv URL:https://arxiv.org/abs/2604.21629v1

Abstract

本文比较了 n-gram 与神经模型(LSTM、Transformer)在流式事件日志下一步活动预测中的表现。合成模式和 5 个真实流程挖掘数据集实验显示,适当窗口的 n-gram 在准确率上可与神经模型相当但资源开销更低。与窗口化神经模型易波动不同,n-gram 更稳定;投票式集成可提升准确率,但增加并行推理开销。为此我们提出 promotion 算法,在推理阶段动态在两个活跃模型间切换,显著降低资源消耗,同时在真实数据上达到与非窗口化神经模型相当或更好的准确率。

Verifying Machine Learning Interpretability Requirements through Provenance

  • • 作者:Lynn Vonderhaar, Juan Couder, Daryela Cisneros, Omar Ochoa
  • • arXiv URL:https://arxiv.org/abs/2604.21599v1

Abstract

机器学习工程吸收了大量软件工程与需求工程思想,但如可解释性这类非功能需求长期难以“可验”。本文提出以 ML provenance 作为实现基础,将模型训练与数据处理过程中的证据持久化,用于证明可解释性需求。保存 provenance 数据后,可将先前难以量化的解释性要求转化为可验证的功能需求;对这些功能需求进行检查即可间接验证可解释性。该方法为 ML 模型的可解释性验证提供了可操作路径。

SpecSyn: LLM-based Synthesis and Refinement of Formal Specifications for Real-world Program Verification

  • • 作者:Lezhi Ma, Shangqing Liu, Yi Li, Qiong Wu, Han Wang, Lei Bu
  • • arXiv URL:https://arxiv.org/abs/2604.21570v1

Abstract

程序验证需要大量跨过程规格,而手工构建完整规格代价高、耗时长。现有 LLM 方案虽有所进展,但在处理大型程序与评估规格强度上仍不足。本文提出 SpecSyn:先将输入程序切分为片段,再迭代生成中间规格,并通过语义非等价变异与对比鉴别机制对规格进行强化。实验证明,SpecSyn 的精度可维持在 90% 以上、召回高于 75%,并在 1365 个目标性质中成功处理 1071 个。该方法在真实开源程序验证任务中显著增强了可扩展性与可验证性。

Probabilistic Verification of Neural Networks via Efficient Probabilistic Hull Generation

  • • 作者:Jingyang Li, Xin Chen, Hongfei Fu, Guoqiang Li
  • • arXiv URL:https://arxiv.org/abs/2604.21556v1

Abstract

本文研究神经网络在概率分布输入下满足输出安全约束的概率。为求解受扰动输入下的安全概率区间,我们提出新框架,核心是高效构建安全/不安全概率壳。方法由三部分组成:基于回归树的状态空间细分、面向边界的采样策略、以及带概率优先级的迭代细化。该框架在 ACAS Xu 与火箭着陆控制等基准上均表现出优于现有方法的优势,且能输出安全概率的保守但可证明范围。

Linear Constraints

  • • 作者:Arnaud Spiwack, Csongor Kiss, Jean-Philippe Bernardy, Nicolas Wu, Richard A. Eisenberg
  • • arXiv URL:https://arxiv.org/abs/2604.21467v1

Abstract

线性约束是 Haskell 类约束的线性对应物。线性类型能在编译期追踪一次性资源,但显式传递线性参数增加样板代码。线性约束将其抽象为可由编译器自动填充的“隐式线性参数”,并与约束求解器集成。该特性被形式化为一个合格类型系统,并扩展 GHC 的约束求解算法实现,保持可归约的 soundness;通过映射到 Linear Haskell 可验证性。修订扩展版本相较先前版本更简化,新增了若干应用场景。

Active Inference of Extended Finite State Machine Models with Registers and Guards

  • • 作者:Roland Groz, German Eduardo Vega Baez, Adenilso Simao, Catherine Oriat, Neil Walkinshaw, Michael Foster
  • • arXiv URL:https://arxiv.org/abs/2604.21378v1

Abstract

EFSM 兼顾数据与控制,可用于建模带内部变量的状态系统,但传统反向推断通常需要重置能力,或无法处理数据依赖分支。本文提出一种主动学习算法,在黑箱假设下推断带寄存器与守卫的 EFSM,显著弱化了传统方法对可重置和纯输入依赖的假设。该方法面向实际系统学习更真实的行为模型,为后续验证与检测提供更接近真实世界的抽象。

Trustworthy Clinical Decision Support Using Meta-Predicates and Domain-Specific Languages

  • • 作者:Michael Bouzinier, Sergey Trifonov, Michael Chumack, Eugenia Lvova, Dmitry Etin
  • • arXiv URL:https://arxiv.org/abs/2604.21263v1

Abstract

医疗 AI 监管(如 EU AI Act、FDA AI/ML 指南)要求决策支持不仅准确,还要可审计。现有临床决策 DSL 主要验证语法与结构正确性,却无法保证证据来源是否符合认知学意义要求。我们基于设计即契约思想,提出 meta-predicates(元谓词)来约束决策规则使用的证据类型。该框架定义包含目的、知识域、量纲和获取方法的证据类型系统,并在 AnFiSA 上实现验证链路。以 Brigham Genomics Medicine 协议和 Genome in a Bottle 的 560 万变量为例,决策树可映射为非对称级联,给出逐样本可追溯的审核路径;模型无论是人工编写还是 AI 生成,均可在部署前剔除不合规证据,补充了 LIME/SHAP 等事后解释方法的不足。

安全与漏洞治理

CrossCommitVuln-Bench: A Dataset of Multi-Commit Python Vulnerabilities Invisible to Per-Commit Static Analysis

  • • 作者:Arunabh Majumdar
  • • arXiv URL:https://arxiv.org/abs/2604.21917v1

Abstract

我们发布 CrossCommitVuln-Bench,汇总 15 个现实 Python 漏洞(CVE),其中可被攻击的条件跨越多个提交才逐步形成,每个单提交片段本身通过静态分析看似正常。每条漏洞都标注了贡献提交链、为何 per-commit 分析会错过的结构化解释,以及 Semgrep、Bandit 在单提交与累积扫描下的基线结果。核心发现是 per-commit 检测率仅 13%,即 87% 漏洞链对传统按提交静态分析不可见;即便累积扫描,检测率也仅 27%。该数据集与评估脚本公开,支持跨提交漏洞检测研究。

Strategic Heterogeneous Multi-Agent Architecture for Cost-Effective Code Vulnerability Detection

  • • 作者:Zhaohui Geoffrey Wang
  • • arXiv URL:https://arxiv.org/abs/2604.21282v1

Abstract

代码漏洞检测常在准确率与成本之间权衡。本文提出 3+1 异构多代理架构:三个基于云的 DeepSeek-V3 专家从结构、模式、调试逻辑三视角并行分析代码,本地 Qwen3-8B 负责对抗式复核。我们用两层博弈建模框架 formalize 该设计(专家间协同博弈与质量验证对抗博弈),并在 NIST Juliet 262 个样本、14 类 CWE 上验证。结果 F1 达 77.2%,精度 62.9%,召回 100%,且与单一 LLM 或 Cppcheck 相比显著提升,且每样本成本仅 0.002 美元,代理式过滤使误报率明显下降并取得约 3 倍加速。

Hidden Dependencies and Component Variants in SBOM-Based Software Composition Analysis

  • • 作者:Shawn Rasheed, Max McPhee, Lisa Patterson, Stephen MacDonell, Jens Dietrich
  • • arXiv URL:https://arxiv.org/abs/2604.21278v1

Abstract

SBOM 在供应链安全中愈发关键,但其价值依赖于组件身份与依赖关系的准确性。本文识别了两类常见错配:未显式建模的隐藏代码级依赖、以及扫描器难以一致识别的组件变体(克隆)。这类错配会导致不同 SCA 工具在漏洞报告与 VEX 处理上出现不一致,进一步放大风险判断差异。作者呼吁改进 SBOM 生成与消费中的依赖和身份建模,以提升跨工具协同治理效果。

系统、架构与交互系统

Can Large Language Models Assist the Comprehension of ROS2 Software Architectures?

  • • 作者:Laura Duits, Bouazza El Moutaouakil, Ivano Malavolta
  • • arXiv URL:https://arxiv.org/abs/2604.21699v1

Abstract

背景:ROS2 是目前最常见的机器人软件开发框架,但其去中心化的分布式架构包含大量组件,理解架构信息具有挑战。本文评估了 LLM 在帮助理解 ROS2 架构事实信息方面的作用。我们设计了一个可控实验,在 3 个不同规模的 ROS2 系统上向 9 个 LLM 提交 1,230 个面向架构问题的提示,并用 3 套真实系统监测结果构建真实标签。实验结果显示,所有模型平均正确率达 98.22%,其中 gemini-2.5-pro、o3、gemini-2.5-flash 最强,gpt-4.1 最弱但仍接近 95%。错误主要集中在最复杂系统(约 249 例)。该工作表明 LLM 可较好辅助 ROS2 架构理解,但复杂场景下仍有可见局限,不同模型在正确率、解释一致性和困惑度上差异显著,使用时应考虑任务敏感性。

Equinox: Decentralized Scheduling for Hardware-Aware Orbital Intelligence

  • • 作者:Ansel Kaplan Erol, Divya Mahajan
  • • arXiv URL:https://arxiv.org/abs/2604.19958

Abstract

地球观测卫星正成为面向实时任务的分布式边缘平台,但任务调度受限于间歇性供能、时间耦合与电池安全。现有调度器多基于静态优先级,缺乏动态剪裁能力。我们提出 Equinox,一个轻量级去中心化调度运行时:将时间变化约束(电池电量、热裕度、队列积压)压缩为状态相关的边际执行成本,成本源自障碍函数并同时编码即时压力与未来风险。各节点据该信号自治决策,任务价值不足则丢弃;当邻居成本更低时可跨星间转移任务,实现无需路由协议和全局状态的分布式负载均衡。基于 143 星座、多日仿真和 Jetson Orin Nano 物理测量,Equinox 在科学吞吐量和图像处理吞吐上分别提升 20% 和 31%,同时保持约 2.2 倍电池储备改进,在高负载下执行率可达静态策略的 5.2 倍。