乐于分享
好东西不私藏

2026.4.30-AI前沿技术资讯

2026.4.30-AI前沿技术资讯

一、AI行业动态

1.DeepSeek上线识图模式,多模态视觉理解正式落地

    DeepSeek近期更新了“识图模式”,具备了图像理解能力,其对常见图片(如电影剧照、广告图)识别准确、响应迅速,并能进行一定程度的隐喻解读和推理。但在复杂视觉推理(如数手指)和识别最新内容时仍有不足,且暂不支持部分文件格式。
    来源:刚刚,DeepSeek大更新!终于「开眼」了| 附大量实测

2.小米正式开源MiMo-V2.5系列模型

    MiMo-V2.5系列包含Pro旗舰Agent、全模态基座、TTS语音合成、ASR语音识别四大模型,Pro在长程任务和模糊指令理解上表现出色,能自主完成复杂软件开发,且效率高、成本低。TTS支持通过文本描述生成或克隆音色。ASR支持中英双语、多种方言及唱歌等复杂场景,识别准确率领先。
    来源:小米双模型正式开源!MiMo-V2.5-Pro无中断肝出“macOS”:54个应用全开、浏览器真能冲浪

3.生数科技发布通用世界行动模型Motubrain双榜

    Motubrain基于UniDiffuser框架统一建模视频与动作模态,定位具身智能机器人通用大脑,具备多本体适配、多任务泛化与长程任务执行能力,其核心是将世界推演(World Model)和行动决策(Action Model)融合在同一个模型中。
    来源:「为行动而生」生数科技发布通用世界行动模型 Motubrain

4.面壁智能发布的MiniCPM-o 4.5技术报告

    MiniCPM-o 4.5首创端到端全双工全模态架构,通过Omni-Flow框架实现毫秒级多模态信息流同步处理,模型可边看视频/听声音边实时响应,支持打断与主动提醒功能。该模型仅需9B参数,支持消费级显卡本地部署,最低12GB显存的RTX 5070即可流畅运行。
    来源:消费级显卡可以快速上手跑!面壁智能MiniCPM-o 4.5发技术报告

5.英伟达发布全模态Nemotron 3 Nano Omni模型

    Nemotron 3 Nano Omni采用混合型MoE架构,融合Mamba层(提升序列处理效率与内存利用率)与Transformer层(保障推理精度),能够深度融合文本、视觉、语音三大模态,可以处理文本、图像、音频、视频、文档、图表、图形界面等多种输入,并以文本形式输出。
    来源:英伟达全模态大模型来了,几秒搞定老黄3分钟演讲,吞吐量同类9倍

6.阶跃星辰发布新一代图像生成编辑模型Step Image Edit 2

    Step Image Edit 2采用多专家自演化学习和分布匹配强化学习两大创新,参数量仅为3.5B,但超越12B-20B 级开源图像编辑大模型,单次生图仅需0.5-2s,提供图像生成与图像编辑两项能力,支持中英文渲染、局部编辑、视觉推理、主体一致性、风格迁移等。
    来源:阶跃 Step Image Edit 2 上线!小身材、大能力、快响应

7.商汤开源SenseNova U1系列原生理解生成统一模型

    SenseNova U1系列原生理解生成统一模型,基于NEO-unify架构,能在单一模型内直接处理和理解图文信息,并同步完成图文生成、编辑、视觉推理等复杂任务。轻量版U1 Lite推出8B-MoT和A3B-MoT两个规格,多项基准测试达同量级开源SOTA。
    来源:全面开源!商汤日日新SenseNova U1发布,迈向模型理解生成统一时代

8.腾讯混元开源极致量化压缩版翻译模型Hy-MT1.5-1.8B-1.25bit

    腾讯混元推出极致量化压缩版本翻译模型 Hy-MT1.5-1.8B-1.25bit,把支持 33 种语言的翻译大模型压缩至 440MB,无需联网,下载即可直接在手机本地运行,翻译质量优于谷歌翻译。
    来源:出国必备+1!腾讯混元开源手机端离线翻译模型,仅0.4G,支持33种语言

9.银河通用发布跨本体世界动作模型LDA-1B

    LDA-1B参数规模1.6B,采用WAM(World-Action Model)世界-动作融合路线,在单一扩散模型框架内统一学习策略、动力学与视觉预测,实现跨本体的快速自适应。
    来源:银河通用LDA定义全域数据利用范式,跨本体世界动作大模型开启具身GPT-2时刻

10.百度发布通用智能体GenFlow 4.0,全面升级Office Agent

    用户可通过一句话指令,让AI并行处理PPT、Excel、Word任务,将数天办公流程压缩至分钟级。同时推出“牛马虾”体系,支持个人与团队在网盘内一键部署智能体,实现文件处理与工作流自动化,旨在赋能个人成为“超级个体”、助力团队进化为“超级组织”。
    来源:百度GenFlow 4.0发布,Office三件套全包了,还能养「牛马虾」

二、AI+钢铁动态

1.宝钢:2026年“AI+”主题日发布AI创新成果:三大行业引领性体系(全域智能架构BaoAIArts、AI场景白皮书、产线“智驾”分级标准)、六大突破性AI应用(高炉/转炉AI炉长、热冷轧及硅钢AI主操等),以及“智宝”AI助手,可实现全流程数据贯通与智能分析诊断。
    来源:宝钢股份2026“AI+”主题日发布重磅成果
2.宝信:在“宝之云MaaS”平台首发上线DeepSeek-V4系列大模型(含Pro与Flash双版本),以支撑宝武集团AI战略。该模型原生支持百万级上下文,具备强大推理与智能体能力,可高效应用于工业复杂场景。
    来源:宝之云MaaS首发上架DeepSeek-V4
3.涟钢:湖南钢铁集团涟钢与华为联合打造的“涟钢—华为盘古大模型”正式上线运行。该大模型基于华为盘古底层技术,深度融合涟钢丰富的生产场景与工艺经验,目前已成功开发并部署10项智能算法,精准覆盖九大视觉检测场景及热轧核心工艺环节。
    来源:涟钢与华为联合打造的盘古大模型正式上线
4.冀南钢铁:全流程智能炼钢大模型正式上线运行,实现冶炼可视化、多工序协同断层、复杂工况自适应控制三大核心技术突破,构建铁钢衔接智能化管控、自动炼钢、自动出钢出渣及智能氩站、智能连铸五大核心模块,实现生产组织与工艺控制全域联动、高效协同。
    来源:冀南钢铁:从经验炼钢到数据炼钢,推动钢铁生产从“经验驱动”向“数据驱动”跃迁
5.武钢:武钢通过智能化转型能力体现在:构建全流程自动化产线(机器人、立体库),应用自研AI模型(视觉识别、参数优化)实现微米级精密控制与近99%检测精度,并基于数据驱动实现生产追溯、工艺闭环与良品率提升,正向“黑灯工厂”与全工序数据打通迈进。
    来源:武钢质检工厂“没人”了
6.首自信:依托“大模型+小模型深度融合、懂数据更懂工艺”的技术路线,成功研发了基于通用大模型的精整工序智能生产决策系统,应用多算法融合智能排程、工业知识图谱等核心技术,全面赋能生产智能化与绿色化转型。
    来源:以AI之力,赋能钢铁行业高质量发展 | 首自信公司亮相2026年钢铁行业智能制造联盟年会
7.南钢:数字研发平台覆盖全生命周期与全链条管理,实现流程标准化、知识资产化、仿真便捷化;科技信息系统利用智能检索、文本挖掘等技术,构建一站式科技信息支撑体系,为技术决策提供数据保障;AI相图计算智能体,为材料研发提供高效计算支撑。
    来源:南钢数智化转型取得里程碑式突破
8.方大特钢:方大特钢与华为合作研发的智能配煤系统正式上线,深度整合炼焦生产数据,通过煤种精准筛选与掺配比例智能优化,为减少优质炼焦煤消耗、降低配煤成本并提升焦炭质量稳定性奠定坚实基础。
    来源:【强强联合】方大特钢与华为联合研发智能配煤系统正式上线
9.山钢日照公司:通过部署120多台套机器人,并让AI机器视觉技术覆盖了169个生产场景(带钢表面缺陷实时识别、焊缝开裂智能判定、钢卷跑偏自动调控、精轧机架跑偏控制等环节),公司成功让AI“读懂”钢铁,实现了全流程的智能控制与实时质量检测。
    来源:向新而行|山东日照:如何让万吨铁水在电脑里“炼钢”

三、最新学术论文

1.《When to Commit? Towards Variable-Size Self-Contained Blocks for Discrete Diffusion Language Models》

    该研究针对离散扩散语言模型(dLLM)解码中训练与推理失配的问题,提出了“自包含性”作为块提交的依据准则。基于此原则设计了变长自包含块(VSB)方法,利用NF与FA条件化下词元级预测分布的散度来评分并选择块边界,实验验证了VSB相比固定大小块解码的有效性。
    来源:When to Commit Towards Variable-Size Self-Contained Blocks for Discrete Diffusion Language Models.pdf

2.《Representational Curvature Modulates Behavioral Uncertainty in Large Language Models》

    这篇论文揭示了自回归LLM中表征轨迹的曲率与下一词元熵(行为不确定性)之间的相关性。通过在GPT-2 XL和Pythia-2.8B上的实验,发现轨迹对齐干预可调节熵,正则化表征使其更平直则可在不降低验证损失的情况下适度降低词元级熵,将轨迹曲率定位为影响LLM行为不确定性的任务对齐表征特征。
    来源:Representational Curvature Modulates Behavioral Uncertainty in Large Language Models.pdf

3.《LLM-ReSum: A Framework for LLM Reflective Summarization through Self-Evaluation》

    这篇论文对14种自动摘要评估指标及基于LLM的评估器进行了综合元评估,覆盖五个领域七个数据集的跨领域长文档(2K–27K词),并提出了无需模型微调的自反思摘要框架LLM-ReSum,将LLM评估与生成集成为一个闭环反馈回路。
    来源:LLM-ReSum A Framework for LLM Reflective Summarization through Self-Evaluation.pdf

4.《FlowBot: Inducing LLM Workflows with Bilevel Optimization and Textual Gradients》

    这篇论文将LLM工作流构建形式化为一个双层优化问题,外层优化工作流的高层结构(LLM调用的组织方式),内层逐一优化每个LLM调用的具体执行。两个优化层均采用“文本梯度”机制,其中内层优化通过逐层反向传播文本梯度来模块化地调整各个组件。
    来源:FlowBot Inducing LLM Workflows with Bilevel Optimization and Textual Gradients.pdf

5.《Geometric Analysis of Self-Supervised VisionRepresentations for Semantic Image Retrieval》

    这篇论文评估了现代自监督视觉学习方法在语义图像检索场景中的表征几何特性,发现高度各向异性且高偏态的表征会劣化基于分区和哈希方法的近似最近邻索引性能,而各向同性更高的表征则能更好地满足ANN索引的距离假设,提升检索效果。
    来源:Geometric Analysis of Self-Supervised Vision Representations for Semantic Image Retrieval.pdf

6.《World-R1: Reinforcing 3D Constraintsfor Text-to-Video Generation》

    微软提出了一种通过强化学习增强文本到视频生成3D一致性的框架World-R1,利用Flow-GRPO算法,以预训练的3D基础模型和视觉语言模型作为奖励信号,引导视频生成模型学习几何约束,无需修改模型架构。
    来源:World-R1 Reinforcing 3D Constraints for Text-to-Video Generation.pdf

7.《Color-Encoded Illumination for High-Speed Volumetric SceneReconstruction》

    这篇文章提出了一种基于颜色编码照明的3D动态场景重建任务方法。通过用快速顺序颜色序列照射场景,在低帧率相机图像中编码高速动态信息,然后利用动态高斯溅射技术解码,实现从60 FPS到600 FPS的高速三维重建。
    来源:Color-Encoded Illumination for High-Speed Volumetric Scene Reconstruction.pdf