
一、机器学习基础
· 监督学习、无监督学习、强化学习、特征与标签
二、核心算法与模型
· 神经网络、深度学习、Transformer、大语言模型(LLM)
三、训练关键技术
· 损失函数、反向传播、优化器、过拟合与欠拟合、训练/验证/测试集
四、数据处理与工程
· Token、Embedding、提示词(Prompt)、RAG(检索增强生成)
五、生成式AI常用概念
· 温度(Temperature)、上下文窗口、幻觉、多模态
六、智能体开发核心概念
(一)基础概念
· 智能体(Agent)、大模型作为智能体核心、规划(Planning)、工具使用(Tool Use)、记忆(Memory)、反射(Reflection)、自主行为、多智能体系统、智能体框架、ReAct模式、函数调用/工具调用、智能体循环、知识库、动作空间、观测、环境
(二)核心通信协议层(MCP、A2A、AG-UI等)
· MCP(模型上下文协议)、A2A(代理间协议)、AG-UI(代理-用户界面协议)、MCP与A2A协同、AIP(智能体互联协议)、ANP(代理网络协议)、ACP(代理通信协议)、ATH(智能体可信握手协议)
(三)常用大模型与调用方法
🔹 国际主流模型
· OpenAI GPT系列(GPT-5.4 / GPT-4o / o3 / GPT-5.5 / GPT-5-Codex):代码Agent领域领先,生态最丰富;GPT-5.5定位编码、在线研究、数据分析、工具调用,GPT-4o擅长多模态实时交互,通用能力天花板
· Anthropic Claude系列(Claude Opus 4.6 / Claude Sonnet 4.6 / Claude Code):编程和复杂推理领先,支持1M上下文,代码能力和长文档理解突出,安全合规
· Google Gemini系列(Gemini 3.1 Pro / Gemini 2.5 Pro / Gemma 3 27B):多模态融合全球领先,1M上下文,支持跨语言编程、草图转3D,性价比高
🔹 国产主流模型
· DeepSeek系列(DeepSeek-V3/R1 / V4-Pro / V4-Flash):数学推理和代码能力全球顶尖,高性价比,开源友好,V4-Pro支持1M长上下文,成本控制极佳
· 通义千问(Qwen)系列(Qwen3-235B / Qwen3-Max / Qwen3.6 / Qwen2.5-Coder):中文质量优秀,开源生态全球最大(HuggingFace开源占5席),多模态和多语言能力强
· 文心一言(ERNIE)系列:中文理解全球第一,方言识别准确率92%,金融风控平台被60%国有大行采用,视觉理解国内领先
· 智谱GLM系列(GLM-4 / GLM-4.6 / GLM-4.5):中英双语能力强,开源友好,编码能力对齐国际模型,性价比高
· 月之暗面Kimi系列:长文本处理核心标杆,支持200K-256K上下文,RAG和文档分析场景领先
· 豆包(字节跳动)系列(Seed-1.6 Pro / Doubao-pro):多模态能力国内领先,语音交互自然,中文幻觉率仅4%,256K长文本解析
· 腾讯混元系列:依托微信生态,长文本处理和社交场景集成优势明显
· 讯飞星火系列:长文本和多语言能力突出,多语种翻译和长文本生成综合占优
🔹 调用方式与核心协议(详参v2.0)
(四)✨ 各应用场景的推荐模型与厂商
🔸 通用对话与智能客服
· 首选推荐:GPT-5.4 / GPT-4o(综合体验最佳)、文心一言5.0(中文场景)、豆包(国内高并发)
· 核心能力:自然对话、多轮互动、情感识别、高并发适配
· 适用场景:企业客服机器人、个人AI助手、社交应用
· 代表厂商:OpenAI、百度、字节跳动
🔸 代码开发与编程
· 首选推荐:GPT-5.4(多语言多范式编程,Vellum编程榜88分综合第一)、Claude 3.7 Sonnet(跨语言项目迁移,agentic coding行业领先)、DeepSeek-Coder-V2(嵌入式MCU/ARM底层代码,开源免费)、通义千问Max
· 核心能力:多语言代码生成、bug修复、项目迁移、代码注释、agentic coding
· 适用场景:AI代码助手、全栈开发、自动测试、代码重构
· 国产亮点:DeepSeek V3.2 Exp评估成本仅为国际模型的2%;智谱GLM-4.6和DeepSeek实现一次生成黄金矿工小游戏完整运行
· 代表厂商:OpenAI、Anthropic、深度求索、阿里
🔸 复杂推理与数学问题
· 首选推荐:GPT-5.5(Terminal-Bench 2.0评分82.7%)、DeepSeek-R1系列(数学推理全球前列)、通义千问Max(数学推理国内顶尖)
· 核心能力:链式推理(CoT)、数学证明、算法优化、逻辑推理
· 适用场景:科研分析、数学解题、算法设计、量化交易
· 代表厂商:OpenAI、深度求索、阿里
🔸 多模态应用(图像/视频/音频)
· 首选推荐:Gemini 3.1 Pro / 2.5 Pro(多模态融合全球第一,MMLU准确率91.8%,草图转3D)、GPT-4o(实时响应232ms,语音+图像+文本混合输入)、通义千问-VL、文心一言
· 核心能力:图文理解、视频动态推理、语音交互、视觉生成
· 适用场景:AI数字人、医疗影像诊断(准确率提升15%)、多模态内容审核、视频分析
· 多模态(视频生成):Stable Diffusion 3.5(艺术插画)、Midjourney V6、Pika 1.0、Runway Gen-3
· 代表厂商:Google、OpenAI、阿里、字节跳动
🔸 RAG与知识库检索增强
· 首选推荐:GPT-5.5(重工具任务和在线研究领先)、Cohere Command R+(1040亿参数,企业级RAG专用,内联引用减幻觉,吞吐量↑50%,延迟↓25%)、DeepSeek V4(长上下文成本控制极佳)、Qwen2.5-Coder 32B(本地部署,HumanEval 92.7%)
· 核心能力:语义检索、向量数据库集成、内联引用、多源知识融合
· 核心堆栈(本地RAG标准):Llama 3.3 70B(生成)+ nomic-embed-text(嵌入),128K上下文
· 适用于:企业知识问答、智能客服、法律/金融文档分析
· 代表厂商:OpenAI、深度求索、Cohere、Meta
🔸 多智能体系统与MCP应用
· 首选推荐:GPT-5.4(Agent执行和流程自动化主力)、Claude Opus 4.6(多智能体协同复杂研究,10万行代码重构)、Qwen3-Coder 30B(agentic coding强化学习训练,SWE-Bench优化)、Gemma 4 26B(原生工具调用)
· 核心能力:工具调用、规划推理、自主执行、Agent间协作
· 适用场景:自动化流程管理、复杂任务分解、多角色协同工作流
· 代表厂商:OpenAI、Anthropic、阿里、Google
🔸 本地部署与隐私计算
· 首选推荐:Llama 3.3 70B(生成)、Qwen2.5-Coder 32B(代码本地化)、DeepSeek开源版、Phi-4 14B(数学)、Gemma 4 26B(多模态)
· 核心能力:本地推理、数据不出域、无网络依赖、低延时响应
· 本地部署工具:Ollama(个人开发者首选,一键部署模型市场200+预量化模型)、vLLM(企业高并发,PagedAttention降70%显存碎片)、llama.cpp(低配设备,CPU推理提速3-5倍)
· 关键参数:Llama 3.1 8B(Q4量化后仅6GB显存)、Qwen2.5-Coder 7B(适配8GB GPU)
· 适用于:企业数据安全、边缘计算、离线应用、个人开发调试
· 代表厂商:Meta、阿里、Google、微软、深度求索
🔸 办公协作与数据分析
· 首选推荐:GPT-5.5(电子表格工作、数据分析定位)、GPT-4o(复杂Excel函数嵌套生成)、文心一言4.5(PPT全流程)、WPS AI(文档格式优化)
· 核心能力:文档处理、表格分析、PPT生成、会议纪要
· 适用场景:商务办公、教育备课、报告撰写
· 核心工具组合:MiniMax Abab6(WPS协同)、豆包AI云盘(PDF智能解析+无限存储)、PaddleOCR-VL(票据/合同OCR准确率99%)
· 代表厂商:OpenAI、百度、金山、字节跳动
🔸 长文本处理(合同/论文/代码库)
· 首选推荐:Kimi(200K-256K上下文,长文本RAG标杆)、通义千问Max(128K-256K学术综述生成)、GPT-5.4(1,050K上下文)、Claude Sonnet 4.6(1M上下文)
· 核心能力:多轮长对话、百万Token处理、跨文档推理、章节关联分析
· 关键技术:材料滚动拼接与成本控制(GPT-5.4输入超272K触发单价上浮);Claude保持标准定价,主动缓存长系统提示效果显著
· 适用场景:法律合同审查、学术论文综述、金融年报分析、百万行代码库实时分析
· 代表厂商:月之暗面、阿里、OpenAI、Anthropic
🔸 语音交互与多语言翻译
· 首选推荐:讯飞星火(多语言翻译综合得分90.2分)、GPT-4o(实时语音响应232ms)、豆包1.5(国内语音交互最佳)、Gemini 2.5 Pro(多语言编程+语音支持)
· 核心能力:语音识别、实时翻译、口音适应、多轮语音对话
· 适用场景:实时会议翻译、语音助理、视频字幕生成、跨境电商客服
· 代表厂商:科大讯飞、OpenAI、字节跳动、Google
🔸 教育学习与知识问答
· 首选推荐:文心一言(中文知识问答场景占优)、GPT系列(通用知识问答万金油)、智谱GLM(知识库精准,中英双语能力强)、豆包(高并发适配教育应用)
· 核心能力:知识覆盖广度、教育内容生成、题目解析、自适应学习路径
· 适用场景:在线教育、智能辅导、知识管理平台
· 代表厂商:百度、OpenAI、智谱、字节跳动
🔸 医疗健康垂直领域
· 首选推荐:讯飞星火医疗 X1(MedBench评测综合第一,门诊诊断准确率93.1%,达主任级医师水平)、联影元智(医学影像+文本多模态融合)、百川医疗(开源模型医疗能力全球第一)
· 核心能力:病历结构化(F1值92.3%)、影像诊断、医疗知识问答、多模态辅助分析
· 适用场景:门诊辅助、病历分析、体检报告解读、分级诊疗
· 代表厂商:科大讯飞、联影、百川智能
🔸 金融科技垂直领域
· 首选推荐:华为盘古金融(FinEval 6.0评测名列前茅,反洗钱模型识别准确率提升至94%)、文心一言(金融风控平台60%国有大行采用)、蚂小财(理财规划、风险评估)、东方财富妙想(投资简报生成)
· 核心能力:金融数据分析、风险控制、智能投顾、信贷评估
· 适用场景:智能投顾、金融报告分析、反洗钱风控、客户信用评估
· 代表厂商:华为、百度、蚂蚁集团、东方财富
🔸 法律科技垂直领域
· 首选推荐:觉晓青天(CAIL评测冠军全流程智能教学)、HK-O1aw(全球首个“慢思考”法律推理模型)、Kanon 2 Reranker(Legal RAG Bench评测第一,超越Qwen 3 Reranker 9%)
· 核心能力:法条精准定位、法律文书分析、合同审查、案例溯源
· 重要数据:小包公法条定位精准度高达92%,提供可溯源法律回答
· 适用场景:法律咨询、合同审查、案例检索、法律文书撰写
· 代表厂商:觉晓法律、HK-O1aw、小包公
🔸 制造与工业垂直领域
· 首选推荐:华为盘古工业(设备故障预测、工艺优化,钢铁/煤矿/电力行业深度落地)、骄阳・工业大模型(SuperCLUE工业评测总分83.44第一)、讯飞星火V3.0(半导体晶圆检测漏检率仅0.7%)
· 核心能力:缺陷检测、故障预测、质量控制、工艺流程优化
· 核心实战数据:盘古3.0在电力设备巡检中训练周期从7天缩短至18小时;反洗钱模型识别准确率从82%提升至94%,误报率降至3.1%
· 适用场景:设备维护、质量检测、工业仿真、智能巡检
· 代表厂商:华为、科大讯飞、骄阳
🔸 中文内容创作与社交媒体
· 首选推荐:文心一言5.0(中文语境全球第一,方言识别92%)、豆包(中文幻觉率仅4%,亿级并发适配)、通义千问Qwen3、天工4.0(抖音/视频号爆款脚本+口播文案)
· 核心能力:中文语感、内容创意、文案策划、热点捕捉、社交媒体适配
· 适用场景:新媒体运营、短视频策划、广告文案、直播脚本
· 代表厂商:百度、字节跳动、阿里、昆仑万维
七、其他常见概念
· 图灵测试、强AI vs 弱AI、AGI(通用人工智能)、对齐
夜雨聆风