AI介绍系列 · 第四讲
Common AI Systems
从视觉到语言:AI的五大落地形态
当我们谈论AI时,常常聚焦于深度学习、神经网络等技术内核。但技术的价值最终要通过落地形态来体现——AI是如何真正改变我们的生活和工作的?
本讲将系统梳理AI领域的五大落地形态:从模拟人类专家决策的专家系统,到"看懂"世界的计算机视觉,从"理解"语言的NLP,到具身智能的机器人与自动驾驶。这些系统共同构成了当前AI应用的完整图景。
Expert Systems & Knowledge Graphs
专家系统与知识图谱
专家系统(Expert Systems)是AI领域最早的实用化分支之一。它模拟人类专家的决策能力,通过编码领域知识来解决特定问题。其核心架构包含两大组件:
- 知识库(Knowledge Base):存储领域规则、事实和关系,如同专家的大脑记忆
- 推理引擎(Inference Engine):运用逻辑规则对知识库进行推理,得出结论
1970年代的MYCIN系统是医学诊断专家系统的先驱,能够根据患者的症状和检查结果推荐抗生素治疗方案,准确率据报道可媲美人类传染病专家。而DENDRAL系统则专注于化学分子结构分析,帮助化学家推断未知化合物的分子结构。

图1:专家系统核心架构 —— 知识库、推理引擎与用户界面
随着互联网时代到来,专家系统的思想与大规模数据结合,催生了知识图谱(Knowledge Graph)这一现代形态。2012年,Google正式推出知识图谱产品,将"实体-关系-实体"的三元组结构融入搜索引擎,大幅提升了搜索结果的信息丰富度和准确性。
知识图谱的本质是语义网络的工程化实现。它不再依赖人工编写的规则,而是通过信息抽取技术从海量文本中自动构建。目前,Google Knowledge Graph已包含超过5,000亿个事实,覆盖人物、地点、事件等各类实体。
现代应用中,知识图谱支撑着智能问答(如小度、Siri)、个性化推荐、内容理解等核心场景。当你在电商平台搜索"适合程序员的礼物"时,背后正是知识图谱在关联程序员、礼物、电子产品等实体及其关系。
💡 Takeaway #1
专家系统证明了"知识+推理"可以模拟专家决策;知识图谱则将这一思想规模化,从规则驱动走向数据驱动。今天的智能问答、推荐系统背后,都能看到它们的身影。
Computer Vision
计算机视觉
计算机视觉(Computer Vision)让机器具备"看懂"图像和视频的能力。这听起来简单——人类用十分之一秒就能识别一只猫,但对计算机而言,这曾是极其困难的任务。
视觉识别涉及多个层次的核心任务:
- 图像分类(Image Classification):判断"这张图里有什么"——是猫还是狗
- 目标检测(Object Detection):定位"在哪里,有什么"——标出画面中的行人、汽车
- 语义分割(Semantic Segmentation):像素级理解——逐像素标注属于哪个类别
- 人脸识别(Face Recognition):身份验证与人脸追踪

图2:计算机视觉四大核心任务 —— 分类、检测、分割、人脸识别
计算机视觉的技术演进经历了两个时代。早期的特征工程时代依赖人工设计的特征描述子,如SIFT(尺度不变特征变换)和HOG(方向梯度直方图)。这些方法需要领域专家精心设计特征提取算法,泛化能力有限。
深度学习彻底改变了这一领域。2012年,AlexNet在ImageNet竞赛中以压倒性优势夺冠,证明了卷积神经网络(CNN)的强大能力。此后,ResNet的残差连接、YOLO的实时检测等技术相继出现,将视觉识别推向实用化。
今天,计算机视觉已广泛应用于:
然而,计算机视觉仍面临挑战:对抗样本攻击可通过在图像中添加人眼不可见的扰动来欺骗模型;隐私争议持续存在于人脸识别应用;模型的"黑盒"特性也使得决策解释性不足。这些问题正在推动可解释AI、隐私保护计算等新方向的研究。
💡 Takeaway #2
CNN是计算机视觉的革命性突破,从ImageNet到YOLO,深度学习让机器视觉从实验室走向千行百业。但对抗样本、隐私、解释性三大挑战仍是待解难题。
Natural Language Processing
自然语言处理
自然语言处理(NLP)让机器能够理解、生成和交互人类语言。从语音助手到机器翻译,从情感分析到智能问答,NLP正在重塑人机交互的方式。
NLP涵盖语言处理的多个层次:语音识别(声音→文本)、词法分析(分词、词性标注)、句法分析(依存分析、成分分析)、语义理解(意图识别、实体抽取)、语篇处理(指代消解、篇章生成)。
核心应用任务包括:
- 机器翻译:从Rule-based到Neural MT,Google Translate、DeepL
- 情感分析:判断文本的情感倾向(正面/负面/中性)
- 命名实体识别(NER):从文本中抽取人名、地名、机构名
- 问答系统:从知识库问答到开放域问答

图3:NLP三次范式转移 —— 从规则到统计,再到神经与大模型
NLP经历了三次范式转移。1950-1980年代是规则NLP时代,依赖语言学家编写的语法规则库,但难以处理语言的多样性和歧义性。1990-2010年代,统计NLP崛起,通过大规模语料库学习语言规律,统计机器翻译成为主流。
2013年,Word2Vec将词嵌入技术带入NLP;2017年,Transformer架构横空出世;2018年,BERT以"预训练+微调"范式刷新了几乎所有NLP基准测试;2020年至今,GPT系列开启大语言模型(LLM)时代。
LLM带来了革命性的新能力:上下文学习(In-context Learning)使模型无需微调即可学习新任务;思维链(Chain-of-Thought)通过让模型"思考"来提升推理能力;思维树(Tree-of-Thought)则进一步探索解空间。
聊天机器人的进化史正是NLP发展的缩影:
💡 Takeaway #3
Transformer是NLP的"iPhone时刻"。从BERT到GPT,从In-context Learning到思维链,LLM不仅提升了NLP性能,更重新定义了"语言模型能做什么"——从工具到Agent的跨越正在发生。
Robotics & Autonomous Systems
机器人与自动驾驶
如果说前面三个领域侧重于"感知"和"认知",那么机器人与自动驾驶则代表着AI的"具身智能"——将感知、决策、执行形成闭环,在物理世界中完成任务。
机器人AI的特殊性在于它必须处理感知-决策-执行的闭环系统:传感器获取环境信息(视觉、触觉、力矩等),AI算法进行决策规划,最终驱动机械臂、轮子等执行器完成动作。这个闭环必须在毫秒级时间内完成,且需要处理大量不确定性。
自动驾驶是机器人AI最引人注目的应用场景之一。按照SAE(国际汽车工程师学会)标准,自动驾驶分为六个等级:

图4:SAE自动驾驶等级 L0-L5 —— 从辅助驾驶到完全无人驾驶
L0-L2属于辅助驾驶,驾驶员全程负责;L3是分水岭,车辆在特定场景下可自动驾驶,但驾驶员需随时准备接管;L4在限定区域实现完全无人驾驶;L5则是终极目标——任何场景下的完全自动驾驶。
自动驾驶的技术栈极其复杂,涉及:
- 传感器融合:LiDAR(激光雷达)、摄像头、毫米波雷达、超声波传感器协同
- SLAM定位:同步定位与地图构建,在未知环境中确定自身位置
- 高精地图:厘米级精度的道路信息数据库
- 行为预测:预测行人、车辆的未来轨迹
- 运动规划:生成安全、舒适的行驶轨迹
当前自动驾驶存在两条技术路线之争:
🟠 特斯拉 FSD
纯视觉方案(Vision Only),依靠8个摄像头+深度学习,摒弃激光雷达。优势在于成本低、规模效应强。
🟢 Waymo
多传感器融合路线,保留激光雷达+高精地图。优势在于安全性更高,但成本和扩展性是挑战。
同时,技术路线上也存在端到端与模块化的之争。端到端方案(如特斯拉FSD V12)用单一神经网络直接从传感器输入到控制输出;模块化方案则将任务拆分为感知、预测、规划等独立模块。两者各有优劣,端到端在数据足够时上限更高,模块化在可解释性和安全性上更有保障。
人形机器人是近年的新热点。将自动驾驶技术迁移到双足机器人身上,Boston Dynamics的Atlas、Figure AI的Figure 01、Tesla的Optimus正在掀起新的产业革命。具身智能被认为可能是通往通用人工智能(AGI)的必经之路。
💡 Takeaway #4
机器人与自动驾驶代表AI从"数字世界"走向"物理世界"。从辅助驾驶到具身智能,感知-决策-执行的闭环能力将成为下一代AI的核心竞争力。
课程总结
本讲我们系统梳理了AI的五大落地形态:
•专家系统与知识图谱——知识表示与推理的演进
•计算机视觉——让机器看懂世界
•自然语言处理——让机器理解语言
•机器人与自动驾驶——具身智能的崛起
这四大领域并非孤立发展——视觉与语言正在融合(GPT-4V、Gemini),语言与机器人开始结合(RT-2、VLA),知识图谱与大模型相互增强。AI的未来,属于多模态、跨领域的融合创新。
📚 AI介绍系列 · 进度追踪
第五讲预告:大模型与生成式AI · 敬请期待
💬 关注并设为星标,获取AI介绍系列完整更新
技术驱动 · 知识普惠 · 与你一起探索AI的边界
夜雨聆风