
很多人学AI、用AI,一直存在一个致命盲区:只会用,不会分类,看不懂原理归属。
面对五花八门的AI工具:聊天AI、绘画AI、配音AI、视频AI、识别AI……越用越乱,完全不知道它们属于哪类技术、擅长什么、短板是什么。
这就导致一个问题:想用AI提效,却永远找不到最合适的工具;遇到AI出错,永远不知道问题出在哪。
其实看似繁杂的AI应用,100%都逃不出四大核心技术分支。
今天第五讲,我们打通AI完整技术应用版图,零基础一次性讲透:NLP自然语言处理、CV计算机视觉、语音AI、多模态AI。
看完这一篇,你对AI的认知将从“碎片化工具”升级为“系统化版图”,市面上任何AI产品,你都能一眼看透本质。
第五讲:主流AI技术分支盘点——看懂AI的完整应用版图(技术分类篇)
01 所有AI,只分四大技术赛道
结合前四讲的底层逻辑我们知道:AI的核心是接收数据、学习规律、输出结果。
而数据的形态只有四种:文字、图像、声音、多类型融合数据。
对应下来,就是支撑整个AI行业的四大核心技术分支:
1、NLP自然语言处理:让AI读懂、会说、会写人类语言(文字赛道)
2、CV计算机视觉:让AI拥有眼睛,看懂图像与视频(视觉赛道)
3、语音智能技术:让AI拥有耳朵和嘴巴,听懂人声、发出人声(听觉赛道)
4、多模态AI:融合文字、图片、语音、视频,实现全维度智能(融合赛道)
前三类是单模态AI,专攻单一领域;最后一类是现代主流AI,也是当下大模型的核心进化方向。
02 NLP自然语言处理:AI的“语言大脑”
一句话定义:所有和人类文字、语言逻辑相关的AI,全部属于NLP领域。
这是离普通人最近、使用率最高的核心AI技术,也是大模型的核心底座。
它的核心任务只有两件事:理解人类语言、生成人类语言。
✅ 核心能力拆解
- 语义理解:读懂你的提问、看懂文章逻辑、识别情绪与意图
- 文本生成:写文案、写脚本、写论文、做总结、续写内容
- 语言处理:翻译、润色、纠错、改写、提取关键词、分类内容
- 逻辑推理:解题、梳理思路、方案策划、问答交互
✅ 我们日常在用的NLP产品
ChatGPT、文心一言、通义千问、智能客服、机器翻译、AI文案工具、AI思维导图、文本摘要工具。
✅ 优缺点通俗总结
优势:逻辑梳理、文字创作、知识问答、信息处理能力极强;
短板:没有视觉感知,看不懂图片视频,对抽象画面、空间场景完全无感。
03 CV计算机视觉:AI的“眼睛”,看懂整个世界
一句话定义:让机器拥有视觉能力,看懂图片、视频、画面信息的AI技术。
如果说NLP是AI的大脑,那CV就是AI的眼睛,是落地场景最广、工业价值最高的AI分支。
它的核心任务:解析画面、识别特征、判断内容、生成视觉素材。
✅ 核心能力拆解
- 图像识别:人脸识别、物体识别、场景分类、菜品识别、车牌识别
- 图像生成:AI绘画、AI修图、AI换背景、高清修复、图片扩图
- 视频处理:AI视频生成、视频剪辑、画面增强、动作识别、监控抓拍
- 专业场景:医学影像分析、工业瑕疵检测、自动驾驶视觉感知
✅ 我们日常在用的CV产品
Midjourney、Stable Diffusion、各类AI绘画工具、人脸打卡、美颜相机、监控智能抓拍、AI视频生成工具。
✅ 优缺点通俗总结
优势:视觉感知、画面创作、细节识别能力拉满,适配所有图像视频场景;
短板:纯视觉AI不懂深层语义逻辑,看不懂画面背后的文字含义和复杂逻辑。
04 语音智能技术:AI的“耳朵与嘴巴”
一句话定义:打通人声与机器的交互,实现“人说话机器听懂,机器说话人听清”。
语音技术是最早落地、最成熟的AI技术之一,早已渗透我们生活的每一处。
核心分为两大反向能力:语音识别、语音合成。
✅ 两大核心能力
1、语音识别(ASR):听人话
把音频、人声转化为文字,支持实时转写、方言识别、降噪识别。
场景:会议纪要转文字、语音输入、访谈转写、字幕自动生成。
2、语音合成(TTS):说人话
把文字转化为自然人声,模拟不同音色、情绪、语速。
场景:AI配音、有声书、智能播报、短视频配音、语音导航。
✅ 优缺点通俗总结
优势:交互便捷、实时高效、适配移动端、大众接受度最高;
短板:单纯语音AI无深度逻辑、无视觉能力,仅作为交互工具,无法独立完成复杂创作与推理。
05 多模态AI:当下AI的终极进化形态
前面三类都属于单模态AI:各司其职,只会单一维度能力。
而现在我们用到的主流新版大模型,全部都是多模态AI,也是AI行业的核心发展趋势。
通俗定义:同时拥有文字、图像、语音、视频处理能力,多感官融合的全能型AI。
类比人类:
单模态AI是“单科学霸”,只会写字、只会看图或只会听话;
多模态AI是全能型选手,能看、能听、能写、能理解、能联动创作。
✅ 多模态的核心优势(彻底碾压单模态)
1、跨模态理解:看图说话、根据图片写文案、根据文字画图、图文联动推理;
2、信息互补纠错:文字看不懂的靠画面补全,画面看不清的靠文字定义,大幅减少幻觉与错误;
3、全场景创作:一键完成文案、配图、配音、视频生成全流程,实现端到端创作。
✅ 主流多模态产品
GPT-4V、豆包、文心一言新版、通义千问多模态版等主流大模型。
06 零基础必懂:四大技术分支完整逻辑闭环
看完四类技术,我们做一个极简闭环总结,帮你永久记住:
1、NLP解决“语言与逻辑问题”:所有文字、问答、推理、文案都靠它;
2、CV解决“视觉画面问题”:所有图片、视频、识别、画面创作都靠它;
3、语音技术解决“听觉交互问题”:所有人声输入、AI配音都靠它;
4、多模态解决“全能融合问题”:三类能力打通,实现真正的通用智能体验。
行业终极规律:早期AI是单科专精,现代AI是多模全能。
本讲核心小结:
1、AI所有应用都归为四大分支:NLP语言、CV视觉、语音交互、多模态融合;
2、NLP是AI的语言大脑,主打文字理解、逻辑推理、内容生成;
3、CV是AI的视觉眼睛,主打图像视频识别、修复、创作、检测;
4、语音技术负责人机听觉交互,分为语音转文字、文字转语音两大核心能力;
5、多模态是当下AI主流,打通文、图、音、视,是智能体验跃升的核心原因。
一、大模型到底是啥?
大模型 = 超大的“会猜下一个词”的机器。
它看一堆文字,学会:
- 语法
- 常识
- 逻辑
- 知识
- 推理
- 写东西、聊天、翻译、做题
本质:把文字变成数字 → 算概率 → 挑最可能的下一个字。
二、最底层:词怎么变成数字?(词向量/Embedding)
一句话:把每个词,变成一串数字,意思越近,数字越像。
例子:
- “苹果” → [0.2, 0.7, -0.3, …]
- “香蕉” → [0.21, 0.68, -0.29, …]
- “iPhone” → [15,17,18, …]
作用:让机器能理解相似、关联、语义。
三、核心骨架:Transformer(所有大模型的爹)
Transformer 就三件事:
1. 位置编码:让机器知道“词的顺序”
2. 自注意力(Self-Attention):让机器看懂谁跟谁有关系
3. 前馈网络:深层记忆、理解、加工
1)位置编码:给词“排个队”
文字是顺序敏感的:
- “我打他” ≠ “他打我”
位置编码 = 给每个位置加个“坐标”,机器知道谁在前、谁在后。
2)自注意力:最重要!一句话:互相看、互相加权
一句话:每个词,看看全文所有词,判断谁最重要、谁和我最相关。
例子:
小明把书包忘在了学校,他明天要去那里拿。
机器读到“那里”时,会自动关注:
- 学校(最相关)
- 书包、小明(弱相关)
- 其他无关词(忽略)
效果:能理解指代、长句子、上下文。
3)前馈网络:深度理解
在注意力之后,再做一次深层非线性变换,增强理解、推理、表达能力。
四、训练原理:它怎么学会的?(预训练)
一句话:给它看海量文本,让它不断练习:“根据前面的字,猜下一个字”。
过程
1. 全世界海量文字(书、网页、论文、新闻…)
2. 切成长短句子
3. 盖住最后一个字,让模型猜
4. 猜得不准 → 调整参数(反向传播)
5. 反复亿万次 → 学会语言、知识、逻辑
学到了什么?
- 语法:不会说“吃饭我”
- 常识:太阳从东边升起
- 推理:1+1=2
- 世界知识:历史、地理、科学
- 写作、翻译、代码、总结
预训练 = 先学“通用能力”
五、微调:教它“听话、会任务”
预训练后,模型很博学,但不会按你要求做事。
微调:给它看任务样例,让它学会:
- 聊天(对话模型)
- 写文案
- 翻译
- 做题
- 总结
一句话:预训练学知识,微调学“怎么干活”。
六、核心能力:为什么它这么强?
1. 上下文理解:能看几千字,记住前面内容
2. 长距离关联:前面第1段的名词,后面第10段还能指代
3. 泛化能力:没见过的问题,也能按逻辑回答
4. 多任务统一:一个模型能聊天、翻译、写代码、做题
七、简单比喻总结(最好记)
- 词向量:把字变成“数字指纹”
- Transformer:超级阅读理解器(看全文、找关联、深层理解)
- 自注意力:读一句话时,自动聚焦重点、关联上下文
- 预训练:海量读书,学会世界知识和语言
- 微调:教它听话、会干活
一句话总结:
大模型 = 超大Transformer + 海量文本预训练 + 微调 → 懂语言、懂知识、会推理、能干活。
下一节预告:
第六讲我们深度拆解大模型核心本质!到底什么是参数?小模型和大模型差在哪?一次性讲懂预训练、微调、对齐,看懂现代AI“变聪明”的底层真相!
持续关注,系统吃透AI底层基础!
夜雨聆风