Word2Vec:当计算机开始理解人类语言,它学会了"国王+女人=女王"
2013年夏天,谷歌开源博客上出现了一篇看似普通的帖子,标题是《学习词汇背后的含义》。
帖子中写道:”目前计算机还不太擅长理解人类语言,虽然离这个目标还有一段距离,但我们正在取得重大进展。”
当时很少有人能预料到,这个名为Word2Vec的开源项目,将会彻底改变计算机处理语言的方式,成为后来所有大语言模型的基石。
语言的困境
神奇的突破
Word2Vec的魔法:词语也能做数学题
从词到句子:技术的进化
技术背后的思考
总结
对人类来说,”苹果”这个词既可以是水果,也可以是手机品牌。我们根据上下文轻松区分,但计算机看到的只是两个汉字。
在传统的处理方法中,计算机只能通过独热编码来表示词语——就像一个巨大的开关阵列,每个词对应一个开关打开,其余全部关闭。
这种方法简单粗暴,却丢失了语言最宝贵的东西:语义关系。
“苹果”和”香蕉”都是水果,”电脑”和”笔记本”常常混用,这些人类习以为常的联想,对计算机来说却是无法逾越的鸿沟。
谷歌的研究团队从海量数据中,让系统自己寻找词语间的相关性和联系。
借助”无监督学习”,这个系统开始发现模式。例如,它注意到词语”北京”与”中国”的关系,同”莫斯科”与”俄罗斯”的关系一模一样。系统已经抓住了它”阅读”的内容的某种本质。
这个系统就是Word2Vec——是一种用于生成词向量的神经网络模型。
对数学家来说,向量有各种奇妙的性质,你可以像处理简单的数一样处理它们,进行加、减、乘运算。通过这种方式,研究人员很快发现了一些惊人的意想不到的东西。
他们称之为”连续空间词汇表示中的语言规律”。
Word2Vec的核心思想其实很朴素:要了解一个词,看它的朋友。
如果你想知道”国王”是什么意思,看看常和它一起出现的词:王后、皇冠、权力、王国……这些上下文词汇构成了”国王”的语义轮廓。
通过神经网络技术,Word2Vec将每个词映射到低维连续向量空间中,使得语义或语法上相似的词在该空间中距离较近。这种技术有两种实现方式:
-
CBOW模型:根据上下文猜测当前词,适合频繁出现的词。比如我是最XX的Mike,XX可以猜快乐、善良、乐观等词。
-
Skip-gram模型:根据当前词预测上下文,对罕见词效果更好。
当模型训练完成后,奇妙的事情发生了:词语之间可以进行数学运算。
国王 – 男人 + 女人 = 女王
这个著名的等式不是巧合,而是Word2Vec真正”理解”了”国王”和”女王”之间的语义关系——它们分别是男性和女性在特定角色上的对应。
类似的例子还有很多:输入”中国+河流”,得到”长江”。
Word2Vec系统开始广泛应用于谷歌的机器翻译和搜索引擎,业界也将其广泛应用于其他领域,它成了科学和工程界新一代数据驱动的语言学家的必备工具。
Word2Vec的成功催生了更多后续技术。Doc2Vec将这一思想从词语扩展到整个文档,能够获得句子、段落甚至整篇文章的向量表示。
近年来,更强大的BERT等模型相继问世,它们在各类任务上表现更出色,特别是在处理一词多义等复杂情况时。
但所有这些先进模型,都建立在Word2Vec奠定的基础之上——用向量表示语言,让计算机能够”理解”语义。
如今,Word2Vec的文本向量已在许多领域大显身手:
-
计算同义词:通过计算词向量之间的距离或余弦相似度,可以衡量词义的相似性。
-
文本分类:使用文本向量表示文本特征,可提高垃圾邮件检测、情感分析等任务性能。
-
推荐系统:计算用户兴趣或商品
-
描述之间的相似度,为用户推荐感兴趣的内容。
-
语言翻译:帮助将源语言词汇映射到目标语
-
言词汇,增强翻译系统的准确性和流畅性。
Word2Vec虽然强大,但它也会继承训练数据中的偏见。
如果训练数据中存在性别刻板印象,比如”医生”更多与”男人”关联,”护士”更多与”女人”关联,模型学到的向量也会反映这些偏见。
这提醒我们,技术不仅是中性的工具,它也承载着创造者和训练数据的价值观。
随着机器学习系统越来越普遍和强大,我们会发现自己越来越经常地处于”魔法师的学徒”的境地:我们召唤出一种力量,给它一组指令,希望它自主但又完全顺从,然后一旦我们意识到指令不准确或不完整,又手忙脚乱地阻止。
如何确保这些模型捕捉到我们的规范和价值观,理解我们的想法或意图,最重要的是,以我们想要的方式行事——这已成为计算机科学领域最核心、最紧迫的问题之一。
Word2Vec的魔法,让计算机第一次真正”理解”了词语之间的关系。从谷歌博客上的一篇普通帖子开始,它开启了自然语言处理的新纪元。
如今,当我们与AI对话、用翻译软件阅读外文、在搜索引擎中查找资料时,Word2Vec和它的继承者们正在默默工作,连接着人类语言与机器理解之间的鸿沟。
而我们在惊叹技术神奇的同时,也需要思考:我们到底该怎么教机器学习?教什么?
这不仅是技术问题,也是人文问题。正如一位研究者所言:”技术难题正在变得人性化、社会化和公众化。
事实证明,我们在让这些系统’以我们想要的方式行事’方面的成功和失败,为我们审视自我提供了一面真实的、启示性的镜子。”
下次当你使用搜索引擎或翻译软件时,不妨想一想:你正在见证的,是人类智慧与机器计算的又一次完美共舞。
如果对风控策略和建模感兴趣的小伙伴欢迎加群讨论。
【部分群限时免费进】分群讨论学习Python、玩转Python、风控建模【29.9元进】、人工智能、数据分析相关问题,还提供招聘内推信息、优秀文章、学习视频、公众号文章答疑,也可交流工作中遇到的难题。如需添加微信号19967879837或扫码,加时备注想进的群,比如风控建模。

风控群部分典型沟通记录梳理文档如下:
一文囊括风控模型搭建(原理+Python实现),持续更新。。。
不同工作年限风控建模岗薪资水平如何?招聘最看重面试者什么能力?
100天精通风控建模(原理+Python实现)——第32天:集成学习是什么?在风控建模中有哪些应用?


限时免费加群
19967879837
添加微信号、手机号
夜雨聆风
