生成人工智能文本能力的秘密酱：自然语言处理词嵌入和语言模型。

许多人都把我们的“语言”能力视为理所当然。我们知道有些动物有基本的沟通形式，然而，很明显我们人类通常是唯一展示这种能力的生物。然而语言在我们的心灵深处占据着重要的位置，任何行业中很少有技术像生成式人工智能模型那样具有如此重大的影响，这些模型已跃入数不清的新闻标题，YouTube视频和像这篇博客一样的博客。

今天，我们不会涉及到这一领域中的“最新最伟大”的炒作，而是要谈谈那些基本支柱，在数十年的发展过程中，将人机交互引向如今的高度。为了做到这一点，我们需要忘记我们认为自己已经掌握的语言工作方式，而是思考如何教电脑理解程序、数学或更简单的 1 和 0 等。也就是说，我们不能像教孩子那样教电脑系统学习语言，它们不是以同样的方式工作的。

以下是保留 HTML 结构的简体中文翻译：原因是因为在教孩子或其他人外语时，我们只需要说这种语言或以某种符号的方式进行交流（手势，动作，面部表情，哑剧等）。但是，为了为计算机系统开发语言模型，我们需要首先创建一个语言的数学概念，然后将其转化为机器可靠理解的内容，因此不能像人类语言学习那样去教机器人。

在学校里，你可能学过“数学”，“英语”，“科学”，“计算机”，“物理”，“生物”等一系列不同的领域。实际上，通过人工智能和机器学习的过程，所有这些领域现在都被整合到一起。

想象走进一个熙熙攘攘的海外市场。空气充满着声音，独特的语调和节奏，你并不熟悉。你努力让它有意义，找到一个模式，一种理解和参与的方法。这就是当机器遇到人类语言时的感受。这是自然语言处理（NLP）试图解决的问题。

词嵌入（Word embeddings）是一种单词表达方式，它允许具有类似含义的单词在数学模型中具有相似的表示。简单来说，它是将“单词”、“句子”和“词汇”转化为数学表示的一种方法。这是一种文本的数值化表达方式，对于解决难度较大的自然语言处理问题，它或许是深度学习方法卓越表现的关键突破之一。

NLP：初学者的步伐

与学习掌握一门新语言的旅行者相似，我们的机器也从简单工具开始它们的旅程。在接触词嵌入之前，理解文本向量化的早期方法如词袋模型（BoW）和词项频率-逆文档频率（TF-IDF）是至关重要的。

词袋模型（BoW）和TF-IDF就像我们第一次接触外语一样，先掌握单词，再开始口语交流，最后熟悉常用的词汇。借助这些工具，我们的机器可以开始从文本中获取基本的意义，但是其中的细微差别会被忽略。BoW和TF-IDF将文本转化为适合机器学习模型的数字表示。但是，它们存在一些限制，比如向量的高维度和稀疏性，以及无法捕捉单词的含义。

词袋模型

词袋模型就像是一个字母汤，或者说是一个“词汤”。它把一个句子或文档中的所有单词简单地组合起来，然后找出每种类型的单词有多少个。这个概念也叫做词频。通过理解词频，我们可以在理论上区分类似于“政治新闻”的东西和儿童读物。

ChatGPT中文站 — A pictorial depiction of how the BOW bags up words in a bag soup and then organizes them by word frequency. Source.

想象一下，词袋模型可以对所有不同的单词进行指纹识别，并开发出不同类型单词的独特油墨“印记”。单词可能更加复杂，像“国会”、“代表”、“总统”等词的出现频率更高。与此同时，儿童书籍会使用简单的3-5个字母的单词，更容易让人理解。然而，在词袋模型的层面上，机器并没有考虑什么，它只是“计算”不同词汇出现的频率，而且通过这个模型，我们实际上可以得到一个相当不错的统计信息表示该文件主题内容。这个视觉化表现通常简单地显示为词云。