基础知识
机器学习
机器学习的三个要素:模型、训练数据、学习方式。
模型简单理解就是一个数学函数,这个函数的参数非常多,多达几千万、几亿个。
训练模型就是利用大量的训练数据来调整这个数学函数的参数。通过训练集的调教,让这几亿个参数达到较为理想的状态,使得在测试集中输入指定的数据就能得到预期的输出。
“训练”一词是以人为主体的表示,如果以“机器”为主体,则称之为“学习”。
机器学习的方式主要分为三种:分别是有监督学习 (Supervised Learning)、无监督学习 (Unsupervised Learning) 和强化学习 (Reinforcement Learning)。
- 有监督学习:指的是我们在给机器提供训练数据时,提供的数据是带有标签或类别信息的,这样机器才能够学习输入和输出之间的映射关系,从而对新的输入进行预测。有监督学习的应用场景非常广泛,如图像识别、股价预测等。
- 无监督学习:即提供给机器训练的数据是未被标记的数据,由机器自己通过某些算法发现数据之间的潜在结构与规律。无监督学习的应用场景有异常检测、推荐系统等。
- 强化学习:是一种让机器自己学习如何做出正确决策的方式。就像人类玩《飞机大战》这个游戏一样,不同的操作会得到环境的不同反馈(扣分或加分),基于环境反馈,机器会不断调整、优化自己的操作,最终达到获取最高分的目的。强化学习适用于那些目标不确定、环境动态变化、需要长期规划的问题,如自动驾驶、机器人控制、游戏 AI 等。
实际应用中模型是由非常多的数学函数以网状或更加复杂的形状形成的一个拓扑结构,由于这种拓扑结构与人的神经网络结构非常相似,我们称之为人工神经网络(Artificial Neural Network,ANN)。人工神经网络根据实际应用场景的不同发展出多种形态,应用最广泛的神经网络有:前馈神经网络(Feedforward Neural Network, FNN)、卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)。
在讨论机器学习和深度学习模型时,"B" 通常指的是 "Billion"(十亿),用于表示模型的参数数量。例如,如果一个模型被描述为 "175B",这意味着该模型有 1750 亿个参数。
GPT
GPT 即 Generative Pre-trained Transformer,是由 OpenAI 团队开发的一种基于自然语言处理技术的生成式、预训练、大语言模型。
判别式模型关注如何将输入数据映射到标签或类别,例如分类、回归等问题;而生成式模型则关注如何学习数据的分布,以便生成新的数据。ChatGPT 能够从大量的语料库中学习到复杂的语言结构和上下文信息,从而生成新的符合语言规则和语境的文本。
预训练模型是指该模型预先从大规模的语料库中通过无监督的方式学习语言的内在规律和模式,其能够学习到数据集的统计规律并提取出数据中的特征。这样,在进行具体任务的时候,GPT 可以直接使用已经学习到的知识,从而提高效率和准确性。
大模型指的是具有非常庞大的参数量和计算量的机器学习模型。这些模型通常需要在大规模的数据集上进行训练,以便能够学习到数据中的复杂模式和规律,并在各种任务中取得优秀的性能表现。ChatGPT 由于其拥有 1750 亿个参数和超过 45TB 的训练数据所以被称之为大模型。
语言模型区别与图像模型、语音模型等,是一种用来预测自然语言文本序列的概率分布的计算模型。简单来说,它就是一个能够根据前面的文本内容预测下一个可能出现的词或字的模型。语言模型通常被用于自然语言处理任务,比如语音识别、机器翻译、文本生成、文本分类等。
Transformer 是一种用于自然语言处理的神经网络模型,由 Google 提出,目的主要是为了解决循环神经网络在处理长序列时存在的一些问题(简单来说,循环神经网络无法记住一段文本中较早的单词并与当前的单词进行关联)。Transformer 模型的核心是自注意力机制(self-attention mechanism),它可以帮助计算机更好地理解数据中不同元素之间的关系。举个例子,当计算机阅读一段文字时,自注意力机制可以找出哪些单词与其他单词之间的关系更密切,解决了单词间的长距离依赖问题,从而更好地理解这段文字。
GPT 的基本原理:自回归生成,即先用模型预测下一个词是什么,然后把预测出来的词代入模型,去预测下一个词是什么,不断迭代。像是一个递归版的“单字接龙”。ChatGPT 喜欢絮絮叨叨一大堆,或者重复我们所说的话,这不光是为了告诉你解题思路,而更是为了将这段信息作为上文的补充,再从中提取关键信息,以便进一步生成正确的结果。
ChatGPT
ChatGPT 训练过程主要分成三步:
- 无监督学习阶段:互联网爬取网页(约 31 亿个)、书籍、维基百科、博客、新闻、Github 代码等,数据来源庞大且公开,但可能含有有害内容、部份内容质量不高。
- 监督学习阶段:用人工专门写好的「优质对话范例」让它再次学习,这些范例需要人工专门编写,价格昂贵,数量有限,所能提供的语言多样性不足,可能难以让模型学到广泛适用的语言规律,也无法涉猎各个领域。
- 基于人类反馈的强化学习:人工给回答打分,并且对结果进行排序,利用这些「人类排序结果」重新调整模型。
在单字接龙的小模型中,并没有觉醒出“理解”和“推理”的能力,但在超大模型中,却突然展现。因此专家用“涌现”这个词来描述这些能力的出现。
超大语言模型意外掌握了“理解指令要求”、“理解例子要求”的能力。这种现象被称为“语境内学习”(In-context Learning)。
当 ChatGPT 无法回答一个大问题时,若要求它分步思考,它就可以一步步连续推理,且最终答对的可能性大幅提升,该能力也叫“思维链”。类似于人类的分治思想。
ChatGPT 让 AI 第一次看似拥有了“乌鸦”模式(观察、感知、认知、学习、推理、执行)的智能,而不仅仅只是像鹦鹉那样学舌,它看上去像是真的会思考了。
人脑中单个神经元的工作方式特别简单,就是向下一个神经元放电,但是通过大力出奇迹的方式堆砌几百亿的神经元以后,意识就出现了。
RAG
检索增强生成(RAG, Retrieval Augmented Generation)是指对大型语言模型输出进行优化,使其能够在生成响应之前引用训练数据来源之外的权威知识库。在 LLM 本就强大的功能基础上,RAG 将其扩展为能访问特定领域或组织的内部知识库,所有这些都无需重新训练模型。这是一种经济高效地改进 LLM 输出的方法,让它在各种情境下都能保持相关性、准确性和实用性。
在生成响应之前,RAG 首先会从一个大型文档库或知识库中检索与输入查询相关的信息。这一过程通常使用信息检索技术,如基于向量的相似性搜索或传统的关键词匹配。一旦检索到相关信息,RAG 会将这些信息与输入查询一起传递给生成模型(如 Transformer 模型),以生成最终的响应。生成模型利用检索到的信息来提供更准确和上下文相关的答案。
MOE
在机器学习和深度学习中,MOE (Mixture of Experts) 指的是“专家混合模型”。这种模型通过组合多个专家模型来提高性能。每个专家模型专注于特定类型的数据或任务,而一个门控机制决定在给定输入时使用哪个专家或专家组合。这种方法可以提高模型的效率和准确性,尤其是在处理复杂任务时。
TOPS
TOPS(Tera Operations Per Second) 即每秒万亿次操作。TOPS 用于表示一个处理器(如 GPU、TPU 或其他专用加速器)在执行计算任务时的性能。更高的 TOPS 值意味着该处理器能够在单位时间内执行更多的操作,从而提高模型的推理速度和训练效率。
SFT
在机器学习和自然语言处理领域,"SFT" 通常指的是 "Supervised Fine-Tuning",即“监督微调”。这是一个重要的训练过程,通常用于在预训练模型的基础上进行特定任务的优化。
COT
COT(Chain of Thought):在人工智能和自然语言处理领域,COT 通常指“思维链”或“推理链”。这是指在进行推理或解决问题时,模型通过逐步的思考过程来得出结论。这种方法可以帮助模型更好地理解复杂问题,并生成更准确的答案。
AGI
“AGI”是“Artificial General Intelligence”的缩写,中文通常翻译为“通用人工智能”或“强人工智能”。AGI 指的是一种能够理解、学习和应用知识的人工智能系统,其能力与人类相当,能够在多种任务和领域中表现出智能行为。