在 LLM 之前世界的 AI 发展是以 AGI 为主要研究方向
AGI
AGI(Artificial General Intelligence)即通用人工智能,指具备与人类同等或超越人类的广泛认知能力,能够自主学习和解决各类复杂问题的 AI 系统。
LLM
LLM 指的是大语言模型,它是基于海量文本数据训练、能够理解和生成人类语言的人工智能模型。
这类模型通过深度学习技术,尤其是 Transformer 架构,学习语言的统计规律和语义关联,从而具备对话、翻译、总结、创作等多种能力。目前许多知名的 AI 助手和生成式 AI 应用都基于大语言模型技术。
Transformer
Transformer 是一种深度学习模型架构,自 2017 年由 Google 团队在论文《Attention Is All You Need》中提出后,已成为现代大语言模型(如 GPT、BERT)的核心基础。
它的核心创新在于完全摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),仅依赖“自注意力机制” 来建立序列中所有元素之间的全局关联。这种设计使其能够高效并行处理数据,并更好地捕捉长距离依赖关系。
Transformer 主要由编码器和解码器堆叠而成,其关键组件包括:
自注意力机制:计算序列中每个词与其他所有词的相关性权重,从而动态地为每个词生成包含全局上下文的表示。
前馈神经网络:对自注意力层的输出进行非线性变换。
残差连接与层归一化:用于稳定深层网络的训练,缓解梯度消失问题。
位置编码:由于模型本身没有循环结构,需要额外注入序列中词的位置信息。
正是这种高效、可扩展的架构,使得训练参数量巨大的大语言模型成为可能,直接推动了当前 AI 领域的突破性进展。
Agent
Agent(智能体)指的是一个能够感知环境、自主规划、调用工具并执行行动以实现特定目标的人工智能系统。它不再仅仅是一个对话模型,而是一个具备“大脑”和“手”的自主行动实体。
LLM 是“大脑”:提供理解、推理、规划和生成能力,是智能体的决策核心。
Agent 是“完整的智能体”:它 = LLM(大脑) + 规划能力 + 记忆机制 + 工具使用能力(Skills)。其目标是在复杂、动态的环境中完成一个多步骤的任务。
MCP(模型上下文 Model Context Protocol)
MCP 是 Agent 安全、便捷调用外部工具的“标准插座”和协议层。 MCP 是一个开放协议,它定义了大型 AI 模型与外部工具、数据源和服务(统称为“资源”)进行安全、标准化通信的规则。它的核心目的是让模型能够安全、可控地访问和使用外部能力,比如读取数据库、执行计算、操作文件等,从而突破模型本身的知识截止日期和纯文本生成的限制。
Skills(技能)
Skills 则是通过 MCP 暴露给 Agent 的、一个个具体的“工具”或“能力”。 例如,文件解析、联网搜索、生成图像、进行数据分析等,每一项都是一个“技能”。技能是最终呈现给用户的能力。
skill-name/ # 技能目录
├── SKILL.md # 【必需】核心指令文档,包含元数据和执行指南
├── scripts/ # 【可选】可执行的代码脚本
├── references/ # 【可选】参考文档和规范
└── assets/ # 【可选】模板、素材等输出资源
评论区