LLM 大模型生态全景
什么是大语言模型
大语言模型(Large Language Model,LLM)是基于 Transformer 架构、在海量文本数据上预训练的神经网络模型。其核心能力是下一个 Token 预测,通过这一简单目标涌现出理解、推理、代码生成等复杂能力。
python
# 最简单的 LLM 调用示例(OpenAI 兼容接口)
from openai import OpenAI
client = OpenAI(
api_key="your-api-key",
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1" # 千问
)
response = client.chat.completions.create(
model="qwen-turbo",
messages=[
{"role": "system", "content": "你是一个金融分析助手"},
{"role": "user", "content": "解释什么是 RAG 技术"}
]
)
print(response.choices[0].message.content)主流模型生态
国内模型
| 模型 | 厂商 | 特点 | API |
|---|---|---|---|
| 千问 / 通义千问 | 阿里云 | 长上下文、工具调用强 | DashScope |
| ChatGLM | 智谱 AI | 中文优化、开源可本地部署 | BigModel |
| DeepSeek | 深度求索 | 推理能力强、性价比高 | DeepSeek API |
| Kimi | 月之暗面 | 超长上下文(200K) | Moonshot API |
国际模型
| 模型 | 厂商 | 特点 |
|---|---|---|
| GPT-4o | OpenAI | 多模态、Function Calling 标准制定者 |
| Claude 3.5 | Anthropic | 长上下文、代码能力强 |
| Llama 3 | Meta | 开源、可本地部署微调 |
| Gemini | 多模态、与 Google 生态集成 |
LLM 应用开发技术栈
用户请求
│
▼
┌─────────────────────────────────────┐
│ 应用层(FastAPI) │
│ Prompt 构建 → LLM 调用 → 结果解析 │
└─────────────────────────────────────┘
│ │
▼ ▼
┌─────────┐ ┌──────────────┐
│ 向量检索 │ │ 工具调用 │
│ (RAG) │ │ (Function │
│ Chroma │ │ Calling) │
│ Milvus │ └──────────────┘
└─────────┘
│
▼
┌─────────────────────────────────────┐
│ 智能体框架 │
│ LangChain / LangGraph / Dify │
└─────────────────────────────────────┘
│
▼
┌─────────────────────────────────────┐
│ LLM 模型层 │
│ 千问 / ChatGLM / GPT-4 / Llama │
└─────────────────────────────────────┘核心概念速览
Token 与上下文窗口
- Token:模型处理的最小单位,中文约 1.5 字/token,英文约 0.75 词/token
- 上下文窗口:模型一次能处理的最大 token 数,GPT-4 128K,千问 1M
- KV Cache:推理时缓存注意力键值对,加速长对话
温度与采样参数
python
response = client.chat.completions.create(
model="qwen-turbo",
messages=[...],
temperature=0.7, # 0=确定性输出,1=创意输出
top_p=0.9, # 核采样,控制词汇多样性
max_tokens=2048, # 最大输出长度
stream=True # 流式输出
)系统提示词(System Prompt)
python
system_prompt = """
你是一个专业的金融 AI 助手,具备以下能力:
1. 分析金融数据和市场趋势
2. 解答银行、证券、保险相关问题
3. 辅助设计 AI Agent 业务方案
回答要求:
- 专业准确,引用数据时注明来源
- 对不确定的信息明确说明
- 涉及投资建议时添加风险提示
"""生态全景导航
- Transformer 架构原理 — 理解 LLM 的底层机制
- Attention 机制深度解析 — Self-Attention 数学推导
- Tokenizer 原理 — BPE 分词算法
- 主流模型对比 — 选型指南
- 千问 / 通义千问 — 阿里云 LLM API 完整指南
- ChatGLM 系列 — 智谱 AI 开源模型