术语百科 · 乞力之巅 AI

正文 [[缩写]] 在专题页有完整释义，此处为全书目录

训练对齐

SFTSupervised Fine-Tuning
有监督微调：在通用基座模型上，用高质量标注语料进行任务定向训练，使模型掌握坦桑商业领域话术与合规表达。
DPODirect Preference Optimization
直接偏好优化：无需独立 Reward Model，用人类/AI 偏好对（chosen vs rejected）直接对齐模型输出，提升回答可信度与合规性。
RLHFReinforcement Learning from Human Feedback
基于人类反馈的强化学习：用奖励模型 + PPO/GRPO 策略优化，让模型在复杂商业决策场景中更贴近专家判断。
LoRALow-Rank Adaptation
低秩适配：在冻结基座权重前提下插入可训练低秩矩阵，实现领域低成本、可热插拔的专用模型版本管理。
GRPOGroup Relative Policy Optimization
组相对策略优化：新一代 RLHF 变体，组内样本相对比较降低训练方差，专用模型对齐效率提升 2×。
Knowledge DistillationKnowledge Distillation
知识蒸馏：大模型（Teacher）输出软标签指导小模型（Student），在边缘/低成本节点部署专用小模型。

pgvectorPostgreSQL Vector Extension
Postgres 向量扩展：在 OLTP 数据库内原生存储 Embedding，支持 HNSW/IVFFlat ANN 索引与事务一致性检索。
HNSWHierarchical Navigable Small World
分层可导航小世界图：高维向量近似最近邻算法，亿级索引毫秒级召回，RAG 检索核心数据结构。
CDCChange Data Capture
变更数据捕获：实时监听业务库 Binlog/WAL，增量同步至向量索引与 OLAP 湖仓，保证 AI 知识零延迟更新。
OLAPOnline Analytical Processing
联机分析处理：列式存储 + 向量化执行，支撑会员行为、供需趋势、政策热点的亚秒级多维分析。
EmbeddingDense Vector Embedding
稠密向量表示：文本/图像映射至 768–4096 维连续空间，语义相似度 = 余弦距离，跨语言对齐核心。

RAGRetrieval-Augmented Generation
检索增强生成：先召回权威片段再生成回答，将幻觉率压至生产可接受区间，政策问答必备范式。
Cross-EncoderCross-Encoder Reranking
交叉编码器重排序：对 query-document 对联合编码打分，精排 Top-K 召回结果，Hybrid RAG 精度关键一环。
KV CacheKey-Value Cache
键值缓存：推理时缓存注意力 K/V 张量，多轮对话与 Speculative Decoding 的延迟杀手级优化。
Speculative DecodingSpeculative Decoding
推测解码：小模型草稿 + 大模型并行验证，在不损质量前提下将 Token 生成吞吐提升 40–60%。
AWQ/GPTQWeight Quantization
权重量化：INT4/INT8 低比特部署，在 H100/A100 集群上倍增有效 batch size，降低单次推理成本。

K8sKubernetes
容器编排标准：模型 Serving Pod 自动扩缩、滚动发布、GPU 资源隔离与 NUMA 亲和调度。
OpenTelemetryOpenTelemetry
可观测性标准：Trace/Metric/Log 三合一，全链路追踪从 API Gateway 到 GPU Kernel Launch。

Zero-TrustZero Trust Architecture
零信任架构：每次模型调用、工具执行均验证身份与权限，默认拒绝、最小权限、持续审计。
PIIPersonally Identifiable Information
个人可识别信息：训练与推理管线内置 PII 检测/脱敏，会员数据不出租户边界、不进公有云训练集。

正文 [[缩写]] 在专题页有完整释义，此处为全书目录

SFTSupervised Fine-Tuning
有监督微调：在通用基座模型上，用高质量标注语料进行任务定向训练，使模型掌握坦桑商业领域话术与合规表达。
DPODirect Preference Optimization
直接偏好优化：无需独立 Reward Model，用人类/AI 偏好对（chosen vs rejected）直接对齐模型输出，提升回答可信度与合规性。
RLHFReinforcement Learning from Human Feedback
基于人类反馈的强化学习：用奖励模型 + PPO/GRPO 策略优化，让模型在复杂商业决策场景中更贴近专家判断。
LoRALow-Rank Adaptation
低秩适配：在冻结基座权重前提下插入可训练低秩矩阵，实现领域低成本、可热插拔的专用模型版本管理。
GRPOGroup Relative Policy Optimization
组相对策略优化：新一代 RLHF 变体，组内样本相对比较降低训练方差，专用模型对齐效率提升 2×。
Knowledge DistillationKnowledge Distillation
知识蒸馏：大模型（Teacher）输出软标签指导小模型（Student），在边缘/低成本节点部署专用小模型。

pgvectorPostgreSQL Vector Extension
Postgres 向量扩展：在 OLTP 数据库内原生存储 Embedding，支持 HNSW/IVFFlat ANN 索引与事务一致性检索。
HNSWHierarchical Navigable Small World
分层可导航小世界图：高维向量近似最近邻算法，亿级索引毫秒级召回，RAG 检索核心数据结构。
CDCChange Data Capture
变更数据捕获：实时监听业务库 Binlog/WAL，增量同步至向量索引与 OLAP 湖仓，保证 AI 知识零延迟更新。
OLAPOnline Analytical Processing
联机分析处理：列式存储 + 向量化执行，支撑会员行为、供需趋势、政策热点的亚秒级多维分析。
EmbeddingDense Vector Embedding
稠密向量表示：文本/图像映射至 768–4096 维连续空间，语义相似度 = 余弦距离，跨语言对齐核心。

RAGRetrieval-Augmented Generation
检索增强生成：先召回权威片段再生成回答，将幻觉率压至生产可接受区间，政策问答必备范式。
Cross-EncoderCross-Encoder Reranking
交叉编码器重排序：对 query-document 对联合编码打分，精排 Top-K 召回结果，Hybrid RAG 精度关键一环。
KV CacheKey-Value Cache
键值缓存：推理时缓存注意力 K/V 张量，多轮对话与 Speculative Decoding 的延迟杀手级优化。
Speculative DecodingSpeculative Decoding
推测解码：小模型草稿 + 大模型并行验证，在不损质量前提下将 Token 生成吞吐提升 40–60%。
AWQ/GPTQWeight Quantization
权重量化：INT4/INT8 低比特部署，在 H100/A100 集群上倍增有效 batch size，降低单次推理成本。

K8sKubernetes
容器编排标准：模型 Serving Pod 自动扩缩、滚动发布、GPU 资源隔离与 NUMA 亲和调度。
OpenTelemetryOpenTelemetry
可观测性标准：Trace/Metric/Log 三合一，全链路追踪从 API Gateway 到 GPU Kernel Launch。

Zero-TrustZero Trust Architecture
零信任架构：每次模型调用、工具执行均验证身份与权限，默认拒绝、最小权限、持续审计。
PIIPersonally Identifiable Information
个人可识别信息：训练与推理管线内置 PII 检测/脱敏，会员数据不出租户边界、不进公有云训练集。