加载中…
开发模式下首次打开页面需编译,真机经 WiFi 可能需等待 10–30 秒
正文 [[缩写]] 在专题页有完整释义,此处为全书目录
有监督微调:在通用基座模型上,用高质量标注语料进行任务定向训练,使模型掌握坦桑商业领域话术与合规表达。
直接偏好优化:无需独立 Reward Model,用人类/AI 偏好对(chosen vs rejected)直接对齐模型输出,提升回答可信度与合规性。
基于人类反馈的强化学习:用奖励模型 + PPO/GRPO 策略优化,让模型在复杂商业决策场景中更贴近专家判断。
低秩适配:在冻结基座权重前提下插入可训练低秩矩阵,实现领域低成本、可热插拔的专用模型版本管理。
组相对策略优化:新一代 RLHF 变体,组内样本相对比较降低训练方差,专用模型对齐效率提升 2×。
知识蒸馏:大模型(Teacher)输出软标签指导小模型(Student),在边缘/低成本节点部署专用小模型。
混合专家架构:稀疏激活多个「专家子网络」,在同等参数量下获得更高容量与更低推理 FLOPs。
状态空间模型(Mamba 系):线性复杂度长序列建模,用于超长政策文档与合同全文的低成本上下文编码。
Postgres 向量扩展:在 OLTP 数据库内原生存储 Embedding,支持 HNSW/IVFFlat ANN 索引与事务一致性检索。
分层可导航小世界图:高维向量近似最近邻算法,亿级索引毫秒级召回,RAG 检索核心数据结构。
变更数据捕获:实时监听业务库 Binlog/WAL,增量同步至向量索引与 OLAP 湖仓,保证 AI 知识零延迟更新。
联机分析处理:列式存储 + 向量化执行,支撑会员行为、供需趋势、政策热点的亚秒级多维分析。
稠密向量表示:文本/图像映射至 768–4096 维连续空间,语义相似度 = 余弦距离,跨语言对齐核心。
检索增强生成:先召回权威片段再生成回答,将幻觉率压至生产可接受区间,政策问答必备范式。
交叉编码器重排序:对 query-document 对联合编码打分,精排 Top-K 召回结果,Hybrid RAG 精度关键一环。
键值缓存:推理时缓存注意力 K/V 张量,多轮对话与 Speculative Decoding 的延迟杀手级优化。
推测解码:小模型草稿 + 大模型并行验证,在不损质量前提下将 Token 生成吞吐提升 40–60%。
权重量化:INT4/INT8 低比特部署,在 H100/A100 集群上倍增有效 batch size,降低单次推理成本。
容器编排标准:模型 Serving Pod 自动扩缩、滚动发布、GPU 资源隔离与 NUMA 亲和调度。
可观测性标准:Trace/Metric/Log 三合一,全链路追踪从 API Gateway 到 GPU Kernel Launch。
零信任架构:每次模型调用、工具执行均验证身份与权限,默认拒绝、最小权限、持续审计。
个人可识别信息:训练与推理管线内置 PII 检测/脱敏,会员数据不出租户边界、不进公有云训练集。