AI核心知识128—大语言模型之向量嵌入（简洁且通俗易懂版）

张

张建站

2026/4/18 11:11:00

10分钟阅读

Vector Embedding (向量嵌入 /词向量)是整个人工智能领域特别是自然语言处理的“罗塞塔石碑”。如果说我们人类的通用语言是汉语或英语那么计算机的通用语言只有一种数字。Vector Embedding 就是将人类复杂、抽象、充满多义词的语言翻译成计算机能直接进行加减乘除的“数学坐标”的极致魔法。正是有了它上一条聊到的 RAG 才能做到“懂你意思”而不是死板地“匹配关键字”。1. 核心痛点为什么传统的搜索“搜不到”在 Embedding 出现之前所有的搜索引擎和数据库都在用“字面匹配” (Keyword Matching)比如大家熟悉的 CtrlF 或者 BM25 算法。尴尬的场景你搜“小狗”。文档里写的是“幼犬” 或者 “Puppy”。结果传统系统会告诉你“找不到”。因为从计算机的视角来看“小”和“幼”的字形完全不同代码的 ASCII 码也毫不相干。它根本不知道这两个词是一回事。我们需要一种技术让计算机明白“词语背后的含义”而不是盯着字形看。2. 破局之道给概念分配“高维 GPS 坐标”科学家想出了一个绝妙的办法把全宇宙所有的概念都塞进一个拥有上千个维度的“超级空间”里给它们挨个分配坐标。一维空间(一根线)如果只有一个维度“温度”那么“冰”在左边“火”在右边。二维空间 (一张纸)加上一个维度“是否是活物”。“冰”和“火”在下方“企鹅”和“骆驼”在上方。高维空间(大模型的宇宙)像 OpenAI 的text-embedding-3-small模型拥有1536 个维度。虽然人类的大脑无法想象 1536 维的空间长什么样但计算机可以轻松处理。当我们把一个词放进这个空间时它就会变成一串包含 1536 个小数的数组这就是向量Vector比如[0.12, -0.45, 0.89, ... (还有 1533 个数字)]3. 奇妙的数学魔法距离即“懂你”当所有的词语都变成了空间里的坐标点后奇迹发生了在这个空间里意思越相近的词它们之间的物理距离就越近“苹果”和“橘子”的坐标可能紧挨在一起因为它们都是水果。“苹果”和“电脑”的坐标可能在另一个方向也有交集因为它们都是科技品牌。而“苹果”和“挖掘机”的坐标则十万八千里。更令人震撼的是这些坐标之间甚至可以进行代数运算。自然语言处理界有一个极其著名的公式完美展示了模型是如何学到“逻辑”的$$V(\text{国王}) - V(\text{男人}) V(\text{女人}) \approx V(\text{女王})$$(V 代表该词组对应的向量坐标)这意味着计算机在阅读了海量文本后自动在那个 1536 维的空间里发现并固定了“性别转换”这个维度的方向和距离4.⚙️ 它在 RAG 中是如何大显神威的(语义检索)回到我们上一个关于 RAG 的悬念系统是怎么知道“报销标准”和“差旅费用限额”是同一个意思的文本向量化系统先把公司制度里的“差旅费用限额为 500 元”这句话扔进 Embedding 模型变成了一个 1536 维的坐标点。提问向量化你问“报销标准是多少”系统也把这句话扔进 Embedding 模型变成另一个坐标点。计算距离 (Cosine Similarity)系统在多维空间里一量发现这两个坐标点的距离极其接近相似度高达 95%。提取答案系统瞬间明白“哦虽然这两个句子连一个重合的字都没有但它们在数学宇宙里指代的是同一个地方”于是它把正确答案揪出来发给了大模型。这就是传说中的语义检索 (Semantic Search)。总结VectorEmbedding就是为人类知识绘制的星图。它把语言中极其微妙的“语义”、“情感”和“逻辑关系”全部浓缩成了冰冷的浮点数矩阵。大模型之所以显得这么有文化、懂人情世故正是因为它们在训练的第一天就已经把整个世界的规律死死地钉在了一个高维的数学空间里。

Matlab导入arxml报错大全：从‘UUID重复’到工具链兼容，手把手教你排查与修复

Matlab导入arxml报错实战指南：从基础排查到高级修复最近在帮团队迁移一个老项目时，我又遇到了那个熟悉的场景——Matlab命令行里红色的报错信息，提示arxml导入失败。这已经是本周第三次因为arxml文件问题卡在项目节点上了。作为汽车电子领域…...

2026/4/18 11:10:59 阅读更多 →

独立完成部署+Skill开发+系统搭建：OpenClaw全栈实战手册

独立完成部署Skill开发系统搭建：OpenClaw全栈实战手册掌握OpenClaw的核心在于三个独立能力的闭环：部署环境 → 开发Skill → 集成系统。本文将按照这个逻辑，从零开始完整走一遍。一、部署阶段：搭建运行环境 1.1 部署方案选择方案…...

2026/4/18 11:10:15 阅读更多 →

抖音批量下载神器：5个步骤告别手动保存的烦恼

抖音批量下载神器：5个步骤告别手动保存的烦恼【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. 抖音…...

2026/4/18 11:10:05 阅读更多 →

为了过等保，我们给200+服务器做了OpenSSH 10.0自动化升级，这是完整复盘

企业级OpenSSH 10.0自动化升级实战：从合规需求到批量落地当安全合规成为企业IT建设的刚性需求，基础组件的漏洞修复便从技术问题升级为战略任务。去年某次内部审计中，我们发现全公司237台服务器中，68%的OpenSSH版本存在高危漏洞&a…...

2026/4/16 22:05:04 阅读更多 →

用AI给显示器装上‘眼睛’：复旦博士的EyeReal方案，如何用三层LCD和RTX 4090实现桌面级裸眼3D？

EyeReal技术解析：三层LCDRTX 4090如何重构裸眼3D显示范式当24英寸显示器上跃然而出的立体影像不再需要特制眼镜时，我们或许正站在显示技术革命的临界点。复旦大学马炜杰博士团队发表在《Nature》的EyeReal方案，用三层普通LCD面板和消费级显卡…...

2026/4/16 14:29:57 阅读更多 →

5步轻松打造个人离线小说图书馆：番茄小说下载器完全指南

5步轻松打造个人离线小说图书馆：番茄小说下载器完全指南【免费下载链接】Tomato-Novel-Downloader 番茄小说下载器不精简版项目地址: https://gitcode.com/gh_mirrors/to/Tomato-Novel-Downloader 番茄小说下载器是一款功能强大的开源工具，专为…...

2026/4/18 10:31:36 阅读更多 →