Token 大模型能读懂的最小“文字碎片”不再按汉字/字符算按模型拆分后的碎片计费、算长度。1中文汉字 ≈ 1.3 个 Token1英文单词 ≈ 1 个 Token1000 汉字 ≈1300 Token字符我们肉眼数的字、标点、字母Token模型内部切割后的小块模型不会整字读会拆偏旁、词根、词组碎片处理。体验阿里百炼平台-应用-侧栏知识库https://bailian.console.aliyun.com/cn-beijing?spm5176.12818093.console-base_product-drawer-right.dproducts-and-services-sfm.3be916d0HTrGdx#/homeRAG原理绿色数据的嵌入embedding文字性的相似性查询存文档进知识库、数据分块图片转成文字-文字提取出来-再存进去-再分块、拆分策略、常规数据库文字存入数据库常规数据库查询全文检索关键字匹配大语言模型查找根据语义查找相似性匹配向量数据库文字转成数字向量存入向量数据库embedding model本身也是一种大模型图片性的相似性查询红色数据的召回检索用户提问-嵌入模型先对用户问题进行向量转换-根据数字到向量数据库进行相似度查询-返回相关的块数据top_k20这个数大一些保证需要的答案在召回数据里、1表示最相似但不一定正确、足够大如果还不行引入模型重排-把用户的问题返回的所有数据上下文一起发送给大模型大模型智能体把用户问题拆分成很多子问题、多次查询增大召回准确率7还可以做混合检索语义全文检索知识图谱构建文档之间的关系加载不同格式的文档加载器加载各种各样的数据借助嵌入模型进行转换使用嵌入模型的方式- 在线服务商提供的api- 私有化自己部署https://www.modelscope.cn/homehuggingface企业用8b自己用0.6b嵌入模型一旦使用不能修改如果换模型纬度不一样数据都作废运行模型的框架transformerVLLM是在本地运行一个API服务Ollamahttps://ollama.com/library/qwen3-embedding用这个Ubuntu安装Ollama服务器/虚拟机内存4G以上1在Linux终端粘贴命令2下载模型在Linux终端粘贴命令ollama pull qwen3-embedding:0.6b查看ollama list3修改配置支持ollama远程访问viEnvironmentOLLAMA_HOST0.0.0.0:114344重启服务sudosystemctl daemon-reloadsudosystemctl restart ollama5放开端口本机ufw allow11434云服务器到官网后台6用另一台电脑访问 http://你的服务器IP:11434能返回结果就成功了后续部署和使用RAG系统开发MCP server对接用例生成系统关注“用例采纳率”