文章目录LLM的接入方式1. API接入2. 本地接入 下载并安装Ollama 拉取模型 测试3. SDK接入4. 问题与思考LLM的接入方式如果需要自己写一个AI应用来实现相关AI行为则需要自行接入LLM。常见的原生LLM不经过第三方平台或复杂的代理层直接与大语言模型提供方进行交互的方法接入方式有三种【API远程调用】、【开源模型本地部署】和【SDK和官方客户端库】1. API接入这是目前最主流、最便捷的接入方式尤其适用于快速开发、集成到现有应用以及不想管理硬件资源的场景。通过HTTP请求通常是RESTful API直接调用模型提供商部署在云端的模型服务。代表厂商OpenAIGPT-4o、AnthropicClaude、GoogleGemini、百度文心一言、阿里通义千问、智谱AI等。典型流程就是注册账号并获取API Key在模型提供商的平台上注册获得用于身份验证的密钥。查阅API文档了解请求的端点、参数如模型名称、提示词、温度、最大生成长度等和返回的数据格式。构建HTTP请求在你的代码中使用HTTP客户端库如Python的requests构建一个包含API Key通常在Header中和请求体JSON格式包含你的提示和参数的请求。发送请求并处理响应将请求发送到提供商指定的API地址然后解析返回的JSON数据提取生成的文本。以deepseek为例官网地址https://platform.deepseek.com/usage点击创建API Key创建完成后保存API Key。调用curlhttps://api.deepseek.com/chat/completions\-HContent-Type: application/json\-HAuthorization: Bearer${DEEPSEEK_API_KEY}\-d{ model: deepseek-v4-pro, messages: [ {role: system, content: You are a helpful assistant.}, {role: user, content: Hello!} ], thinking: {type: enabled}, reasoning_effort: high, stream: false }使用 Postman 或者Apifox等客户端发起调用2. 本地接入大模型本地部署这种方式就是将开源的大型语言模型如Llama、ChatGLM、Qwen等部署在你自己的硬件环境本地服务器或私有云中。核心概念就是将下载模型的文件权重和配置文件使用专门的推理框架在本地服务器或GPU上加载并运行模型然后通过类似API的方式进行交互。典型流程是获取模型从Hugging Face国外、魔搭社区国内等平台下载开源模型的权重。准备环境配置具有足够显存如NVIDIA GPU的服务器安装必要的驱动和推理框架。选择推理框架使用专为生产环境设计的框架来部署模型例如vLLM特别注重高吞吐量的推理服务性能极佳。TGIHugging Face推出的推理框架功能全面。Ollama非常用户友好可以一键拉取和运行模型适合快速入门和本地开发。LM Studio提供图形化界面让本地运行模型像使用软件一样简单。启动服务并调用框架会启动一个本地API服务器如http://localhost:8000你可以像调用云端API一样向这个本地地址发送请求。 下载并安装OllamaOllama是一款专为本地部署和运行大型语言模型LLM设计的开源工具旨在简化大型语言模型LLM的安装、运行和管理。它支持多种开源模型如qwen、deepseek、LLaMA并提供简单的API接口方便开发者调用适合开发者和企业快速搭建私有化AI服务。Ollama官网https://ollama.ai 拉取模型Ollama可以管理和部署模型我们使用之前需要先拉取模型。修改模型存储路径模型默认安装在C盘个人目录下C:\Users\XXX.ollama可以修改ollama的模型存储路径使得每次下载的模型都在指定的目录下。有以下两种方式配置系统环境变量变量名OLLAMA_MODELS变量值${自定义路径}通过Ollama界面来进行设置设置完成后重启Ollama。 测试模型拉取之后可以通过命令行和AI模型对话。3. SDK接入这并非一种独立的接入方式而是对第一种API接入的封装和简化。模型提供商通常会发布官方编程语言SDK为我们封装好了底层的HTTP请求细节提供一个更符合编程习惯的、语言特定的函数库。典型流程以OpenAI Python SDK为例安装库pip install openai安装OpenAI SDK后可以创建一个名为example.py的文件并将示例代码复制到其中。fromopenaiimportOpenAI clientOpenAI(api_keyyour-api-key)responseclient.responses.create(modelgpt-5,input介绍⼀下你⾃⼰。)print(response.output_text)相比直接构造HTTP请求代码更简洁、更易读、更易维护。4. 问题与思考对于以上三种接入方式我们该如何选择看数据敏感性如果数据极其敏感必须留在内部本地部署是唯一选择。看技术实力和资源如果团队没有强大的MLops机器学习运维能力也没有预算购买和维护GPU服务器云端API是更实际的选择。看成本和规模如果应用规模很大长期来看本地部署的固定成本可能低于持续的API调用费用。反之小规模应用API更划算。看定制需求如果只是使用模型的通用能力云端API足够。如果需要用自己的数据微调模型则需要选择支持微调的API或直接本地部署。实际上只要是原生LLM无论怎么接入都有限制。为什么输入长度限制所有LLM都有固定的输入长度如4K、8K、128K、400K Token。我们无法将一本几百页的PDF或整个公司知识库直接塞给模型。缺乏私有知识模型的训练数据有截止日期且不包含我们的私人数据如公司内部文档、个人笔记等。让它基于这些知识回答问题非常困难。复杂任务处理能力弱原生API本质是一个“一问一答”的接口。对于需要多个步骤的复杂任务如“分析这份财报总结要点并生成一份PPT大纲”我们需要自己编写复杂的逻辑来拆解任务、多次调用API并管理中间状态。输出格式不可控虽然可以通过提示词要求模型输出JSON或特定格式但它仍可能产生格式错误或不合规的内容需要我们自己编写后处理代码来校验和清洗。像LangChain这样的框架正是为了系统性地解决这些问题而诞生的。