Spring Boot项目里，5分钟搞定LangChain4j调用本地Ollama模型（附完整代码）

张开发

• 2026/4/15 16:12:28 • 15 分钟阅读

分享文章

Spring Boot项目里，5分钟搞定LangChain4j调用本地Ollama模型（附完整代码）

Spring Boot项目快速集成LangChain4j调用本地Ollama模型实战指南在当今AI技术快速发展的背景下将大语言模型能力集成到现有Java应用中已成为提升产品竞争力的有效手段。本文将手把手指导Spring Boot开发者如何在5分钟内完成LangChain4j与本地Ollama模型的对接无需复杂配置即可为应用注入AI能力。1. 环境准备与基础配置1.1 创建Spring Boot项目使用Spring Initializr快速生成项目骨架选择以下核心依赖curl https://start.spring.io/starter.zip \ -d dependenciesweb,lombok \ -d languagejava \ -d typegradle-project \ -d javaVersion17 \ -d artifactIdollama-demo \ -o ollama-demo.zip关键依赖说明Spring Web提供RESTful接口支持Lombok简化Java Bean编写1.2 添加LangChain4j依赖在build.gradle中添加Ollama集成包dependencies { implementation dev.langchain4j:langchain4j-ollama-spring-boot-starter:0.25.0 // 其他已有依赖... }注意建议使用最新稳定版本可通过Maven中央仓库查询2. Ollama本地服务配置2.1 安装与启动Ollama根据操作系统下载对应版本以macOS为例brew install ollama ollama pull llama2 # 下载基础模型 ollama serve # 启动服务服务默认监听端口为11434可通过以下命令验证curl http://localhost:11434/api/tags2.2 Spring Boot应用配置在application.yml中添加langchain4j: ollama: chat-model: base-url: http://localhost:11434 model-name: llama2 temperature: 0.7 timeout: 60s关键参数说明model-name指定使用的本地模型temperature控制生成文本的随机性0-1timeout设置请求超时时间3. 核心代码实现3.1 创建对话服务Service RequiredArgsConstructor public class AIChatService { private final OllamaChatModel chatModel; public String chat(String message) { return chatModel.generate(message); } public ListString multiTurnChat(ListChatMessage history) { return chatModel.generate(history.stream() .map(m - new dev.langchain4j.data.message.ChatMessage( m.role().equals(user) ? USER : AI, m.content())) .collect(Collectors.toList())); } }3.2 实现REST接口RestController RequestMapping(/api/ai) RequiredArgsConstructor public class AIController { private final AIChatService chatService; PostMapping(/chat) public ResponseEntityString simpleChat(RequestBody String prompt) { return ResponseEntity.ok(chatService.chat(prompt)); } PostMapping(/chat/history) public ResponseEntityListString contextualChat( RequestBody ListChatMessage messages) { return ResponseEntity.ok(chatService.multiTurnChat(messages)); } }4. 高级功能扩展4.1 流式响应处理修改控制器支持Server-Sent EventsGetMapping(path /stream, produces MediaType.TEXT_EVENT_STREAM_VALUE) public FluxString streamChat(RequestParam String prompt) { return Flux.create(sink - { chatModel.generate(prompt, new StreamingResponseHandler() { Override public void onNext(String token) { sink.next(token); } Override public void onComplete() { sink.complete(); } Override public void onError(Throwable error) { sink.error(error); } }); }); }4.2 自定义模型参数动态调整生成参数public String chatWithParams(String prompt, float temperature, int maxTokens) { return chatModel.builder() .temperature(temperature) .maxTokens(maxTokens) .build() .generate(prompt); }4.3 异常处理建议全局异常处理器示例RestControllerAdvice public class AIExceptionHandler { ExceptionHandler(OllamaException.class) public ResponseEntityErrorResponse handleOllamaError(OllamaException ex) { return ResponseEntity.status(502) .body(new ErrorResponse(AI_SERVICE_ERROR, ex.getMessage())); } }5. 性能优化与监控5.1 连接池配置在application.yml中增加langchain4j: ollama: client: connect-timeout: 5s read-timeout: 30s max-retries: 3 connection-pool: max-idle: 10 max-total: 205.2 监控指标集成添加Micrometer监控Bean public OllamaMetrics ollamaMetrics(MeterRegistry registry) { return new OllamaMetrics(registry); }关键监控指标包括langchain4j.ollama.requests.durationlangchain4j.ollama.requests.countlangchain4j.ollama.errors.count5.3 缓存策略实现Cacheable(value aiResponses, key #prompt.hashCode()) public String getCachedResponse(String prompt) { return chatModel.generate(prompt); }6. 安全防护方案6.1 请求限流配置使用Resilience4j实现Bean public OllamaChatModel rateLimitedChatModel( OllamaChatModel delegate, RateLimiterRegistry registry) { RateLimiter limiter registry.rateLimiter(ollama); return new RateLimitedOllamaChatModel(delegate, limiter); }6.2 内容过滤机制public String safeChat(String prompt) { if (containsSensitiveWords(prompt)) { throw new ContentPolicyViolationException(); } return chatModel.generate(prompt); } private boolean containsSensitiveWords(String text) { // 实现自定义过滤逻辑 return false; }7. 测试验证方案7.1 单元测试示例SpringBootTest class AIChatServiceTest { Autowired private AIChatService chatService; Test void shouldReturnResponse() { String response chatService.chat(你好); assertThat(response).isNotBlank(); } }7.2 集成测试配置测试专用配置类TestConfiguration public class TestOllamaConfig { Bean Primary public OllamaChatModel mockOllama() { return new OllamaChatModel() { Override public String generate(String prompt) { return Mock response for: prompt; } }; } }8. 部署优化建议8.1 Docker Compose配置docker-compose.yml示例version: 3.8 services: ollama: image: ollama/ollama ports: - 11434:11434 volumes: - ollama_data:/root/.ollama app: build: . ports: - 8080:8080 depends_on: - ollama volumes: ollama_data:8.2 健康检查端点自定义健康指标Component public class OllamaHealthIndicator implements HealthIndicator { private final OllamaClient client; Override public Health health() { try { client.listModels(); return Health.up().build(); } catch (Exception e) { return Health.down(e).build(); } } }9. 常见问题解决9.1 连接超时排查典型错误场景处理流程验证Ollama服务状态ollama list检查端口连通性telnet localhost 11434查看Spring Boot日志中的连接错误详情9.2 内存优化配置JVM参数建议java -Xms512m -Xmx2g -XX:MaxRAMPercentage75.0 -jar your-app.jarOllama启动参数调整OLLAMA_NUM_PARALLEL2 ollama serve10. 架构设计建议10.1 服务分层设计推荐架构模式Controller Layer → Service Layer → AI Adapter Layer → LangChain4j Client10.2 异步处理实现使用Spring WebFlux实现非阻塞调用GetMapping(/async) public MonoString asyncChat(RequestParam String prompt) { return Mono.fromCallable(() - chatService.chat(prompt)) .subscribeOn(Schedulers.boundedElastic()); }11. 模型管理进阶11.1 多模型切换策略动态模型选择实现public String chatWithModel(String prompt, String modelName) { return OllamaChatModel.builder() .baseUrl(baseUrl) .modelName(modelName) .build() .generate(prompt); }11.2 本地模型缓存实现模型预加载机制PostConstruct public void preloadModels() { Arrays.asList(llama2, mistral).forEach(model - { ollamaClient.pullModel(model); }); }12. 客户端集成示例12.1 Web前端对接JavaScript调用示例fetch(/api/ai/chat, { method: POST, body: JSON.stringify(如何学习Spring Boot) }).then(response response.text()) .then(data console.log(data));12.2 移动端适配Android Retrofit接口定义interface AIService { POST(/api/ai/chat) suspend fun chat(Body prompt: String): ResponseString }13. 日志与诊断13.1 请求日志配置在application.yml中启用详细日志logging: level: dev.langchain4j: DEBUG13.2 诊断端点实现GetMapping(/diag) public MapString, Object diagnostics() { return Map.of( modelStatus, ollamaClient.listModels(), systemLoad, ManagementFactory.getOperatingSystemMXBean().getSystemLoadAverage() ); }14. 成本控制策略14.1 计费单元设计实现简单的使用量统计Aspect Component public class UsageTrackingAspect { Autowired private UsageMetrics metrics; Around(execution(* com..AIChatService.*(..))) public Object trackUsage(ProceedingJoinPoint pjp) throws Throwable { long start System.currentTimeMillis(); Object result pjp.proceed(); metrics.record(pjp.getSignature().getName(), System.currentTimeMillis() - start); return result; } }14.2 资源限制实现基于Spring的RateLimiterBean public RateLimiter aiRateLimiter() { return RateLimiter.create(10); // 10请求/秒 }15. 扩展阅读与资源15.1 官方文档参考LangChain4j Ollama集成文档Ollama模型库15.2 性能优化白皮书关键指标基准测试结果模型名称响应时间(ms)内存占用(MB)llama212003800mistral9504200

更多文章

前端开发 2026/4/15 16:11:22

SITS2026不可逆趋势：2026年前未集成AI编程工具的团队将面临Talent流失率激增——猎头数据库交叉验证报告

第一章：SITS2026不可逆趋势的底层动因与人才市场结构性拐点 2026奇点智能技术大会(https://ml-summit.org) 算力范式迁移驱动系统级重构 GPU集群调度延迟已跌破8.3ms（NVIDIA DGX GH200实测），而传统Kubernetes默认调度器平均延迟…

ComfyUI-Impact-Pack V8终极实战指南：从零构建AI图像增强流水线【免费下载链接】ComfyUI-Impact-Pack Custom nodes pack for ComfyUI This custom node helps to conveniently enhance images through Detector, Detailer, Upscaler, Pipe, and more. 项目地址:…

张开发

前端开发 2026/4/15 15:45:11

构建堆叠+链路聚合双引擎，迈向企业网络零中断

1. 为什么企业需要"双引擎"网络架构？ 记得去年帮一家跨境电商做网络升级时，他们的CTO说过一句让我印象深刻的话："对我们来说，网络中断1分钟就意味着六位数的损失。"这其实反映了现代企业的普遍痛点——业务连…

张开发

Spring Boot项目里，5分钟搞定LangChain4j调用本地Ollama模型（附完整代码）

最新文章

Linux screen命令实战：5个高效管理远程服务器的技巧（附快捷键大全）

从BGA到FC：一文看懂主流IC封装基板技术选型指南（附对比表格）

5分钟掌握Draw.io Obsidian插件：在笔记中创建专业图表终极指南

ThinkPHP6+LayUI+UniApp技术栈解析：Niushop多门店版V5.5.0的二次开发入门指南

ModelSim联合仿真：glbl.v版本兼容性排查与修复

WebGL程序突然白屏？别慌，手把手教你用addEventListener搞定上下文丢失与恢复

推荐文章

VINS-fusion实战：从Euroc到KITTI，手把手教你配置与避坑（附EVO评估全流程）

为了过等保，我们给200+服务器做了OpenSSH 10.0自动化升级，这是完整复盘

【信息安全概论实验报告1】隐写技术

明明知道该做什么，却总提不起劲？蕙兰瑜伽告诉你：不是你懒，是你忘了自己是谁

【2026奇点大会Prompt工程权威指南】：全球仅37位主讲人亲授的5大高阶提示范式与实战避坑清单

工业大模型≠智能工厂！SITS2026曝光的12个AI原生落地陷阱，第9个正在吞噬你的技改预算

相关文章

深入解析ZeroMQ inproc：线程间通信的高效实现与性能优势

BewlyBewly终极指南：打造高效个性化的B站浏览体验

IDM激活脚本架构设计：基于注册表锁定机制的99%成功率激活方案

Sulpho-Methyltetrazine-NHS ester，磺化甲基四嗪-琥珀酰亚胺酯的结构特点与功能

3步精通Zotero OCR：从安装到高效文本识别

OpCore-Simplify：驯服硬件兼容性的自动化引擎

分享文章

更多文章

SITS2026不可逆趋势：2026年前未集成AI编程工具的团队将面临Talent流失率激增——猎头数据库交叉验证报告

Java 大厂一面模拟：从类加载器到热点Key治理的连续压问

Gemini实战——用AI写CI/CD脚本

“全栈”的反噬：为什么简历上技术栈越满，反而越容易在初筛中出局？

告别静态文档：利用 Notion 搭建“交互式”简历的降维展示策略

科技岗求职复盘：单打独斗、求助学长与系统化辅导，底层的差距到底在哪？

大厂面试：聊聊Redis大Key对持久化的影响？

3分钟极速部署：Calibre豆瓣元数据插件终极实战指南

微信小程序代码高效托管：Git仓库上传全流程解析

NVIDIA Profile Inspector终极指南：3步解锁显卡隐藏性能，告别游戏卡顿

ComfyUI-Impact-Pack V8终极实战指南：从零构建AI图像增强流水线

构建堆叠+链路聚合双引擎，迈向企业网络零中断

Spring Boot项目里，5分钟搞定LangChain4j调用本地Ollama模型（附完整代码）

最新文章

Linux screen命令实战：5个高效管理远程服务器的技巧（附快捷键大全）

从BGA到FC：一文看懂主流IC封装基板技术选型指南（附对比表格）

5分钟掌握Draw.io Obsidian插件：在笔记中创建专业图表终极指南

ThinkPHP6+LayUI+UniApp技术栈解析：Niushop多门店版V5.5.0的二次开发入门指南

ModelSim联合仿真：glbl.v版本兼容性排查与修复

WebGL程序突然白屏？别慌，手把手教你用addEventListener搞定上下文丢失与恢复

推荐文章

VINS-fusion实战：从Euroc到KITTI，手把手教你配置与避坑（附EVO评估全流程）

为了过等保，我们给200+服务器做了OpenSSH 10.0自动化升级，这是完整复盘

【信息安全概论 实验报告1】隐写技术

明明知道该做什么，却总提不起劲？蕙兰瑜伽告诉你：不是你懒，是你忘了自己是谁

【2026奇点大会Prompt工程权威指南】：全球仅37位主讲人亲授的5大高阶提示范式与实战避坑清单

工业大模型≠智能工厂！SITS2026曝光的12个AI原生落地陷阱，第9个正在吞噬你的技改预算

相关文章

深入解析ZeroMQ inproc：线程间通信的高效实现与性能优势

BewlyBewly终极指南：打造高效个性化的B站浏览体验

IDM激活脚本架构设计：基于注册表锁定机制的99%成功率激活方案

Sulpho-Methyltetrazine-NHS ester，磺化甲基四嗪-琥珀酰亚胺酯的结构特点与功能

3步精通Zotero OCR：从安装到高效文本识别

OpCore-Simplify：驯服硬件兼容性的自动化引擎

分享文章

更多文章

【信息安全概论实验报告1】隐写技术