AI Agent:大模型+工具的智能革命

张开发
2026/4/8 17:27:28 15 分钟阅读

分享文章

AI Agent:大模型+工具的智能革命
文章目录大模型和AI Agent1. 大模型(本身)的缺点:2. AI AgentDify1. Dify能做什么2. 安装Dify3. Dify安装大模型提示词工程1. 什么是提示词2. Dify中应用提示词RAG1. 什么是RAG2. 知识库构建3. 让Agent应用知识库Function Calling工具/插件1. 什么是Function Calling2. 为什么需要 Function Call 功能3. 自定义Function Call工作流大模型和AI Agent1. 大模型(本身)的缺点:无法联网:无法获取最新的知识知识过时:知识停留在训练的时间深度不足:缺乏专业的领域知识不能执行:无法完成实际操作传统大模型:被动相应,仅限训练数据,只能对话,单论回答,适合咨询回答2. AI AgentAI Agent 就是智能体,一个能够干活的AI管家智能体能够独立思考和决策能够调用各种外部知识能够才接并执行复杂任务AI Agent:能够主动执行,可实时搜索,可调用工具,多步规划,适合实际业务AI Agent 大模型 工具注意:智能体不是未来,他已经在真实的场景里面产生了实际的价值!!正在发生一些生产力的革命DifyDify是一个开源的大语言模型(LLM)应用开发平台,旨在简洁和加速生成式AI应用的创建和部署.低代码/无代码:不需要写代码,像拖拽积木一样编排业务逻辑功能完整强大:支持100主流模型接入,满足各种企业级场景开源免费:支持私有化部署官网地址:https://dify.ai/zh1. Dify能做什么能做聊天助手:快速构建具备上文理解能力的对话机器人,支持多轮对话知识库:轻松接入企业私有文档,实现基于自有知识的精准回答工作流:通过可视化画布编排复杂的业务逻辑,实现任务自动化Agent智能体:构建能够自主调用工具,拆解并完成复杂任务的只能助手2. 安装Dify2.1. 安装Docker,企业一般会安装在Linux中下载官方docker后根据指示安装docker,验证:能够显示相应的版本即安装成功!docker--versiondocker-compose--version2.2. 下载Dify代码Github地址: https://github.com/langgenius/dify.git下载后将此文件夹放在服务器你想安装的位置! 然后unzip(解压)文件, 进入docker文件夹,修改下图的文件.注意下图是在服务器中的操作!!!等docker全部安装成功后,访问应用: http://localhost/signin;设置好邮箱,用户名,密码就可以登录了.3. Dify安装大模型3.1. 安装OllamaOllama是一个开源的本地大模型运行框架,用于本地部署、管理和运行各类开源LLM模型下载地址https://ollama.com/download3.2 安装模型一定要根据自己的电脑性能选择模型选择模型后发送消息如果没有模型他会自动下载模型3.3 Dify中配置ollama登录到Dify的页面第一步点击右上角的用户头像第二步点击设置选择模型供应商进入Dify市场中安装ollama应用商然后返回Dify的模型列表在ollama模型中点击添加模型添加模型时写好模型名称一定要与下载的模型名称一致模型类别一般为LLM基础URL如果为本地可以使用docker容器名指定http://host.docker.internal:114343.4 接入在线模型比如接入阿里云百炼可以登录阿里云创建API Key 然后将API Key复制一下再回到Dify中安装通义模型配置Key起个名字即可。比较简单不配图说明了详细可以百度提示词工程1. 什么是提示词提示词 与AI沟通的说明书提示词Prompt就是你给AI下达的指令或者提出的问题。提示词越清晰、具体AI的表现就越好。提示词是搭建智能体的初始设定没有一个好的提示词再好的大模型也发挥不出来你想要的结果提示词4个关键要素角色定位明确Bot智能体的身份建立专业形象让Bot扮演某种角色角色越具体回复越专业好的示例 职业身份你是一位有15年经验的职业HR 专业领域擅长处理敏感的人际关系问题 性格特征温和、专业、善于共情 差的示例 职业身份你是一个助手 专业领域什么都懂一点 性格特征随便聊聊技能描述清晰的目标让Bot知道做什么描述清楚具体的场景具体的任务好的示例 帮助用户生成高情商的职场回复针对老板批评、同事冲突等场景给出3种不同风格的回复方案 差的示例 帮助用户回答问题输出格式结构化回复要求确保输出规范好的输出格式 按以下格式输出 1.情况分析50字 2.回复建议3条每条30字 3.完整范文150字 差的输出格式 随便回复就行约束条件限制不当行为保证安全合规约束内容和约束风格内容约束 避免敏感话题政治、宗教 避免冒犯性语言 不提供未证实的信息 风格约束 语气诚恳但不卑微 避免过渡道歉 保持专业性完整示例对比好的提示词 你是电商平台“小蜜”客服助手。角色定位 负责解答尺码、物流、退换货问题。技能描述 回复需先给结论再分点说明每条不超过30字。输出格式 禁止回答无关话题纠纷请转人工客服。约束条件 差的提示词 你是客服回答用户问题态度好一点。2. Dify中应用提示词Dify中包含两种提示词用户提示词和系统提示词Dify中设置提示词先自己编写然后AI大模型优化标准的提示词构成结构化提示词角色目标示例格式效果最佳RAG1. 什么是RAGLLM存在的问题知识过时无法回答用户体验差价值大打折扣解决方案RAGRetrieval-Augmented Generation检索增强技术RAG是一种结合知识检索和语言生成的人工智能技术主要用于解决大语言模型的幻觉问题模型幻觉问题大模型无法回答问题或者回答的问题是错的。RAG可以有效缓解幻觉问题基本原理在生成回答时先从知识库中检索相关文档将检索到的文档与原始问题一起输入LLMLLM基于检索内容生成最终答案。这里要先对自己的知识进行Embedding切片然后存入向量数据库知识库问问题时先将问题进行向量化然后去向量数据库进行向量匹配匹配到的内容获取几个得分最高的片段连同问题一起给大模型2. 知识库构建大模型原生知识有时效差、易幻觉、装不下私域 / 专业内容知识库 RAG是让 Agent「懂业务、说真话、答精准、能落地」的底层基建答案有据可依。2.1. 文档准备文档类型支持PDF、Word、TXT表格类型 Excel、CSV文档一定要进行预处理清理无关内容广告、水印按主题分类整理文件命名规范含关键信息2.2. 文档切片为了适应大语言模型的上下文长度限制并提升检索的精准度和效率。切分方式按字符数切分固定长度如每300字一段按符号切分按照句号、换行符、感叹号等按语义切分识别主题变化点智能切分使用模型进行识别一般选择方式 按照符号和字符长度一块切分一般200-500字/段长度太小上下文不完整检索不准长度太大无关信息过多干扰判断3.3. 文档向量化将切分后的文本进行向量数字化便于计算问题和文档的相似性向量化作用语义理解相似度计算快速检索3. 让Agent应用知识库创建空白应用构建Agent智能体构建提示词选择知识库结果验证Function Calling工具/插件1. 什么是Function CallingFunction Calling又称工具或插件2023年6月13日OpenAI公布了Function Call 函数调用功能该功能指的是在语言模型中集成外部功能或API的调用能力这意味着模型可以在生成文本的过程中调用外部函数或服务获取额外的数据或执行特定的任务。说白了Function Calling就是代码中的一个方法只需要将方法参数以及方法描述写清楚调用大模型的时候将此方法传过去大模型会自己判断需不需要调用大模型本身不执行工具他只负责决策以及参数的生成流程当用户输入一个问题时大模型会判断用户的问题是否能够直接回答如果能够直接回答就返回结果。如果不能直接回答他会有一个决策的过程首先他会匹配外部的API选择合适的外部API并且生成调用API所需要的参数根据API返回的结果再结合大模型本身生成回复给用户2. 为什么需要 Function Call 功能大模型训练的数据集无法包含最新的信息如最新的新闻、实时股价等。通过Function Call模型可以实时获取最新的数据提供更时效的服务大模型训练数据虽多但有限无法覆盖所有领域如医学、法律等领域的专业咨询Function Call允许模型调用外部数据库或API获取特定领域的详细信息。大模型虽然功能强大但不可能内置所有可能需要的功能。通过Function Call可以轻松扩展模型能力如调用外部工具进行复杂计算数据分析等。3. 自定义Function Call什么时候需要自定义插件官方插件没有我想要的功能付费插件费用太贵想连接特定的第三方API服务需要对接企业内部系统自定义插件基本流程脚本开发- 运行脚本- 创建工具- Schema操作- 测试- 保存注意工具需要有鉴权方法需要Bearer并且需要根据OpenAI的规范编写Schema里面写好调用方法的URLDify中插件是一个工具集包含一个或多个工具每一个工具就是一个可调用的API核心机制大模型通过阅读【插件描述】来决定是否调用该插件工作流工作流 业务逻辑的可视化执行工作流的作用它将一个复杂的任务分解成一系列可管理的、按顺序或按条件执行的步骤并通过图形化的界面将这些步骤连接起来Agent 自主决策的AI助手ReAct形式 思考- 行动- 观察- 再思考- …循环往复直到能够给出用户的答案自主规划动态制定执行计划根据环境反馈实时调整路径工具选择灵活调用外部工具库AIP、数据库、搜索等完成任务推理能力具备多轮思考与自我纠错能力处理复杂逻辑灵活但贵智能化程度极高但Token消耗与响应延迟相对较高

更多文章