编者按:8月28日开幕的2025百度云智大会期间,百度智能云千帆产品经理殷杰发表了主题为《Agent开发中的“坑”与“解”》的演讲。他在演讲中分享了有关智能体开发过程经常遇到的问题以及解决方案,这对于高效开发Agent有着较强的实践指导意义。
以下是演讲全文,为了方便阅读,内容略经调整,enjoy:
大家好!我是百度智能云千帆产品经理殷杰,今天要跟大家分享的主题是——智能体开发过程中的“坑”与“解”。
相信大家都对智能体都有很多期待,这也是咱们聚到一起的原因。今年 “通用智能体” 也非常火,我们希望它能无所不能,在各个领域发挥作用,例如客服、办公、数据分析、内容创作等等。
但实际我们动手做的时候,尤其是企业级这种严肃场景,在启动前、开发中到上线后这三个阶段,一般都是 “坑” 连着 “坑”。
下面我用十来分钟快速过一遍咱们常遇到的“坑” 和对应的解决办法。因为时间有限,没法每个都展开细讲,会后大家要是有兴趣,咱们再好好交流。
首先咱们说 “启动前” 这个阶段。
启动前,最先碰到的就是“选题”的问题。大家一起讨论的时候,能冒出一大堆想法,但实际做起来会发现好多“坑”。常见的坑是“选题”太贪心,比如说我们有客户想做 “虚拟全能的员工”,结果半年内都很难落地。还有团队要做 “金融研报生成”,但没拿到券商数据库,做到一半做不下去了。
所以针对这些的问题,我们会给大家几个建议:
1、我们也可以先做最小可用Agent,MVA,类似于MVP最小可用产品的概念。比如先做 “只处理社保问题的客服”,跑通一个智能体后,可以多个智能体合并到一个多智能体框架中,多模态联合编排的框架,进而能解决更全面的问题,这样可以由要处着手持续获取正反馈。
2、缺关键数据 / 工具别硬上。像刚才的研报项目,要是先确认有没有行业数据库,或者专业的工具,不然就会白忙活;
3、从痛点出发,做好衡量价值的智能体,别为了做而做。比如某电商公司先选择做 “商品信息审核”,解决商品审核人力消耗较多的问题,上线就受到了很多好评。
选好题之后,就该 “选型” 了。现在市面上的框架平台特别多:有免费的、有收费的;有开源的、闭源的,甚至还能自己研发;还有零代码、低代码、高代码不同类型的开发平台。
到底该怎么选呢?
最典型的“坑”是这样的:大家一开始很乐观,用开源框架改改第二天就上线了,很快,但用得越深入,越发现要解决拓展性差、平台不合规等问题非常消耗人力。继续维护,投入大;放弃又可惜了,进退两难。
选型这个事也没有标准答案,根据自身情况选择即可:技术强的用开源,要简单快速的用低代码平台,预算充足就买平台、买服务。重点建议大家考虑可拓展性问题,例如是否能从低代码支持到高代码,比如我们有客户最开始从低代码起步,后面要扩展到高代码使用,没换平台也搞定了,免去了很多迁移成本。
对于选型这个事情其实没有标准答案,大家根据自身的情况选择即可,比如说我们技术比较强可以选择开源的自己手搓,想选用一些零代码或者低代码的工具,比如说秒哒,预算充足,这时候可以选择商业化的平台。一方面它是一个成熟的产品平台,同时也伴随着体系化的服务,可以帮助解决我们各种各样的问题。
重点建议大家在选型的时候考虑可扩拓展性的问题。因为我们最开始是由浅入深的,到后面在我们平台搭建一些零代码的智能体,发现还不错,后面随着使用的深入,进一步使用了高代码的一个选型,然后没有换平台也能搞定,所以建议大家一定要考虑到整个使用过程中由浅入深的可拓展性。
最后一个启动前的坑:热衷独立钻研和造轮子,自信受挫,这是通过有一定技术的开发者会选用的方案。
当然这没有问题,同时来看,比如说我们有一个典型的案例就是他们去搭建智能客服的智能体,其实这个选题也很常见,没有看线上的模板自己去写相关的逻辑。结果比同等我们服务的另外一个客户花了两倍多的时间。
虽然智能体是比较新的领域,但是方法论也涌现得很快,如果忽略这些能一键复制再改改就能用的智能体模板,自己从头 “造轮子”,效率肯定是高不了。
大家平时可以多看看应用模板、学学相关课程、逛逛社区、查查最佳实践;就像来听今天这场分享,或者线下问问我们百度的专家,肯定都能避开不少 “坑”。
接下来进入第二个阶段 ——“开发中”。
开发第一步,就是 “选模型”。市面上的模型五花八门,到底该挑哪个?有人可能会说 “就选那个最火的”,每个人都有自己的答案,但 “最火的” 不一定适合所有场景。往往还会碰到一个问题:不知道怎么评价模型的性能和效果,更没法持续提升 “效价比”。
然后给大家几个解决办法:
首先,根据场景缩小选择范围。比如你要做的是文本相关的,还是多模态的?是需要深度推理,还是要快速响应?是用通用模型,还是行业专属的大模型?这么一筛,可选的模型就少多了。
其次,建议先选同类型里效果最好的模型,先验证 “效果行不行”。如果连最好的模型都达不到预期,那后续就不用白费功夫了。
最后,要持续对模型做效果评估、性能评估,必要的时候还得调优,这样才能优化 “效价比”。大家也别觉得 “模型调优” 很难,现在平台上的评估和调优工具链已经很完善了,包括效果、性能,内置了大量的测评集,大家也可以把这个关联到我们测评集当中,可以更好去做模型的调优。
说到模型,就不得不提 “提示词”。提示词写得差的问题五花八门;写得好的,都有一个共同点——像写 PRD 一样。可能有朋友不知道PRD是什么,它就是 “产品需求规格说明书”,是产品经理和研发沟通最常用的文档。好的PRD得格式清晰,说清楚我们什么需求、目标是什么、怎么衡量结果,还得解释专业术语、说明,什么用户会在什么场景下会用这个功能。
而且最优秀的PRD是会根据项目不同,灵活调整 PRD 的内容,目标只有一个,能把需求说清楚。要是能做到PRD的标准,提示词肯定能写好。
当然,也不用全靠自己写,有很多现成的提示词模板、在线调试评估工具,以及能一键生成、智能调优,用这些能提高很多效率,效果下限也可以得到保障。大家也可以在我们平台去做一些实践和实验。
下面我们来到RAG, 它是智能体最常用的能力之一,它最大的 “坑” 就是效果问题 —— 召回的内容不准,回答和问题对不上。要优化 RAG 效果,需要 “离线处理” 和 “在线召回” 两手抓,两手都得硬。
先说说“离线处理”部分:
第一是知识库管理,这其实是个经典的数据治理问题。虽然现在智能体的解析和理解能力强了,对知识库的要求低了点,但基本功还是得做。
第二是文档处理,有很多策略可以选。简单的切片方式、切片长度就不说了,还可以试试高级解析策略 —— 比如识别文档排版、深度解析图片和表格,可以精准的进行切片。
同时,还有知识增强,就是给文档片段额外生成概括和摘要,比如说刚才讲到的GraphRAG,方便召回的时候有更多补充信息参考。而且调整策略的时候,要边调边验证效果,这样能及时调整你解析的方向。
再说说“在线召回”部分:
咱们可以根据实际情况,选关键词检索、语义检索等不同的间检测策略;还能设定召回数量、匹配分,控制准确率和召回率;也可以考虑对召回的切片内容做前后扩展,以免因为切片的不合理丢失连贯完整的信息。
还有些进阶玩法,比如设置同义词、专有名词,这样智能体能更好理解行业黑话,召回更准,比如今天说的MVA,这个词就很小众;还能开联网搜索增强,把自己的知识库和全网信息结合起来检索召回,获取更丰富全面的信息。
工具其实能决定智能体的能力边界 —— 因为模型的能力是相对固定的,但工具能做的事几乎是无限的。不过用工具的时候,常会碰到三个问题:找不到好用的工具、工具适配差、用不好工具。
给大家三个解决办法:
第一,多去聚合平台、智能体开发平台、官方平台找找。自从有了 MCP 协议统一标准,降低了适配成本,越来越多人愿意提供 MCP 服务。百度和我们千帆也提供组件和MCP广场,搜罗了一批还不错的服务,大家可以选用。
第二,建议大家做成 MCP 服务,这样大模型和工具交互起来更通用、更标准。同时可以对工具做些预处理、后处理——比如一个复杂的AI搜索接口,咱们入参十几二十个,可以根据场景设好默认值,这些默认值不用让模型感知到,简化入参为最常用的三个,这样就能更稳的调用。
第三,在调用工具的时候,可以通过模型训练、优化提示词,让工具和模型配合得更好;如果是对确定性要求高的场景,还能直接搭工作流用工具,避免不确定性。而且可以通过调试和上线后的监控来快速获取反馈进行调用效果调优,来让模型调工具调得更准。做到这些点我们就希望让工具找得到、用得稳、调得准。
开发阶段最后一个 “坑”,是容易忽视内容安全。尤其是在赶进度上线的早期,往往等出现舆情风险,或者收到监管通报,才开始重视。建议大家建一个 “多级安全体系”:
第一级,靠平台提供的大模型和组件自带的安全机制,一般能解决违法违规的红线问题,性能表现也是最好的。
第二级,用各类安全算子 —— 比如图像审核、语音审核、语义审核的,根据场景需求做多维度的通用安全控制,按需选择。
第三级,在智能体层面做端到端干预,快速响应需求,处理企业自己的品牌安全问题。
这点很重要,因为智能体会代表企业形象,用户会问品牌相关的敏感问题 —— 比如 “你们家产品和别家比怎么样”“你们最近的舆情是怎么回事”,这些通用安全模块不好解决,最好是在智能体层干预。常见的办法有:设计专门的提示词、设置兜底话术、在安全知识库做 RAG 回答等等。
下面咱们进入最后一个阶段 ——“上线后”。
上线后第一个问题就是 “高可用”。怕没人用是一方面,有时候更怕“有人用”——大量用户涌进来,很容易因为资源不够让智能体崩溃;而且反馈的稳定性问题,也很难定位和排查,也让我们研发同学很头痛。
建议大家先理清楚智能体调用全链路的资源依赖,然后做好全面监控,建好容灾机制。具体的方法刚才PPT包括大家心里面也有一些答案,我就不细说了,其实找一个靠谱的云原生平台,就能解决这些问题,比如百度智能云千帆。这也呼应了一开始说的 “选好型,能避开潜在的坑”。
最后一点,也是最近一年很多用户的感受,最开始我们都是很兴奋地搭建各种Demo,到真正想靠智能体提升生产力,大家慢慢发现:上线不是结束,反而才是开始。这不是 “最后一公里”,甚至能说是 “最后九公里”。
要运营好这件事,就得扎实的做好观测、定期评估效果、收集用户反馈,最后进行针对性进行持续调优,能够把可观测、可量化、可闭环解决问题,然后整套体系做一个完整的建设。
我们千帆也提供效果测评、反馈和干预全链条的调优模块,欢迎大家去做一个使用和体验。
最后我们快速回顾一下:从启动前、开发中到上线后,我给大家列了十大常见的 “坑” 和解决办法,涉及选题、选型、方法论、模型、提示词、RAG、工具、安全,还有企业级高可用和持续优化这些方面。
希望这些内容能帮到大家。
也祝大家以后开发智能体的时候,顺顺利利,少踩 “坑”。
谢谢大家!
(本文插图由设计智能体lovart & nano-banana 生成)
在线开户股票,网上的股票配资怎么样,配资世界门户首页提示:文章来自网络,不代表本站观点。