共计 2391 个字符,预计需要花费 6 分钟才能阅读完成。
当 ChatGPT 于 2022 年问世时,Intercom 并未止步于新闻头条——他们迅速采取行动。在 GPT-3.5 发布后的几小时内,这家客户服务软件公司便开始了实验,并在短短四个月内推出了他们的 AI 助手 Fin,如今每月处理数百万条客户查询。
这种早期的势头并非偶然。随着大语言模型(LLMs)的快速发展,Intercom 意识到 AI 将重塑客户体验。领导层迅速采取行动,组建了一个跨职能任务小组,取消了非 AI 项目,并投入 1 亿美元将业务平台重新围绕 AI 构建。
这一决策引发了公司范围内的变革:重组了产品团队,制定了新的 AI 优先的客服策略,并构建了一个支持 Fin 处理大量复杂客户查询的平台。
以下是 Intercom 旅程中的三个经验教训,任何团队——无论起点如何——都可以立即应用。,
“AI 优先必须内建,不能事后添加。”
——Intercom 首席产品官 Paul Adams,
经验 1:尽早并频繁实验以构建模型熟练度
Intercom 早期并频繁地测试模型,并从工作中深入学习。该团队很早就开始实验生成模型,他们的实践经验帮助他们了解模型的局限性并发现机会。当 GPT- 4 于 2023 年初推出时,他们已经做好准备。在四个月内,他们推出了 Fin,并且此后从未放缓。
“我们能够利用 GPT-3.5 进行流畅的对话,并展现出一些神奇的效果,但它还不足以让我们的客户完全信任,”工程高级副总裁 Jordan Neill 表示。“因为我们做了充分的准备,当 GPT- 4 到来时,我们知道它已经准备好了,于是我们推出了 Fin。”
同样的熟练度帮助 Intercom 设计了 Fin Tasks,这是一个自动化复杂工作流程(如退款和技术支持)的系统。尽管团队最初计划构建一个基于推理模型的堆栈,但他们的评估显示 GPT-4.1 可以独立完成任务——具有高可靠性和更低的延迟。
如今,GPT-4.1 在 Intercom 的 AI 使用中占据了越来越大的份额,包括 Fin Tasks 中的关键逻辑。团队还发现,在非推理查询中添加思维链提示可以缩小性能差距。
Intercom 的结论是:越了解模型,就能越快适应技术的最新发展。
经验 2:通过强评估解锁速度
要快速行动,必须衡量什么有效——以及为什么有效。Intercom 快速采用新模型、模态和架构的能力源于其 严格的评估流程。每一个新的 OpenAI 模型——无论是用于 Fin Voice(由 Realtime API 驱动)还是 Fin Tasks(由 GPT-4.1 驱动)——在部署前都会经过结构化的离线测试和实时 A / B 试验,以评估指令遵循、工具调用准确性和整体连贯性。
例如,团队根据实际支持互动的转录文本对模型进行基准测试,评估它们处理多步骤指令(如退款)的能力、保持 Fin 品牌声音的能力以及可靠执行函数调用的能力。这些结果为实时 A / B 测试提供了依据,比较 GPT- 4 和 GPT-4.1 等模型的解决率和客户满意度。
这种方法帮助 Intercom 在几天内从 GPT- 4 迁移到 GPT-4.1。在确认指令处理和函数执行方面的改进后,他们在 Fin Tasks 中全面推出 GPT-4.1,并立即在性能和用户满意度方面取得了显著提升。
“当 GPT-4.1 推出时,我们在 48 小时内获得了评估结果,并立即制定了推出计划,”Intercom 首席机器学习科学家 Pedro Tabacof 表示。“我们立即发现,GPT-4.1 在智能和延迟方面很好地满足了客户的需求。”
对于 Fin Voice,同样的评估流程帮助 Intercom 验证了新的语音模型快照,并确定了在延迟、函数执行和脚本遵循方面的改进:这些对于提供人类质量的电话支持至关重要。
Intercom 扩展了他们的评估范围,以捕捉语音为互动带来的额外维度。他们系统地评估 Fin Voice 的个性、语调、中断处理和背景噪音等因素,以确保高质量的客户体验。
经验 3:通过架构灵活性构建长期优势
Intercom 从一开始就为变化而设计,构建了一个足够灵活的架构,能够与其依赖的模型共同发展。Fin 的系统在设计上是模块化的,支持多种模态,如聊天、电子邮件和语音,每种模态在延迟和复杂性方面都有不同的权衡。该架构允许 Intercom 将查询路由到最适合的模型,并在不重新设计底层系统的情况下更换模型。
这种灵活性是经过深思熟虑的,并且不断演变。Fin 的架构现在已经是第三次重大迭代,下一次迭代已经在开发中。随着模型的改进,团队在需要的地方增加复杂性以解锁新功能,并在可能的地方简化设计。
这种适应性在 Fin Tasks 中证明了其重要性。最初,团队认为他们需要基于推理的模型来支持 Fin Tasks——Fin Tasks 使 Fin 能够解决复杂的客户查询并执行多步骤流程,如退款、账户更改或技术故障排除。
但在测试中,GPT-4.1 的指令遵循能力超出了预期,以更低的延迟和成本提供了相同的可靠性。
“老实说,我认为人们对 GPT-4.1 的讨论还不够,”Intercom 首席机器学习工程师 Pratik Bothra 表示。“我们对其延迟和成本表现感到非常惊讶。它让我们能够调整架构并减少大量复杂性。”
通过统一数据和工作流自动化构建连接的客户体验
团队才刚刚开始。借助先进模型的支持,并基于模块化、模型无关的架构,Intercom 正在超越客户支持,推动整个业务的工作流程,提供更快的解决方案和更好的客户体验:,
- 支持团队:通过 Fin AI 助手解决大多数通过聊天、电子邮件、语音等方式的查询。
- 运营团队:通过 Fin Tasks 自动化复杂的工作流程,如退款、账户更改和订阅更新。
- 产品团队:使用 Intercom 的 MCP Server,ChatGPT 等 AI 工具可以访问客户对话、工单和用户数据——帮助整个业务团队发现漏洞、制定路线图、优化信息传递并为季度业务回顾做准备。
Intercom 通过严格的评估、基于性能的设计和灵活的架构构建了一个可扩展的 AI 平台——重新定义了支持,并为任何构建 AI 的公司提供了经验教训。