LogicStar AI：实现调试自动化的前沿技术

48次阅读

共计 2770 个字符，预计需要花费 7 分钟才能阅读完成。

软件错误是开发者的一大困扰，不仅浪费宝贵时间，还拖慢发布周期。LogicStar AI的联合创始人兼首席执行官 Boris Paskalev 多年来一直在与这些错误作斗争。

2017 年，他创立了 DeepCode，并在 2020 年将其出售给Snyk，随后在团队中待了大约三年以支持平台的成长。七年后，他与联合创始人Mark Niklas Müller 和Martin Vechev共同创立了 LogicStar，这似乎是其前身的自然延续。Paskalev 指出，DeepCode 的目标是‘在错误发生之前识别它们’，而 LogicStar 则更进一步，‘不仅识别问题——因为有许多工具可以做到这一点，而且……在人类工程师介入之前，自主调查、重现、修复并验证修复的正确性。’

LogicStar 的目标很高：修复错误的准确率达到 90%（即 Paskalev 所说的人类可以达到的水平）。但如果平台完成了它的工作，那么人类根本不需要介入。正如他所描述的：‘从客户的角度来看，什么都没发生。你只需要来，[然后]拉取请求就已经准备好了。’

这是因为 LogicStar 在幕后忙碌工作，监控错误积压（例如，警报系统、QA、锁等）以关联信号、分析代码并提供完全验证的修复。

例如，假设一家电子商务公司收到投诉，称结账时未计算税款。LogicStar 的调查代理可以识别并确认问题。与此同时，其他代理开始工作以重现错误。

‘他们实际上是在尝试创建一小段代码或脚本，上面写着‘如果你执行它，这个特定的错误将在代码库中触发’，’Paskalev 解释道。这确认了错误是真实且可重现的——而不是一次性的偶然事件。从那里，LogicStar 通过运行多个候选修复程序来确定最佳修复方案。

这种识别 - 验证 - 修复设置的基础始于入职阶段。

‘当我们首次入职项目时，我们会对项目进行非常深入的静态和动态分析，’Paskalev 说。‘我们将其分解成多个部分，以便我们拥有内部表示……应用程序的所有重要模块’（例如，模块的功能、它们如何连接以及它们如何相互通信和与外部应用程序通信）。

正是这种丰富的上下文使 LogicStar 能够如此准确地识别和修复软件错误。‘我们可以告诉大语言模型（LLMs），‘问题就在这里。这是导致该特定问题的事件序列——现在尝试修复它，’’Paskalev 说。

这种上下文也为更便宜的模型查询铺平了道路。

由于 LogicStar 可以精确识别错误发生的方式和位置，它可以查询更小、更便宜、更快的 LLMs，不仅降低了运营成本，还增加了找到正确修复方案的机会。它甚至可以同时运行多个模型以比较提议的修复方案。

如果 LogicStar 能够有效地接管错误修复，正如 Paskalev 所宣称的那样，开发者可以期待几个下游的好处。

最明显的是，自动错误修复意味着每天有更多的时间，将诸如分类、调查和重现等任务从开发者的繁重工作中移除。‘每小时花在修复错误上的时间……就是一小时失去的用于开发新功能的机会——通常，开发新功能的投资回报率或创造的价值会有 10 倍的乘数，客户会为此付费，’Paskalev 补充道。

他还指出，LogicStar 消除了误报，他声称其他工具实际上制造了这些误报：‘使用许多错误查找工具，会有大量的误报……你必须识别，‘我真的想修复它吗？它真的是一个问题吗？还是只是一个误报？’’

但由于 LogicStar 在将问题传递给工程师之前会重现和验证每个问题，它大大减少了正常的错误查找和修复工作流程，包括在误报上浪费的时间。事实上，Paskalev 表示 LogicStar 可以将错误生命周期减少 95%，这归功于平台的全自主工作流程。

这与许多其他工具形成了显著的区别，这些工具仍然要求开发者亲自动手。‘在共同开发的世界中发生了什么……你不断地要求循环中的人类告诉 LLM，‘这是正确的吗？’’Paskalev 解释道。‘而在我们的情况下，我们进行的是人类交接。’

再次，上下文似乎是 LogicStar 的秘密武器。得益于其入职阶段的分析，该平台可以构建对应用程序的工作理解，以敏锐的精确度定位错误。

Paskalev 指出的另一个关键特性是其沙箱执行环境。

在修复方案到达开发者之前，LogicStar 已经隔离测试和验证了多个不同的修复方案，确保只有经过验证的修复方案才会传递给开发团队。该平台还可以生成新的测试（针对修复方案本身和应用程序的相关部分）以防止意外的破坏。同样，它可以识别并运行相关的现有测试以在回归发生之前捕获它们。

‘大多数工具都需要人类参与循环，这意味着人类必须验证问题是否得到解决；人类必须指出必须运行哪些测试；或者人类必须提供自己的执行环境，’他说。但凭借其沙箱环境、验证过程和丰富的上下文分析，LogicStar 似乎已经开发出了近乎无人类干预调试的秘诀。

剩下的问题是开发者是否准备好交出控制权。

最近涌现的所谓完全自主的 AI 解决方案开始让市场不堪重负——也让用户对那些过度承诺和交付不足的神奇产品感到失望。

‘人们持怀疑态度吗？是的，’Paskalev 说。‘他们被大量工具所伤害，这些工具，正如我们所说的，是大语言模型的薄包装，[其中]基本上，你放了一个漂亮的用户界面，发布了一个模型，然后希望你能得到一些有用的东西。’

他坦率地表达了对这些‘只是浪费时间’的廉价工具的蔑视——他并不孤单。在编码中的 AI 方面，热情正在减弱，不信任正在增加。在 Stack Overflow 的 2025 年开发者调查中，对 AI 工具的积极情绪从 2023 年和 2024 年的 70%+ 下降到仅 60%。报告还显示，更多开发者积极不信任（46%）AI 工具的准确性，而不是信任（33%）。

尽管有保留意见，如果 AI 承诺接管错误查找和修复——Paskalev 称之为‘开发者日常工作中最讨厌的部分’——开发者可能更愿意信任 AI。

他声称，当团队使用 LogicStar 提交他们的第一个拉取请求时，他亲眼目睹了情绪的转变：‘我们肯定看到了这种哇效应……超过 95% 的时间，[错误修复]只是纯粹自动化并消失了。’

显然，LogicStar 甚至在内部也创造了哇效应。

‘就在一年前，我们还在想，‘我们能实现 5% 的错误覆盖率吗？’然后……我们看到了 10–20%。而现在，在过去的几周里，我们看到了 40%，’Paskalev 说。

他将这一令人印象深刻的进展归功于更好的代理、更深入的分析和改进的工具。由于 LogicStar 是模型无关的，他预测随着模型的不断改进，还会有更多的收益。

他说，改进将主要来自增加模型的专门化，因为大型、通用的 LLMs 为更小、更专注的模型让路，这些模型针对特定任务进行训练——并且明显更容易、更快、更便宜地运行。

最终，目标是达到一个点，LogicStar 不仅将准备好的修复方案交给人类；它甚至直接将修复方案推送到生产环境。

这是 LogicStar 决心争取的开发者的愿望。

正文完