LogicStar AI:实现调试自动化的前沿技术

2次阅读
没有评论

共计 2770 个字符,预计需要花费 7 分钟才能阅读完成。

软件错误是开发者的一大困扰,不仅浪费宝贵时间,还拖慢发布周期。LogicStar AI的联合创始人兼首席执行官 Boris Paskalev 多年来一直在与这些错误作斗争。

2017 年,他创立了 DeepCode,并在 2020 年将其出售给Snyk,随后在团队中待了大约三年以支持平台的成长。七年后,他与联合创始人Mark Niklas MüllerMartin Vechev共同创立了 LogicStar,这似乎是其前身的自然延续。Paskalev 指出,DeepCode 的目标是‘在错误发生之前识别它们’,而 LogicStar 则更进一步,‘不仅识别问题——因为有许多工具可以做到这一点,而且……在人类工程师介入之前,自主调查、重现、修复并验证修复的正确性。’

LogicStar AI:实现调试自动化的前沿技术

LogicStar 的目标很高:修复错误的准确率达到 90%(即 Paskalev 所说的人类可以达到的水平)。但如果平台完成了它的工作,那么人类根本不需要介入。正如他所描述的:‘从客户的角度来看,什么都没发生。你只需要来,[然后]拉取请求就已经准备好了。’

这是因为 LogicStar 在幕后忙碌工作,监控错误积压(例如,警报系统、QA、锁等)以关联信号、分析代码并提供完全验证的修复。

例如,假设一家电子商务公司收到投诉,称结账时未计算税款。LogicStar 的调查代理可以识别并确认问题。与此同时,其他代理开始工作以重现错误。

‘他们实际上是在尝试创建一小段代码或脚本,上面写着‘如果你执行它,这个特定的错误将在代码库中触发’,’Paskalev 解释道。这确认了错误是真实且可重现的——而不是一次性的偶然事件。从那里,LogicStar 通过运行多个候选修复程序来确定最佳修复方案。

这种识别 - 验证 - 修复设置的基础始于入职阶段。

‘当我们首次入职项目时,我们会对项目进行非常深入的静态和动态分析,’Paskalev 说。‘我们将其分解成多个部分,以便我们拥有内部表示……应用程序的所有重要模块’(例如,模块的功能、它们如何连接以及它们如何相互通信和与外部应用程序通信)。

正是这种丰富的上下文使 LogicStar 能够如此准确地识别和修复软件错误。‘我们可以告诉大语言模型(LLMs),‘问题就在这里。这是导致该特定问题的事件序列——现在尝试修复它,’’Paskalev 说。

这种上下文也为更便宜的模型查询铺平了道路。

由于 LogicStar 可以精确识别错误发生的方式和位置,它可以查询更小、更便宜、更快的 LLMs,不仅降低了运营成本,还增加了找到正确修复方案的机会。它甚至可以同时运行多个模型以比较提议的修复方案。

如果 LogicStar 能够有效地接管错误修复,正如 Paskalev 所宣称的那样,开发者可以期待几个下游的好处。

最明显的是,自动错误修复意味着每天有更多的时间,将诸如分类、调查和重现等任务从 开发者的繁重工作中 移除。‘每小时花在修复错误上的时间……就是一小时失去的用于开发新功能的机会——通常,开发新功能的投资回报率或创造的价值会有 10 倍的乘数,客户会为此付费,’Paskalev 补充道。

他还指出,LogicStar 消除了误报,他声称其他工具实际上制造了这些误报:‘使用许多错误查找工具,会有大量的误报……你必须识别,‘我真的想修复它吗?它真的是一个问题吗?还是只是一个误报?’’

但由于 LogicStar 在将问题传递给工程师之前会重现和验证每个问题,它大大减少了正常的错误查找和修复工作流程,包括在误报上浪费的时间。事实上,Paskalev 表示 LogicStar 可以将错误生命周期减少 95%,这归功于平台的全自主工作流程。

这与许多其他工具形成了显著的区别,这些工具仍然要求开发者亲自动手。‘在共同开发的世界中发生了什么……你不断地要求循环中的人类告诉 LLM,‘这是正确的吗?’’Paskalev 解释道。‘而在我们的情况下,我们进行的是人类交接。’

再次,上下文似乎是 LogicStar 的秘密武器。得益于其入职阶段的分析,该平台可以构建对应用程序的工作理解,以敏锐的精确度定位错误。

Paskalev 指出的另一个关键特性是其沙箱执行环境。

在修复方案到达开发者之前,LogicStar 已经隔离测试和验证了多个不同的修复方案,确保只有经过验证的修复方案才会传递给开发团队。该平台还可以生成新的测试(针对修复方案本身和应用程序的相关部分)以防止意外的破坏。同样,它可以识别并运行相关的现有测试以在回归发生之前捕获它们。

‘大多数工具都需要人类参与循环,这意味着人类必须验证问题是否得到解决;人类必须指出必须运行哪些测试;或者人类必须提供自己的执行环境,’他说。但凭借其沙箱环境、验证过程和丰富的上下文分析,LogicStar 似乎已经开发出了近乎无人类干预调试的秘诀。

剩下的问题是开发者是否准备好交出控制权。

最近涌现的所谓完全自主的 AI 解决方案开始让市场不堪重负——也让用户对那些过度承诺和交付不足的神奇产品感到失望。

‘人们持怀疑态度吗?是的,’Paskalev 说。‘他们被大量工具所伤害,这些工具,正如我们所说的,是大语言模型的薄包装,[其中]基本上,你放了一个漂亮的用户界面,发布了一个模型,然后希望你能得到一些有用的东西。’

他坦率地表达了对这些‘只是浪费时间’的廉价工具的蔑视——他并不孤单。在编码中的 AI 方面,热情正在减弱,不信任正在增加。在 Stack Overflow 的 2025 年开发者调查 中,对 AI 工具的积极情绪从 2023 年和 2024 年的 70%+ 下降到仅 60%。报告还显示,更多开发者积极不信任(46%)AI 工具的准确性,而不是信任(33%)。

尽管有保留意见,如果 AI 承诺接管错误查找和修复——Paskalev 称之为‘开发者日常工作中最讨厌的部分’——开发者可能更愿意信任 AI。

他声称,当团队使用 LogicStar 提交他们的第一个拉取请求时,他亲眼目睹了情绪的转变:‘我们肯定看到了这种哇效应……超过 95% 的时间,[错误修复]只是纯粹自动化并消失了。’

显然,LogicStar 甚至在内部也创造了哇效应。

‘就在一年前,我们还在想,‘我们能实现 5% 的错误覆盖率吗?’然后……我们看到了 10–20%。而现在,在过去的几周里,我们看到了 40%,’Paskalev 说。

他将这一令人印象深刻的进展归功于更好的代理、更深入的分析和改进的工具。由于 LogicStar 是模型无关的,他预测随着模型的不断改进,还会有更多的收益。

他说,改进将主要来自增加模型的专门化,因为大型、通用的 LLMs 为更小、更专注的模型让路,这些模型针对特定任务进行训练——并且明显更容易、更快、更便宜地运行。

最终,目标是达到一个点,LogicStar 不仅将准备好的修复方案交给人类;它甚至直接将修复方案推送到生产环境。

这是 LogicStar 决心争取的开发者的愿望。

正文完
 0
admin-gah
版权声明:本文于2025-10-30转载自The New Stack,共计2770字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码