实测OpenSquilla的自我验证:发现AI编程的信任问题真的解决了
上周GitHub上出了一个让我挺意外的项目:OpenSquilla。
发布不到一个月,GitHub Star涨到了5000+。它做的事情听起来很夸张——让AI写代码的时候,自动生成可验证的证据链,证明代码是对的。
我一直觉得AI编程最大的问题不是"写不对",而是"写了之后不知道对不对"。很多AI Coding工具改完即交,对错还得人逐行复核。
OpenSquilla的思路是:把验证内化进Agent本身。这让我很感兴趣,于是花了两个晚上实测了一下。
先说它解决了什么问题
传统AI编程的工作流是这样的:
- 用户提需求
- AI写代码
- 人来验证代码是否正确
- 如果不对,让AI继续改
- 循环往复,直到人觉得OK
这个流程的问题是:验证这一步完全依赖人。
对于简单的函数,比如写一个排序,验证成本很低。但对于复杂的系统,比如写一个分布式锁的实现,或者一个复杂的状态机,验证成本就非常高了——你需要自己写测试用例、自己设计边界场景、自己运行回归测试。
OpenSquilla的做法是:让AI在交付代码之前,先自己跑一遍"红绿回归证据链" 。
核心技术:红绿回归证据链
OpenSquilla的工作流是这样的:
第一步:写一个注定失败的测试
AI先写一个测试用例,这个测试用例用来验证"问题确实存在"。
比如,如果用户提的需求是"修复排序函数的边界情况bug",AI会先写一个测试用例,验证"排序函数在某些输入下会返回错误结果"。
这个测试用例必须是红的——即它必须失败,因为它证明的是bug的存在。
第二步:修复问题,让测试变绿
AI修复代码,让测试用例通过。
这时候,如果测试从红变绿,说明AI确实解决了问题。
第三步:跑回归测试
AI运行项目原有的所有测试用例,确保没有引入新的问题。
如果所有测试都通过,说明代码交付完成。
三步全过才算交付,任一不过直接打回。
我的实测
我实测了一个具体的场景:给一个开源项目(micrograd,Karpathy的自动微分库)新增一个"计算正确梯度"的功能。
这个功能的特点是:梯度一旦算错,模型不报错也不崩溃,只会悄悄越学越偏。这种bug是最难发现的,肉眼根本无法判断对错。
实测流程:
Step 1:AI写了失败测试
AI先写了一个测试用例,输入特定的梯度计算请求,预期输出是"梯度值在某个范围内"。
结果测试失败——说明梯度计算确实有问题。
Step 2:AI修复梯度计算
AI修改了梯度计算的代码,然后重新运行测试。
这次测试通过了。
Step 3:AI跑回归测试
AI运行了micrograd原有的所有测试用例,确保没有破坏其他功能。
所有测试通过。
Step 4:AI与PyTorch对比
最后,AI把新功能计算出的梯度值,和PyTorch计算出的标准答案进行了对比——前向值与每一个梯度小数点后10位完全一致。
让我印象最深的发现
实测完成之后,我发现了三个有意思的点:
发现1:自我验证改变了评价标准
以前我们评价AI编程工具,看的是"它声称改对了没有"。现在有了自我验证,评价标准变成了"它能否自证改对了"。
这意味着,AI编程工具从"承诺制"变成了"举证制"。
发现2:测试驱动开发被重新定义
传统TDD(测试驱动开发)是人写测试、人验证。OpenSquilla把验证环节自动化了,变成了AI写测试、AI验证。
这并不是说人可以躺平——人的角色变成了 "审核证据的人" ,而不是"执行验证的人"。
发现3:长任务的可信度大幅提升
以前让AI跑一个复杂任务(比如重构一个模块),我不放心让它自己跑,必须盯着。
现在有了自我验证机制,我可以先让AI跑,跑完之后看它的"证据链"——三关全过,我就信任它;任一不过,我再介入。
【顺便提一嘴】技术大厂,前端-后端-测试,全国均有机会机会。待遇和稳定性都还不错~ 感兴趣可以试试~
技术细节:它是怎么实现的
OpenSquilla的核心架构分为三层:
第一层:Agent层
负责理解用户需求,规划实现步骤,决定是否需要生成测试。
第二层:Coding层
负责代码生成和修改。它有一个特点——每次修改都会自动生成对应的测试用例,而不是等用户问了才写。
第三层:验证层
负责执行测试、分析结果、决定是否继续。验证层有三种策略:
-
单元测试:验证单个函数的行为
-
集成测试:验证多个组件的协作
-
对比测试:与已知正确答案对比(如PyTorch)
我的判断:可验证性将成为AI编程的标配
实测下来,OpenSquilla解决的不是"AI写代码"的问题,而是"AI写代码的信任问题"。
在AI编程工具刚出来的时候,大家关注的是"能不能写对"。现在大家关注的是"能不能证明写对了"。
这是一个很重要的转变——它意味着AI编程从"能用"走向"可信"。
未来,评估一个AI编程工具好不好,不只是看它生成的代码对不对,还要看它有没有自证对错的能力。
-
07.03
《梦幻西游》归墟之证怎么获取-血防速度与任务条件
-
07.03
鸣潮矩阵重组活动第八关攻略:矩阵重组联动解谜活动怎么过
-
07.03
鸣潮矩阵重组活动第七关攻略 矩阵重组联动解谜活动如何通过
-
07.03
鸣潮矩阵重组活动第六关攻略 矩阵重组联动解谜活动怎么过
-
07.03
鸣潮矩阵重组活动第五关攻略 矩阵重组联动解谜活动过关方法
-
07.03
鸣潮矩阵重组活动第四关攻略 重组联动解谜活动通关指南
-
-
下载
- 《神剑伏魔录》(神剑风云)游戏音乐合集
- 其他游戏|7.73 MB
- 一款非常好玩的武侠闯关游戏
-
-
下载
- 《行尸走肉第一章》免安装中文汉化硬盘版下载
- 单机|436 MB
- 一款以动作冒险为主题的游戏
-
-
下载
- 《街头霸王X铁拳》免安装中文汉化硬盘版下载
- 单机|111MB
- 一款非常好玩的格斗游戏
-
-
下载
- 《生化危机:浣熊市行动》免安装中文硬盘版下载
- 单机|6310 MB
- 一款以动作射击为主题的游戏
-
-
下载
- 《暗黑破坏神3》免安装繁体中文正式版下载
- 单机|7630 MB
- 一款以角色扮演为主题的游戏
-
-
下载
- 《马克思佩恩3》免安装硬盘版下载
- 单机|27033 MB
- 一款以第三人称射击为主题的游戏