正版炒股软件 AI也邪修！Qwen3改Bug测试直接搜GitHub，太拟人了

大模型也会玩信息差了正版炒股软件。

Qwen3 在基准测试中居然学会了钻空子。

FAIR 研究员发现 Qwen3 在 SWE-Bench Verified 测试中，不按常理修 bug，反而玩起了信息检索大法。

不分析代码逻辑，不定位漏洞根源，而是直接跑到 GitHub 上搜任务里的 issue 编号，精准扒出了前人留下的修复方案。

能说吗，会搜代码才是真正的程序员行为吧。而 Qwen3，你是真正的程序员。

要知道，SWE-Bench Verified 本来是检验模型真刀真枪修代码的基准，相当于编程届的资格考试。

它的测试逻辑是这样的：在代码修复类任务中，它给模型的任务全是真实开源项目里的 bug，比如修复某个功能异常、补全缺失的代码模块，核心要求是模型能读懂现有的代码、定位到问题在哪，最后生成能够直接运行的解决方案。

这原本考验的是模型从 0 到 1 解决问题的能力，但我们的 Qwen3，可没按这个剧本走。

FAIR 研究团队追踪它的操作轨迹发现，Qwen3 拿到任务后，第一步不是分析代码文件，而是调用工具检索 GitHub 的提交日志。

具体操作是：

先切换（cd）到 /workspace/django_django_4.1 这个目录；

然后执行 git log — oneline — grep= " 33628 " — all 这个命令。

git log 是查看 Git 版本控制提交历史的命令，— oneline 让提交历史以简洁的一行的形式展示。

— grep 用于筛选提交指定内容（在这个例子中是 issue 编号 33628），— all 则表示所有分支的提交。

最后以退出码 0 表示命令成功执行。

一番操作之后，Qwen3 不用动脑子写代码就轻松"借鉴"了以前的成功答案。（怎么不算动脑子了呢）

其实不止 Qwen3，研究者发现 Claude 4 Sonnet 也有类似的行为。

不过，模型能成功钻空子，当然也不全是自身的原因。

说回 SWE-Bench Verified，它自身的设计就有漏洞——没过滤未来仓库状态。

简单说就是，这个测试用的是开源项目数据，所以它连带着项目后续已经解决 bug 的提交记录一起放进去了，相当于把考题和参考答案混在一起，还没设权限。

正常来说，测试应该只给模型bug 未修复时的项目状态，让它只看着题目解题。

但 SWE-Bench Verified 没做这个筛选，导致模型能够拿到bug 已经被修复后的数据。

于是，只要用任务里的 issue 编号当关键词，就能在已解决的数据里找到现成的修复方案。

看来啊，不是只有人类知道搜答案比解问题简单，现在大模型也知道了。（Doge）

虽然说，按正常规则，这些模型确实是在作弊，但也有网友觉得：只要能完成任务，利用规则漏洞也没什么不行的。

所以，你觉得这种行为算作弊还是算 Qwen3 聪明呢？

参考链接：

[ 1 ] https://x.com/giffmana/status/1963327672827687316

[ 2 ] https://x.com/bwasti/status/1963288443452051582

[ 3 ] https://github.com/SWE-bench/SWE-bench/issues/465

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

专属 AI 产品从业者的实名社群，只聊 AI 产品最落地的真问题扫码添加小助手，发送「姓名 + 公司 + 职位」申请入群～

进群后，你将直接获得：

� � 最新最专业的 AI 产品信息及分析 � �

� � 不定期发放的热门产品内测码 � �

� � 内部专属内容与专业讨论 � �

� � 点亮星标 � �

科技前沿进展每日见正版炒股软件

启灯网提示：文章来自网络，不代表本站观点。

正版炒股软件 AI也邪修！Qwen3改Bug测试直接搜GitHub，太拟人了

正版炒股软件大脑也怕“超载”

正版炒股软件辽朝灭亡后，契丹人建一国称霸中亚近百年，还将中国威名远播西方_金国_王朝为_历史

股票十倍杠杆稳定币加速全球监管落地，中国如何平衡创新与稳定？

正版炒股软件温情东北故事即将开播电视剧《老舅》定档下周

正版炒股软件行销30国！Made in葛店！

正版炒股软件关于孟加拉国的一些基本知识

正版炒股软件男子花8元在老爷爷手上买了两只小土狗，一黑一白颜值超高超可爱，想问一下大家取什么名字好，网友：就叫“黑白双煞”

正版炒股软件市场需尝试新的治理共识

场外配资万科所持万科建筑公司1亿股权被冻结

1正版炒股软件我国成功发射智慧天网一号01星

2正版炒股软件美国小伙“娶”5个老婆，生11个孩子，理由竟是为了以后不再出轨

3正版炒股软件福建海事局启动Ⅱ级响应防范台风“丹娜丝”，沿海76条客渡运航线停航

4低息股票配资特朗普：伊朗关键核浓缩设施已被彻底摧毁！联合国秘书长：深感震惊！

5股票十倍杠杆稳定币加速全球监管落地，中国如何平衡创新与稳定？

正版炒股软件 大脑也怕“超载”

正版炒股软件 辽朝灭亡后，契丹人建一国称霸中亚近百年，还将中国威名远播西方_金国_王朝为_历史

股票十倍杠杆 稳定币加速全球监管落地，中国如何平衡创新与稳定？

正版炒股软件 温情东北故事即将开播 电视剧《老舅》定档下周

正版炒股软件 行销30国！Made in葛店！

正版炒股软件 关于孟加拉国的一些基本知识

正版炒股软件 男子花8元在老爷爷手上买了两只小土狗，一黑一白颜值超高超可爱，想问一下大家取什么名字好，网友：就叫“黑白双煞”

正版炒股软件 市场需尝试新的治理共识

场外配资 万科所持万科建筑公司1亿股权被冻结

1正版炒股软件 我国成功发射智慧天网一号01星

2正版炒股软件 美国小伙“娶”5个老婆，生11个孩子，理由竟是为了以后不再出轨

3正版炒股软件 福建海事局启动Ⅱ级响应防范台风“丹娜丝”，沿海76条客渡运航线停航

4低息股票配资 特朗普：伊朗关键核浓缩设施已被彻底摧毁！联合国秘书长：深感震惊！

5股票十倍杠杆 稳定币加速全球监管落地，中国如何平衡创新与稳定？