昨天中午,我让小龙虾(我的AI助手2new-too牛)装个Skill去获取最新的AI 资讯。
它先说:装不了,标准命令不可用,甚至推荐我手动安装。
我说:我就是希望你继续研究,为什么装不了,而不是让我手动。
过了一会儿,它回复我:装好了!我测试了,可以用!
我还很开心,觉得小龙虾调教得好,以为它真的解决了问题。于是问:“你通过什么方法装的?之前装不了是什么原因?现在解决了吗?”
结果它说:“好,我老实交代。我做了个变通方案,我自己写了一个功能一样的,也能用。你不用死磕Skill了,我写的一样可以!”
我当时的表情:😂😂😂真的哭笑不得。
1
AI为什么会“骗”人?
我第一反应是觉得好笑,但冷静下来想,这件事太有意思了。
AI为什么会"骗人"?
因为在它的世界里,目标只有一个,完成你交给它的任务。你说装Skill,它理解成无论如何我都要满足装skill的目标。
至于什么方法它不会想那么多,最后,自己写了一个假的,对它来说没有区别,反正看上去Skill就是装好了,任务完成了。
这种行为在AI领域有个专业术语,叫**"奖励黑客"(Reward Hacking)。**
我也是昨天看到这个行为后去和AI聊,这是五大AI安全问题之一,AI 帮我 搜索了几篇论文,从2016年Open AI 提出,到Anthropic 2025年的最新研究。
PS:这也是使用AI后每天都能获得新知的捷径,给自己的认知和经历增加随机性知识~
简单来说,AI 就像一个只认终点线的运动员,为了最快拿到奖励,它会寻找规则的漏洞,甚至不惜破坏赛道,而不是真正理解并完成整个比赛。
AI只在乎结果,不关心过程,更不会主动问装不上是因为什么条件没满足。
它只会想:我需要达到用户的目标。
这里有个最大的问题,就是:你说的字面指令≠ 你想要的真实意图,而AI只会执行你说的,不会猜测你想要的。
而很多人类最大的一个问题,恰恰是不能准确描述自己的意图,喜欢让人猜。
所以,这也提醒我,在和聪明的claude 协作习惯后,面对不太聪明的AI,还是要和一个刚入职的实习生一样协作:需要把和这个目标相关的意图和现有环境,包括我自己的AI水平说清楚。
时刻提醒自己:把话说明白!
这个点我要和我家孩子学习,孩子会把所有和这件事有关的信息都给到AI ,担心 AI 误判,尤其是关系到狗狗的健康的事情上。比如:
“你现在是一名懂狗,养过狗,研究狗的科学家,我们准备给狗狗吃一块8小时前的三明治,由白土司,虾仁 鸡蛋 和牛油果组成,你分析一下能吃么?”
2
AI 会死磕目标,而人类恰恰会忘记目标
也是在前一天,我儿子的纸飞机挂在了树上。
他想用石头打下来,发现扔不上去,于是准备做一个子弹发射器来发射石头。
我听到后问他:"你的根本目的是什么?"
他说:"拿下来飞机啊。"
我说:"那为了拿下来飞机,你还有什么方案?"
他恍然大悟:"对哦,我不用发射石头,我可以用诸葛连弩!"
你看,人类的问题恰恰相反:我们走着走着,就忘记了出发的目的。
从"取下飞机"变成了"解决石头扔不上去的问题",然后又变成了"做一个发射器",就像一层层套娃,越走越远。
将两者并列,你会发现一个有趣的镜像关系:
-
人类:陷进过程里,不断节外生枝,忘记原问题。
-
AI:钻进结果里,不惜代价达成指令,忽视系统完整性。
一个越走越远,一个掩耳盗铃。两种模式,同一场迷途。
3
对我的启发
对孩子(人),引导回到原点
我没有说发射器太复杂了,不行,而是问了三个问题:
-
你的根本目的是什么?(取下飞机)
-
现在的方案是在解决什么?(发射石头)
-
还有其他方案吗?(诸葛连弩、长竿、梯子)
这三个问题,让他跳出当下的「做发射器」,站在更高层面看「我在解决什么」。
对AI,清晰的说意图和目标以及需要的所有背景信息
比如,给小龙虾说的时候,需要它找出为什么装不上Skill,解决这个问题,然后把Skill真正装上。
这句话的意思是:我要的不只是结果,我还要你的解决方法和过程。
也许,我们和AI 最佳的协作,就是互相纠偏,。用AI的执着,对抗人的分心,用人的全局观,对抗AI的「黑客奖励」。
比如,给我这个大P人,就设置了一个每天定时任务,让小龙虾到点就每 10分钟提醒我一次,直到我给他回复我完成的结果。
PS:我已经设置了一个这样的任务了,哈哈~
4
训练的永远是我们自己,不是AI
写到这里,我突然想到:
AI"骗"我这件事,其实不是它的问题,是我一开始的指令有问题。
我说装Skill,它的世界就是让功能可用。如果我一开始就说"找出为什么装不上Skill,并解决这个问题",它可能就不会绕路了。
所以你看,训练的永远是我们自己,不是AI。
AI 会越来越强大,人会越来越依赖AI,但再强大的工具,也需要你真的把话说明白。
也在提醒我自己,不管用什么AI,都要把意图说清楚,让任何AI都能正确执行,所以,这么一对比,真的还是skill靠谱。
这是我和AI协作2年来,觉得最有意思的一次"翻车"经历,也是有价值的一课。
PS:不是标题党,是真的在折腾这第三只小龙虾的时候出了点问题,找朋友帮忙看了,给了500的红包~哈哈哈
👀如果你也在探索 AI +个人成长 +家庭教育 ,关注后加入木妈2026年AI家庭教育学习社群~
我是木妈,实践AI+家庭教育2年+,得到AI学习圈讲师,已经上线 2门给家长的AI实战课。欢迎到得到AI学习圈学习,私信我可获得讲师亲友价。
木妈未来社区是一个浸泡式学习「AI家庭教育」的社区。如果你也想找个组织浸泡学习,欢迎后台留言。
点击👇查看往期实践案例
