Wharton商学院教授Ethan Mollick是AI应用研究领域最为活跃的学者之一。他近日获得了早期访问Claude Fable(Anthropic发布的Mythos级模型公开版本)的机会,并在社交媒体上分享了详细的使用体验。结论是:这是一次"令人愉悦又令人不安"的深刻体验。
性能的真实跨越
Mollick在多个实验场景中测试了Fable,结果显示其表现"显著超越"他此前使用过的所有公开模型。最令人印象深刻的是Fable在长时间任务中的稳定性——它能连续工作长达12小时,执行多页面规格说明的任务而不出错。
Mollick展示了一个具体案例:Fable从单一提示词和一条反馈中生成了一篇"他见过的最复杂的学术社会科学论文"。它还创作了一首10页的押韵史诗诗作,主题关于理发,且诗中每个单词都以字母s开头。
更直观的是,他让Fable用纯数学方法(无外部素材)创建了多个可玩游戏,包括:一个关于抛硬币的游戏(受Balatro启发)、一条具有自我意识的贪吃蛇游戏、以及一个"深入深渊探索"的冒险游戏。
使用体验:愉悦与不安并存
Mollick描述他转向更严肃的项目时,使用工具的感受介于"令人愉悦"和"令人不安"之间。愉悦是因为他只需要提出需求,然后事情就发生了。不安的原因也一样——他只是提出需求,然后事情就发生了。
这种双重感受揭示了AI能力提升后人类与工具关系正在发生的深层变化:当AI的执行变得几乎无缝,人类的角色就从"操作者"转变为"指挥官"。这种转变既是解放,也是某种失去。
地图绘制的突破
为了测试Fable的工作方式,Mollick用一个他之前测试过多个AI模型的经典任务:绘制等时线地图(isochrone map),即显示在给定时间内可以从某地出发到达多远的地图。
此前的模型都无法完成这个任务,因为它涉及研究数千个可能的出行距离和大量判断决策。但Fable完美完成了:它研究真实数据、考虑机场和火车站的交通时间、甚至包含了步行和驾车的差异。
Mollick表示,这个结果让他意识到,Fable不仅是在执行命令,而是在真正理解任务的本质并自主规划解决方案。
参考来源:https://www.oneusefulthing.org/p/what-it-feels-like-to-work-with-mythos