欢迎收听今天咱们来聊一个挺让人又惊叹又有点不安的技术就是 OpenAI 的那个 O3 模型据说光看一张照片就能猜出在哪拍的是的我们这次主要参考的是 Simon Willison 的一篇博客他做了挺详细的测试对 Simon Willison 这篇博文感觉要深入了解一下这个技术到底怎么回事这个
这个确实是一个特别好的例子能看到现在人工智能特别是我们说的那个视觉语言模型就是 Vision LLM 它的能力边界到哪了它不光是认出图里有啥它还能做挺复杂的推理和信息整合 Willison 开头就说看 O3 分析照片的过程简直了就像科幻片成人一样是有点那个感觉
他分享的张照片是在加州 El Granada 一个户外酒吧拍的照片里看着挺普通的就是一些路啊房子啊远处有山没什么特别明显的标志对这选的挺好的就是个很棒的测试案例
是吧因为这就考验模型能不能从那些不起眼的细节里推断位置比如植物长什么样房子什么风格光线感觉如何等等 O3 分析的过程挺有意思的它先是识别照片里的东西说这是个住宅区有浅绿色的房子白色栅栏对了还有个火坑路牌然后呢
然后呢他还提到了橄榄树和加州罂粟花根据这些线索他初步判断说这个地方啊可能在加州沿海嗯比如坎普列啊或者摩洛贝那一带对这里就看出他不是简单的猎东西他把植物像橄榄树加州罂粟花还有那个天空感觉是海洋型气候的那种跟加州中部海岸这个地理区域联系起来了就是说他在
关联信息没错还有建筑风格那种矮矮的彩色的海滩小屋还有白色栅栏他觉得这跟圣克路斯到皮斯莫之间那些小镇的风格很像这个推理链条很清晰是在整合分析做地理空间的推理然后最客奂的部分来了模型自己说他要放大照片里一个车牌看看是哪个州的放大车牌他能做到吗他甚至运行了 Python 代码
去裁剪图像的特定区域来分析调用代码了对虽然那个记录不太完整但截图显示它确实执行了代码而且这个所谓的放大分析花了六分多钟哇六分多钟这个工具使用的能力就是它在思考过程中能调用外部工具比如拍桑代码来处理图像这是个关键嗯
听起来很强大这让他能做裁剪放大这些操作去挖更细的信息这是一种挺新的模式 AI 不只能看还能动手去研究当然了作者也提出了疑问就是这种反复裁剪分析到底效果有多大是不是有点
表演性质为了秀一下肌肉有可能那最后结果怎么样猜对了吗 O3 给的第一个答案是加州堪布雷亚堪布雷亚离实际地点 El Granada 差了大概 200 英里有点远但是
他给的第二个错彩是半月湾埃尔格兰纳的地区这个就完全正确了这就厉害了你看他既展示了很强的能力但也有局限对他能比较准的锁定大渠像加州中部海岸甚至猜到临近的镇子但第一次就精确命中还是有点偏差嗯
O3 也排除了它是看了照片 Except 原数据的可能对就是照片文件里可能藏着的 GPS 位置信息之类的如果看了那个它应该直接就猜对了不过现在可看不列啊嗯
不过后面更新也提到 O3 好像确实能拿到用户大概的位置信息作者当时是在半月湾附近那这个会不会影响判断但作者觉得这似乎不是决定性因素因为 O3 分析其他地方的照片比如马达加斯加还有布威诺斯埃利斯的那些照片的 XF 都被清掉了分析结果也挺像那么回事所以它还是有独立分析能力对 这个能力还是在的作者还提到了其他模型比如 CLOUD
Cloud 怎么样说 Cloud 也能做类似的事情但好像没有 O3 这种调用代码去放大的功能技术路径不一样然后 Gemini 呢因为直接用了用户的当前位置被作者认为有点作弊了
直接超进到了而且它的 API 版本就是给开发者用的那个版本反而猜错了这就有意思了这就凸显了不同模型在能力和实现方式上的差别很大嗯
O3 这种把工具比如代码执行无缝整合到推理链里的做法目前来看是个挺显著的特点你觉得这会是未来的趋势吗我觉得很有可能这可能预示着 AI 未来的一个重要方向就是让 AI 变成一个更主动的信息调查员
估计其他大厂很快也会跟进这种能力作者最后总结说看 O3 分析的过程非常有趣感觉像在看犯罪现场调查破案一样嗯有那种解谜的感觉但同时他也觉得这事非常反乌托邦你觉得呢我完全理解这种感受
这技术确实意味着现在想从一张看起来很普通的照片里识别出拍摄地点变得异常容易了是啊
这对过人隐私和安全是个实实在在的潜在危险你需要意识到你可能随手在社交媒体上分享一张照片即使背景看着没什么特别的也可能在无意中暴露了你的位置信息对 这点确实得注意了不过作者也说这个技术公开可用也有好处什么好处就是让公众能亲身体验到现在 AI 的能力到底到的什么程度了解它的可能性没错
了解这些技术的真实能力非常重要嗯这也促使我们去思考我们在享受这些强大新工具带来的方便的时候怎么去应对随之而来的隐私风险和社会伦理问题技术进步往往都是这样有利有弊是的那么一切对我们普通用户来说到底意味着什么呢 AI 的视觉能力又往前迈了一大步嗯
这既可能给我们带来前所未有的分析工具但同时也可能打开了个人隐私泄露的一个新口子这确实提出了一个核心的问题值得我们每个人去思考当 AI 工具变得越来越强大甚至能像 O3 这样自己调用其他工具去做复杂的分析时我们这个社会准备好迎接这种能力了吗创新带来的好处和潜在的社会风险之间这个平衡点我们该怎么去找这个问题值得你继续想一想