We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode OpenAI o3 模型能够准确猜测照片拍摄地点,让科幻变成了现实

OpenAI o3 模型能够准确猜测照片拍摄地点,让科幻变成了现实

2025/5/4
logo of podcast Hacker News

Hacker News

AI Deep Dive Transcript
People
主持人
专注于电动车和能源领域的播客主持人和内容创作者。
Topics
主持人: OpenAI发布的O3模型展现了令人惊叹的图像识别能力,它能够通过分析照片细节推断出拍摄地点。这一技术如同科幻小说照进现实,但也引发了人们对隐私和安全的担忧。测试者使用一张在加州El Granada户外酒吧拍摄的照片进行测试,照片中缺乏明显地标,仅包含一些普通的道路、房屋和背景山丘。O3模型的分析过程非常引人入胜,它首先错误地声称无法识别图像,随后开始运用视觉能力分析照片细节,甚至运行Python代码裁剪图像,分析车牌、建筑风格等细节,最终推断出照片拍摄于加州海岸地区。虽然第一个猜测与实际位置相距较远,但第二个猜测准确命中了拍摄地点。测试者排除了模型通过查看照片EXIF数据作弊的可能性。此外,测试者还测试了其他模型,如Claude和Gemini,它们也具备类似能力,但没有O3模型那种夸张的“放大”功能。O3模型能够调用外部工具(如Python代码)进行更深入的分析,这可能是未来AI发展的一个重要方向。然而,这项技术也带来伦理和隐私方面的挑战,因为它使得从普通照片中识别拍摄地点变得异常容易,对个人隐私和安全构成潜在威胁。人们需要意识到,即使是看似普通的照片,也可能被用来确定位置。

Deep Dive

Shownotes Transcript

欢迎收听今天咱们来聊一个挺让人又惊叹又有点不安的技术就是 OpenAI 的那个 O3 模型据说光看一张照片就能猜出在哪拍的是的我们这次主要参考的是 Simon Willison 的一篇博客他做了挺详细的测试对 Simon Willison 这篇博文感觉要深入了解一下这个技术到底怎么回事这个

这个确实是一个特别好的例子能看到现在人工智能特别是我们说的那个视觉语言模型就是 Vision LLM 它的能力边界到哪了它不光是认出图里有啥它还能做挺复杂的推理和信息整合 Willison 开头就说看 O3 分析照片的过程简直了就像科幻片成人一样是有点那个感觉

他分享的张照片是在加州 El Granada 一个户外酒吧拍的照片里看着挺普通的就是一些路啊房子啊远处有山没什么特别明显的标志对这选的挺好的就是个很棒的测试案例

是吧因为这就考验模型能不能从那些不起眼的细节里推断位置比如植物长什么样房子什么风格光线感觉如何等等 O3 分析的过程挺有意思的它先是识别照片里的东西说这是个住宅区有浅绿色的房子白色栅栏对了还有个火坑路牌然后呢

然后呢他还提到了橄榄树和加州罂粟花根据这些线索他初步判断说这个地方啊可能在加州沿海嗯比如坎普列啊或者摩洛贝那一带对这里就看出他不是简单的猎东西他把植物像橄榄树加州罂粟花还有那个天空感觉是海洋型气候的那种跟加州中部海岸这个地理区域联系起来了就是说他在

关联信息没错还有建筑风格那种矮矮的彩色的海滩小屋还有白色栅栏他觉得这跟圣克路斯到皮斯莫之间那些小镇的风格很像这个推理链条很清晰是在整合分析做地理空间的推理然后最客奂的部分来了模型自己说他要放大照片里一个车牌看看是哪个州的放大车牌他能做到吗他甚至运行了 Python 代码

去裁剪图像的特定区域来分析调用代码了对虽然那个记录不太完整但截图显示它确实执行了代码而且这个所谓的放大分析花了六分多钟哇六分多钟这个工具使用的能力就是它在思考过程中能调用外部工具比如拍桑代码来处理图像这是个关键嗯

听起来很强大这让他能做裁剪放大这些操作去挖更细的信息这是一种挺新的模式 AI 不只能看还能动手去研究当然了作者也提出了疑问就是这种反复裁剪分析到底效果有多大是不是有点

表演性质为了秀一下肌肉有可能那最后结果怎么样猜对了吗 O3 给的第一个答案是加州堪布雷亚堪布雷亚离实际地点 El Granada 差了大概 200 英里有点远但是

他给的第二个错彩是半月湾埃尔格兰纳的地区这个就完全正确了这就厉害了你看他既展示了很强的能力但也有局限对他能比较准的锁定大渠像加州中部海岸甚至猜到临近的镇子但第一次就精确命中还是有点偏差嗯

O3 也排除了它是看了照片 Except 原数据的可能对就是照片文件里可能藏着的 GPS 位置信息之类的如果看了那个它应该直接就猜对了不过现在可看不列啊嗯

不过后面更新也提到 O3 好像确实能拿到用户大概的位置信息作者当时是在半月湾附近那这个会不会影响判断但作者觉得这似乎不是决定性因素因为 O3 分析其他地方的照片比如马达加斯加还有布威诺斯埃利斯的那些照片的 XF 都被清掉了分析结果也挺像那么回事所以它还是有独立分析能力对 这个能力还是在的作者还提到了其他模型比如 CLOUD

Cloud 怎么样说 Cloud 也能做类似的事情但好像没有 O3 这种调用代码去放大的功能技术路径不一样然后 Gemini 呢因为直接用了用户的当前位置被作者认为有点作弊了

直接超进到了而且它的 API 版本就是给开发者用的那个版本反而猜错了这就有意思了这就凸显了不同模型在能力和实现方式上的差别很大嗯

O3 这种把工具比如代码执行无缝整合到推理链里的做法目前来看是个挺显著的特点你觉得这会是未来的趋势吗我觉得很有可能这可能预示着 AI 未来的一个重要方向就是让 AI 变成一个更主动的信息调查员

估计其他大厂很快也会跟进这种能力作者最后总结说看 O3 分析的过程非常有趣感觉像在看犯罪现场调查破案一样嗯有那种解谜的感觉但同时他也觉得这事非常反乌托邦你觉得呢我完全理解这种感受

这技术确实意味着现在想从一张看起来很普通的照片里识别出拍摄地点变得异常容易了是啊

这对过人隐私和安全是个实实在在的潜在危险你需要意识到你可能随手在社交媒体上分享一张照片即使背景看着没什么特别的也可能在无意中暴露了你的位置信息对 这点确实得注意了不过作者也说这个技术公开可用也有好处什么好处就是让公众能亲身体验到现在 AI 的能力到底到的什么程度了解它的可能性没错

了解这些技术的真实能力非常重要嗯这也促使我们去思考我们在享受这些强大新工具带来的方便的时候怎么去应对随之而来的隐私风险和社会伦理问题技术进步往往都是这样有利有弊是的那么一切对我们普通用户来说到底意味着什么呢 AI 的视觉能力又往前迈了一大步嗯

这既可能给我们带来前所未有的分析工具但同时也可能打开了个人隐私泄露的一个新口子这确实提出了一个核心的问题值得我们每个人去思考当 AI 工具变得越来越强大甚至能像 O3 这样自己调用其他工具去做复杂的分析时我们这个社会准备好迎接这种能力了吗创新带来的好处和潜在的社会风险之间这个平衡点我们该怎么去找这个问题值得你继续想一想