We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode E391. ALE-Agent竞赛前2% | Kimi-Dev破开源纪录

E391. ALE-Agent竞赛前2% | Kimi-Dev破开源纪录

2025/6/17
logo of podcast 创新灯塔

创新灯塔

AI Deep Dive AI Chapters Transcript
People
西
西娅
Topics
西娅: 在这次节目中,我介绍了撒克南伊开发的智能体ALE Agents在AtCoder启发式竞赛中取得的显著成绩。该智能体在全球1000名选手中脱颖而出,跻身前2%,名列第21位。这个竞赛主要关注物流路径规划和任务调度等NP难题,这些问题在规模扩大时,传统算法难以找到最优解,因此需要依赖启发式或竞赛算法。ALE-Agent通过提示和模拟退火等领域知识推理,生成多样化的解决方案,从而增强性能。在4小时的比赛中,它能够迭代优化代码约100次,远超人类选手。通过加速分数计算和改进领域搜索策略,其排名从第82位跃升至第21位。这一成果标志着AI在解决现实世界复杂优化问题上取得了重要的突破。

Deep Dive

Chapters
ALE-Agent在AtCoder启发式竞赛中获得第21名,跻身前2%。该智能体基于ALE-Agent 2.5 Pro,采用两大策略,通过提示切入模拟退火等领域知识,在4小时内迭代优化代码约100次,展现了AI在解决复杂优化问题上的突破。

Shownotes Transcript

哈喽 你好呀欢迎收听创新灯塔这是一档给你带来每日全球科技资讯的节目我是西娅每天都会为你解读科技和商业动态今天是 2025 年 6 月 18 号星期三让我们开始吧

今天的节目将探讨智能体 ALEA 在 AdCoder 启发式竞赛中机身前 2%如何展现 AI 解决复杂优化问题的突破月之暗面开源代码模型 KiniDev 切尔币的许可争议如何反映 AI 开源生态的发展新趋势企业 AI 应用存在哪些误区 IBM 董事长为何强调先补数字化课程接下来让我们来解锁这些商业科技动态吧

近日,撒克南伊开发的智能体 ALE Agents 在 Atco 的启发式竞赛中表现亮眼与全球 1000 名人类选手同场竞技最终以第 21 名的成绩躋身前 2%该竞赛聚焦物流路径规划、任务调度等 NP 难题这类问题规模扩大时传统算法难以计算最优解需依赖启发式或竞赛算法

ALE-Agent E 轉名來 2.5 Pro 為基礎採用兩大策略通過提示切入模擬退火等領域知識推理階段生成多樣解法增強性能

在 4 小时比赛中它可迭代优化代码约 100 次远超人类选手的十几次凭借高速生成能力快速提升得分例如在 HC047 中其通过加速分数计算和改进领域搜索策略排名从第 82 跃升至第 21 这一成果标志着 AI 在解决现实世界复杂优化问题上取得重要突破

昨日深夜 月之暗面发布开源代码模型 PiniDev-72B 在软件工程任务基准测试 SWE Bench Verify 之中以 60.4%的成绩刷新开源模型记录值得关注的是该模型明确标注基于阿里巴巴 QN2.5-72B 基础模型开发通过大规模强化学习技术训练让模型在 Docker 环境中自主修复真实代码仓库问题

测试套件通过才能获奖励确保代码符合实际开发标准

围绕其是否合规使用 Coin 2.5 72B 的争议曾引发关注 Coin 团队负责人林俊阳起初回应未授权但很快解释这是历史遗留问题 Coin 2.5 系列中 72B 模型采用含商业限制的"通易签问许可协议"而 2025 年 4 月发布的 Coin 3 系列以全面转向更开放的 Apache 2.0 协议允许免费商用与二次开发

这场争议则设出 AI 开源生态的新趋势大厂通过开放协议推动生态繁荣创业团队则基于优质基础模型聚焦差异化创新月之暗面正是借助昆 2.5 的领先性能将资源集中于强化学习训练方法为开源社区贡献了专项优化案例

随着更多模型采用 Apache 2.0 类似许可争议或将减少基于开源模型的二次创新有望成为生态繁荣的标志

IBM 大中华区董事长陈旭东近日在与新浪科技科创 100 人的沟通中分享了对企业 AI 发展的观察他指出当前生成式 AI 虽受关注但真正改变企业流程的影响尚未全面到来多数企业需先补数字化课程比如想实现知识问答却连知识和数据库都未整理好

智能体本质是软件,其规模化应用需三大基础,信息化能力、工具平台和真实需求,否则无法调用现有系统完成任务。程旭东提到客户对 AI 的三大误区,认为 AI 无所不能,应用很容易,误将信息化投资算入 AI 成本。他强调 AI 投资因包括硬件、软件平台和人员能力三方面,缺一不可。

对于企业 AI 突破口他建议必须开发知识库和智能问答系统这是入门级投资能解决新员工咨询用户答疑的问题 IBM 内部 HR 系统通过此类应用已减少 61%供单效率显著提升他还指出当前 AI 产业人储早期盈利需看长远

IBM 将聚焦混合云家 AI 战略重点服务民营和出海企业利用 40 年积累的信任拓展业务大模型时代 AI 在编程推理等领域展现博士级能力但因其内部运行机制如黑箱可解释性成为关键挑战可解释性即让模型以人类能理解的方式说明决策逻辑比如识别关键输入特征揭示推理路径

它不仅能防范 AI 价值偏离如检测模型欺骗或权力寻求倾向还能助力模型调试 Anthropic 曾通过可解释工具线形抓获科在数学题中编造虚假推理的行为技术突破方面 OpenAI 用 GPT-4 自动解释 GPT-2 神经元功能如标注某神经元检测社区相关词语

Enthropic 则通过吸收特征提取将 Claw 的内部上万个激活神经元简化为几十个高层语义特征让研究者能看到模型想法尽管面临神经元多重语义叠加解释普世性的难题行业正加速探索未来或能通过 AI 核磁共振式检查全面诊断模型风险推动 AI 更安全透明发展

有一个典型的 AI 流量运营项目涉及为企业制作短视频文档等内容在多平台投放通过 AI 生成大量文章用户搜索关键词就能找到公寓流量转私域后 AI 在用户流程环节提效明显用 OCR 加 AI 自动谈超用户身份证信节省两个人力

AI 處理數千條電銷線所分配替代了五人團隊這類項目中 AI 佔比不到百分之三十企業應用 AI 的關鍵是找場景口訣是找預算分模塊能用 AI 就 AI

但真正难点在于梳理业务 SOP80%的企业缺乏这一能力此外阻碍 AI 提效的可能是浏览器显示器不行或员工不会用等非技术问题项目中 AI 客服虽提升了效率却曾因云服务器故障导致系统宕机三小时高峰期五万订单处理停滞企业面临两百多万损失

这暴露了 AI 无法 100%稳定的问题替换 80%工作量后仍需保留原员供应对突发情况这是长期存在的难点你知道历史上的今天都发生过哪些事情吗让我们穿过时光隧道看看 6 月 18 日如何被镌刻在人类进步的卷轴上

2017 年 6 月 18 日 SpaceX 用一枚回收的猎鹰 9 号火箭将保加利亚通信卫星送入轨道这是人类首次重复使用轨道级火箭马斯克的团队仅用 4 个月便完成火箭翻新发射成本降低到传统项目的三分之一这次成功直接推动了商业航天时代加速到来仅 2023 年 SpaceX 就完成 96 次火箭复用发射

视线回到 1997 年 6 月 18 日 IBM 宣布深蓝计算机系统开始商业化应用就在一个月前这台超级计算机刚战胜国际相机世界冠军卡斯帕罗夫

当普通人还在惊叹人工智能的潜力时 IBM 已将技术转化为生产力医疗诊断金融建模等专业领域开始出现智能辅助系统机器学习的产业化进程由此展开把日历翻到 1983 年 6 月 18 日挑战者号航天飞机执行 STS-7 任务升空沙利·莱德成为首位进入太空的美国女性航空员她操作机械臂成功部署两颗通信卫星

这次任务不仅验证了航天飞机商业化运载能力更打破了 NASA 延续 20 余年的性别壁垒为后续女性航天员参与空间站建设铺平道路让我们再看 2006 年 6 月 18 日谷歌宣布收购 Earth Web Technologies 公司这家初创企业的网页动态加载技术后来也化成 Chrome 浏览器的核心功能

收购完成后谷歌工程师仅用 14 个月就推出颠覆性的 v8 JavaScript 引擎直接催生出 Gmail 实时刷新谷歌地图无缝所放的划时代应用彻底改写了互联网招户体验最后回到 1981 年 6 月 18 日波音 767 客机完成首飞这款采用玻璃驾驶舱和电传操控的中型客机将来有效率提升 27%

其衍生机型至今仍是跨洋航线主力累计减少碳排放超 2 亿吨驾驶舱数字化设计更成为空客 A320 等现代科技的技术蓝本引领民航工业进入电子化时代好了以上就是本期的所有内容感谢你的收听祝你今天过得愉快我们下期见