We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode No.156 对谈蚂蚁曹仁:AI 时代的粮草先行,算力和架构如何承接泼天计算量

No.156 对谈蚂蚁曹仁:AI 时代的粮草先行,算力和架构如何承接泼天计算量

2024/7/25
logo of podcast 三五环

三五环

AI Deep Dive AI Chapters Transcript
People
刘飞
一位活跃的主播,通过播客分享各种主题,包括商业故事和文化内容。
姚敏
Topics
姚敏:AI大模型的兴起带来了算力需求的爆炸式增长,智能算力占比迅速提升,与传统计算模式差异巨大。大模型训练对算力、能耗和成本的要求极高,训练周期长,中断代价巨大,对系统可靠性和效率提出了前所未有的挑战。蚂蚁集团作为AI领域的积极参与者,也面临着诸多挑战,例如数据中心能耗、运营管理、人才培养等。蚂蚁集团的AI战略是希望AI像扫码支付一样便利每个人的生活,为此,蚂蚁集团构建了自身的技术大模型,并开发了医疗管家、生活助理和金融管家等垂类应用。在算力基础设施方面,蚂蚁集团更倾向于利用西部的清洁能源,并积极探索液冷等技术来降低能耗。 在人才方面,AI领域人才稀缺,尤其需要具备全链路设计能力的复合型人才。国内AI人才面临技术追赶的压力,需要在软件生态和硬件架构方面同时努力。 对于未来AI算力发展,姚敏认为,国内AI算力发展需要解决国产GPU的应用和管理大规模异构集群的问题。大模型训练将走向大规模高密度,需要关注集群架构设计、网络性能等。国内可能需要探索出一套不同于海外的高并行算力架构。 对于AI创业团队,姚敏建议谨慎选择技术路线,考虑成本和难度,利用云服务降低训练成本,关注垂类应用,并探索小而精的模型。 刘飞:与姚敏探讨了AI算力变化、蚂蚁集团AI战略、未来应用场景探索和建议等话题,并对AI创业团队提出了建议。

Deep Dive

Chapters
讨论了从基础算力向智能算力的转变,以及大模型对算力的要求和带来的挑战。
  • 智能算力比例已经超过30%,可能很快会超过一半。
  • 大模型训练需要2万张AI的GPU卡同时运行3到4个月。
  • 算力的变化包括体积更小,耗能更大,成本暴增。

Shownotes Transcript

嘉宾|姚敏,花名曹仁,蚂蚁集团算力集群基础架构负责人 主播 | 刘飞,内容创作者,产品经理,袋泡原叶茶「三五杯」联合创始人 本期邀请的是蚂蚁集团算力集群基础架构负责人姚敏。随着人工智能的快速发展,对算力的需求急剧增加,基础设施也随之变化。姚老师长期在这个领域耕耘,很有发言权。 这次跟姚老师聊到了算力的发展阶段、巨大变革,面对 AI 应用的多样化和深度化,以及算力需求呈现的两大趋势:追求极端复杂的模型和根据垂直行业需求开发专用模型。与此同时,业内面临着技术、人才和成本等多重挑战。随着 AI 技术的发展,如何有效管理能源消耗和成本,以及探索可持续发展模式将成为关键问题。希望对你有所启发。 内容索引 01:51) Part1 算力的变化 智能算力比例已经超过30%,可能很快会超过一半 从基础算力向智能算力发展 大模型出现的条件:神经网络模型、互联网数据和芯片算力提升 单个体的芯片能力会越来越强 算力的变化:体积更小,耗能更大,成本暴增 13:07) Part2 蚂蚁集团AI战略和算力变化带来的挑战 希望AI像扫码支付一样便利每个人的生活 蚂蚁集团AI应用三大方向:生活管家、医疗管家和金融管家 硬件和电力消耗向西部清洁能源可再生能源的方向发展 国内面临的挑战:硬件和人才都需要提升 巨大的前期投入成本和持续运行成本,劝退很多人 30:59) Part3 未来应用场景探索和建议 算力发展方向:追求极致的高密度和模型越来越大 在擅长的领域新增,在外围合作落地 战略选择:选择方向,承接能力 可持续发展:算效提升,软硬件结合 制作人:严格 片头:Where Are You Going (Live) - 海龟先生 片尾:无版权音乐来源:mubert - The Star Power 欢迎在评论区留言交流。如果喜欢《三五环》,也恳请能在苹果 Podcast 、网易云音乐、Spotify 或喜马拉雅留下你的宝贵好评。感谢! 商务合作&嘉宾自荐,请加微信: wocaishiliufei 封面图片由 Midjourney 生成,版权所有©️三五环