欢迎收听本期拍卖报,我是小爱。大家好,我是小 T,很高兴我们又见面了。好的,我们先从第一篇 Corner Gradient Descent 开始吧。这个脚踢度下降听起来有点抽象,它到底在干什么?能用个通俗的比喻解释吗?小爱,我来试试,想象你在爬一座陡峭的山,想尽快到达山顶,但你只能摸黑走,靠感觉找路。传统的方法是踢度下降,就像你移步。
步步试探慢慢靠近山顶但速度可能很慢尤其在山路崎岖的地方这篇论文提出了一种叫脚踢度下降的新方法它像给你的登山靴装了个导航仪通过分析山路的几何形状找到一条更快的捷径结果呢它能让 AI 模型的训练速度提升好几倍哇这个比喻我懂了那它具体是怎么加速的有什么特别的模法吗
他的魔法在于用了一种数学工具复平面上的几何轮廓作者发现 AI 训练的收敛速度跟数据的光谱特性有关比如数据的分布有多平滑或多陡峭他们设计了一种算法通过调整训练路径的角度让模型更快地找到最佳解理论上传统方法可能需要 1000 步收敛他们的方法可能只要几百步更快
好问题这个方法特别适合信号主导的场景比如数据有明显规律的情况
但它也有局限比如理论上需要无线内存实际中得用近似方法可能会损失一点效果另外它的表现依赖于数据的光谱特性如果数据太复杂估计这些特性可能有点麻烦未来如果能让算法自动适应不同数据那就更完美了
明白了,这个研究让我觉得 AI 优化不只是对算力,还能靠数学的巧妙设计真有种四两拨千斤的感觉,你觉得它未来能用在哪些地方?它可以加速很多机器学习任务,比如图像识别,语音处理,甚至是训练大语言模型。因为训练速度快了,开发 AI 的成本就能降下来,应用范围也会更广,比如医疗影像分析这种需要快速迭代的场景,可能就会因此受益。
接下来是第二篇,讲的是 VXP 和 Transformer 模型 Transformer,我们听过是 ChatGPT 那种大模型的核心技术吧这个 VXP 又是啥?没错,Transformer 是大元模型的心脏
但它有个问题计算量巨大尤其是 softmax 这个步骤像个吃电怪兽 VXP 是个聪明的解决方案它是个硬件加速器专门优化 softmax 中最耗时的部分指数运算打个比方 softmax 像是在厨房里把一大堆食材煮熟而指数运算就是最废活的步骤
VXP 就像给炉子加了个涡轮增压让烹饪快了 162 倍,还省了 74 倍的电 162 倍,这也太夸张了吧,它是怎么做到的它通过一个叫 Risley V 的开源硬件架构设计了一个低成本的指令级扩展专门加速指数运算这个扩展只占芯片 1%的面积成本低得惊人
他们还优化了软件让硬件和软件配合的天衣无缝结果不仅 Softmax 快了连整个 Transformer 模型的推理速度都提升了比如 GPT2 模型的推理时间缩短了近 6 倍这听起来对我们普通人也有影响吧比如手机上的 AI 会不会更快更省电完全有可能这种技术特别适合边缘设备比如手机智能音箱因为它让 AI 计算更高效能耗更多
未来你的手机跑 AI 应用时可能电池撑得更久反应也更快而且这种方法不需要重新训练模型精度几乎没损失实用性很强有没有什么不足的地方总不能完美无缺吧确实 VXP 主要针对一种数据格式 Bflow Slows
F16 对其他格式的加速效果可能没那么好另外他们的实验主要在特定模型上未来需要验证它在更广泛场景下的表现还有精度损失虽然小但在一些高精度要求的任务中可能需要更仔细的评估
明白了这让我想到其实 AI 的进步不光靠算法硬件的创新也很关键对软硬件协同是未来趋势像 VXP 这样的设计证明了小改动也能带来大突破特别适合资源有限的场景
第三篇是 Energy Matching,听起来跟生成图片有关,这篇研究想解决什么问题,生成图片不是已经很厉害了吗?是的,现在 AI 生成图片已经很强,但还有两个痛点,一是生成质量和效率的平衡,二是如何让模型更灵活。
听起来像个超级英雄联盟具体怎么实现呢
他們設計了一個兩階段的訓練策略第一階段用最優傳輸流快速把隨機噪聲變成大致像圖片的東西第二階段用朗之腕動力學精細調整細節確保圖片逼真他們還用一個簡單的標量式函數既能生成圖片又能解決其他任務比如修復圖片或分析數據結構在 CIFAS 數據集上他們的生成質量比傳統能量基模型好很多
FID 分数从 8.61 降到 3.97。FID 分数是什么听起来很专业。简单说 FID 分数是衡量生成图片质量的指标,分数越低图片越逼真,3.97 已经接近顶尖水平了。更厉害的是这个方法还能直接估计数据的内在维度帮我们理解数据有多复杂。
这对科学研究很有用那它有什么缺点吗比如会不会特别费算力确实计算量是个问题尤其是第二阶段需要算很多 T 度可能会吃 GPU 内存另外训练过程有些超参数需要手动调对不同数据集可能的重新优化未来如果能简化这些步骤或者降低计算成本应用范围会更广明白了这个研究让我觉得 AI 生成图片不只是好看还能帮科学家干活
你觉得它未来会用在哪?它特别适合需要高质量生成的任务比如电影特效、游戏设计甚至医学影像生成还能用来修复老照片或者在自动驾驶中生成虚拟场景测试系统鲁邦性可能性很多第四篇有点长标题是 An Empirically Grounded Identifiability Theory 这篇听起来很理论化它在说什么?确实有点学术味但很有意思
这篇论文说现在的自监督学习 AI 自己从数据中学习不需要人工标注太依赖试错缺少理论指导作者提出一个奇异可辨识性理论想给自监督学习找个地图让研究者知道为什么某些方法管用哪些地方还能改进打个比方自监督学习现在像个黑箱我们知道他能干活但不知道为啥有了这个理论就能打
开黑箱看清里面的零件那这个理论具体能干啥能让 AI 变得更聪明吗它能帮我们设计更好的自监督学习算法比如现在的自监督学习有个问题叫维度坍塌模型学到的东西不够丰富这个理论可以分析为什么会这样指导我们调整算法让模型学到更全面的知识他们还发现很多自监督方法其实有相似的本质未来可以用统一的理论来优化它们
听起来像给 AI 研究装了个指南针,那它有什么挑战吗?最大的挑战是,这个理论还只是个蓝图,具体怎么实现,怎么验证,还需要很多工作。另外,现实数据很复杂,理论可能得简化一些,假设适应真实场景,短期内它可能不会直接让 AI 变聪明,但长期看会让研究更高效,避免走弯路。明白了。
这让我想到 AI 不光需要算力和数据还需要理论来指路你觉得它对普通人有什么影响对普通人来说这个理论可能间接提高 AI 的可靠性比如自动驾驶或医疗诊断需要 AI 学得更稳健这个理论能帮我们设计更可信的算法减少出错的概率最后一篇是 Towards Universal Graph Structural Encoder
什么是图结构 这个研究又在干啥图结构就像一张关系网比如社交网络里的人际关系或者分子结构里的原子连接这个研究提出了一个叫 GFSE 的编码器能学会通用的图结构知识适用于不同领域比如社交网络 化学分子甚至学术引文网络
想象一下 GFSE 像個萬能翻譯不管是什麼樣的網絡它都能讀懂並提取關鍵信息這聽起來很強大它是怎麼做到的?他們用了一種叫"To Transformer"的架構加上四種自監督任務
预测节点间距离识别网络中的小模式等让模型学会图的通用语言更厉害的是 GFSE 生成的编码可以直接插到其他模型里增强它们处理图的能力在实验中它在 81.6%的任务上都超过了现有方法 81.6%那它有什么不足吗
有 GFSE 的性能依赖于预训练数据的质量如果数据不够多样可能影响效果另外它现在主要处理静态图未来如果能处理动态图比如实时变化的社交网络会更实用计算复杂度也是个问题超大图可能需要优化明白了这个研究让我觉得 AI 以后可能更擅长分析复杂的关系网你觉得它会用在哪儿
潜力很大比如制药公司可以用它分析分子结构加速药物研发社交平台可以用它优化推荐算法甚至城市规划可以用它分析交通网络减少拥堵任何涉及关系的场景它都能派上用场今天聊的这五篇论文每一篇都让人脑洞大开感谢大家的收听欢迎留言分享你们的感想我们下期太快报再见下期见拜拜