cover of episode 64. AI x 信息检索 | 高校里的RAG、索引词优化等前沿技术

64. AI x 信息检索 | 高校里的RAG、索引词优化等前沿技术

2024/11/22
logo of podcast 扩博智聊 | 有AI味道的访谈节目

扩博智聊 | 有AI味道的访谈节目

AI Deep Dive AI Chapters Transcript
People
冉坤
Topics
冉坤: 我在RMIT学习AI的过程中,系统学习了从编程基础到深度学习的知识,课程设计将这些知识点串联起来,而非割裂开来。我的学习方法是针对性的,为了解决问题而学习。我之前的创业经历丰富,从校园社交APP到区块链Dapp,最终转向外包。在Wirecraft的工作经历让我意识到之前的工作经验略显‘小打小闹’,并获得了更多学习机会。我选择攻读AI硕士学位,是为了获得更系统化的教育,提升未来的职业发展上限。我选择在国外学习AI,是出于多方面考虑,包括对硅谷的向往以及国内学习资源的局限性。目前我的研究方向是信息检索,专注于检索词优化,以提高RAG系统的召回率。在企业级RAG应用中,效率是一个关键问题,需要解决各种数据类型(如表格、图片)的处理问题。利用大模型生成代码来解决复杂数据(如表格)的分析问题,比直接用大模型分析更有效。目前检索词优化方面还没有形成最佳实践,但实验结果表明,对于质量较差的检索词,优化后效果显著提升。大模型在文档相关性评估中容易被误导,需要考虑如何识别和避免“下毒”问题。RAG技术最初的应用动机是由于大模型上下文窗口大小的限制,但即使上下文窗口无限大,RAG技术仍然有其应用价值,因为速度和内存等因素仍然是限制。搜索技术一直有效,即使上下文窗口无限大,搜索仍然可以获取更新的信息。 潘天一: 本期节目讨论了AI信息检索技术在高校和企业中的应用,以及相关技术挑战。我们与冉坤探讨了他在RMIT的学习经历,包括课程设置、学习方法和研究方向。我们还深入探讨了企业级RAG应用中遇到的问题,例如如何处理复杂结构的数据(如表格),以及如何提高检索效率和召回率。此外,我们还讨论了大模型在信息检索中的应用,以及如何应对大模型被误导或“下毒”的问题。最后,我们还探讨了RAG技术在未来大模型上下文窗口无限大的情况下,其应用价值和局限性。

Deep Dive

Chapters

Shownotes Transcript

嘉宾:冉坤 RMIT皇家墨尔本理工大学研究生,前Wiredcraft高级软件工程师 录制日期:2024-11-19 | 主持人:潘天一 本期话题节选

04:36 从网络到应用:探索软件工程师转型人工智能领域的学习之旅 15:45 创业之路:从校园本地服务APP到区块链dApp的创业经历 19:39 深入学习人工智能:从基础到深度学习的课程体系 31:46 课程型研究生与研究型研究生的差异与比较 37:15 企业级RAG应用的难点 44:41 学术界近期在信息检索研究中的一些突破 50:00 大模型协助方法的利弊:给模型下毒 53:36 RAG vs. 长上下文 嘉宾推荐 59:08 Lex Fridman Podcast 说在最后 扩博智聊是一档带有AI味道的访谈节目,我们专注人工智能技术在不同行业不同领域的应用场景。 节目背后的扩博智能虽然也是一家AI企业,但我们在节目中邀请的嘉宾,讨论的话题和行业并不一定限于扩博自己目前服务的领域。 我们的愿景是通过《扩博智聊》让我们的听众更广泛地了解到一些多样性的人工智能应用场景和这些行业里有趣、有故事的人。 想更深入了解这些人,可以关注我们的微信公众号,扩博智能Clobotics,留言“听友群**”三个字,加入我们节目粉丝和嘉宾的互动群。 联系我们 若有对我们节目的反馈,商业合作的意向或者嘉宾与话题的推荐自荐投稿,可以发给我们的邮箱地址:[email protected]