We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode  #60. 大数据的关键技术——数据仓库

#60. 大数据的关键技术——数据仓库

2020/12/9
logo of podcast  牛油果烤面包

牛油果烤面包

AI Chapters
Chapters

Shownotes Transcript

“数据仓库”是一种数据库系统。我们现在经常说的“大数据”很多时候正是在“数据仓库”这种系统中进行查询和分析。这一集节目,我们来聊一聊数据仓库是什么、它的历史、它的关键技术,以及相关系统。

主播:斯图亚特、Sean Wang、Cat Chen 剪辑:王立冰

时间线

  • 01:34) 什么是数据仓库

  • 12:26) 数据仓库的技术

  • 36:29) ETL :抽取(Extract)、转置(Transform)、载入(Load)

  • 43:06) 数据仓库和机器学习

本期内容

什么是数据仓库

  • 两套数据库系统:运营系统和数据仓库

  • 数据仓库的历史

  • 互联网公司引领的数据仓库潮流 数据仓库的技术

  • 里程碑论文: Mike Stonebraker: "One size fits all": an idea whose time has come and gone (2005)

  • 列存储

  • 和运营系统技术特点的差别

  • MapReduce及其争议。

  • Hive开启的Hadoop生态系统中的SQL

  • 几大云数据仓库系统(Redshift、BigQuery,Azure,Snowflake) ETL :抽取(Extract)、转置(Transform)、载入(Load)

  • 如何把数据载入数据仓库

  • 数据清洗和数据整合

  • HTAP(Hybrid transactional/analytical processing) 数据仓库和机器学习

播客邮件地址 [email protected]

相关链接

封面图片: Image by Pexels from Pixabay

片头片尾音乐 Exzel Music Publishing (freemusicpublicdomain.com) Licensed under Creative Commons: By Attribution 3.0 http://creativecommons.org/licenses/by/3.0/) Courante 1st Cello Suite