拥有良好的数据战略可以简化公司的业务流程。在本期IBM智慧对话中,马尔科姆·格拉德威尔与“可解”节目的主持人罗纳德·杨小兄弟以及IBM数据科学和人工智能技术专家尼古拉斯·雷诺特讨论了数据素养如何帮助提高业务效率、数据管理的基础知识以及为什么数据是人工智能解决方案的第一步。尼古拉斯引用并提及的本期研究报告可在此处找到。尼古拉斯关于机器学习的一些指导意见可在此处找到。这是IBM的付费广告。请访问omnystudio.com/listener了解隐私信息。</context> <raw_text>0 哈喽,哈喽。欢迎收听IBM智慧对话,这是普希金工业、iHeartRadio和IBM联合推出的播客节目。我是马尔科姆·格拉德威尔。在本季节目中,我们将与新兴创作者、开发者、数据科学家、首席技术官以及其他富有远见的创新者们对话,他们正在创造性地将技术应用于商业领域,以推动变革。他们运用自身的知识和专业技能,正在开发出更具创意和效率的解决方案,无论身处哪个行业。
我们今天的嘉宾是尼古拉斯·雷诺特,IBM高级数据科学和人工智能技术专家。尼古拉斯的工作是帮助公司制定数据战略,从而简化其业务流程,并为其使用先进的人工智能技术做好准备。除了日常工作外,尼克还是一位YouTube内容创作者,他的频道拥有超过10万名订阅者。
他的视频以初学者能够理解的方式解释了计算机科学的概念,并且他经常演示如何使用机器学习和数据科学来解决新颖的问题。在今天的节目中,我们将了解尼古拉斯如何从零开始学习数据科学、数据管理的基础知识以及创新的数据战略如何帮助企业创造新颖的解决方案。
尼克与普希金播客“可解”节目的主持人罗纳德·杨小兄弟进行了对话。除了经常为NPR投稿外,罗纳德还主持和制作了“时间利用”和“离开剧院”等播客节目。好了,让我们开始采访吧。
那么,请您简单介绍一下您是如何进入数据领域的,以及您是什么时候发现数据真正蕴含的强大力量的。您是否有相关的经历或故事,能说明您最初对数据产生兴趣的契机吗?
我第一次接触数据和编码是在我大约11岁的时候。那时我只是开始接触电子表格。我爸爸下班后,除了做朝九晚五的工作外,他还开始投资股票,并以此进行价值型交易。
我永远记得有一次我走到他办公桌前,他说:“尼克,如果你一定要学习一门技能的话,那就是我看到很多人都在使用电子表格中的宏。这些人就像我生意中的巫师一样。”
“我知道你还在上高中,但我真的认为你应该学习这些东西。”于是我开始尝试使用一些Excel电子表格,开始录制宏并进行调整。一切就从那时开始了。从那时起,在我的职业生涯中,我一直都在从事某种与数据相关的“巫术”,无论是编码、商业智能还是数据可视化。无论我从事的是创业公司、YouTube还是我现在在IBM的工作,它始终贯穿其中。
你爸爸是对的。我想说的是,作为一个试图整理电子表格来管理个人财务的人,仅仅是查找从一个工作表到另一个工作表提取值的公式对我来说就已经足够困难了。所以我很高兴知道,这是一种“巫术”,对吧?确实如此,绝对是。所以,知道您是这样开始接触电子表格的,您在研究股票等等。
您能否谈谈您是如何发现数据素养的重要性,以及您是如何开始重视理解数字的含义及其潜在力量的?我在四大之一的会计师事务所获得了一个见习职位,并从那里开始担任审计员,这几乎是100%以数据为中心的。所以我看到,
这些数字最终会融入到更大的图景中,那就是正式的年度报告。年度报告中的数字错误可能会影响市场,对吧?这些数字必须绝对准确。但我认为这就是它开始的地方。它真正达到顶峰是在我开始在澳大利亚储备银行工作的时候。而且
这些数字不仅会影响特定组织的指标,还会影响整个国家的指标。在一个特定的图表上弄错数字或在一个特定的图表上弄对数字可能会影响整个组织,或者可能会改变整个国家。数据处理的正确性所带来的价值令人难以置信……
所以,当您展示一个指标时,您必须确保您正在传达适当的信息。这不仅仅是关于原始数字,因为相关性并不一定意味着因果关系。因此,理解您所说的内容非常非常重要。而且,现在我们掌握了如此多的数据,这一点就更加重要了。很容易去获取一堆指标,然后说,嘿,我要从这里获取这些数据,从那里获取那些数据,把它们组合在一起。嘿,看,这两条线遵循相同的趋势。它们一定有关联。您是否经常会看到数据点并说,这些……
我不理解这张图表。他们是从哪里获取的?您在日常生活中经常这样做吗?哦,是的,也有一些很棒的图表,你总是能看到它们,它们将尼古拉斯·凯奇的电影数量与玻利维亚的GDP作比较,就像,好吧,它们的方向是一致的。它们一定存在某种关系。但是
人们可以很快地看一眼图片,然后对它所说的内容做出假设,而实际上并没有解释,嘿,这些是在相同的比例尺上吗?它们显示的是什么时间段?我在这里到底看到了什么?我发现自己越来越频繁地这样做,当我看到一张图表时,我会想,等等,让我们不要做任何假设。这张图表到底想说什么?它到底想表达什么?因为
如果你知道自己在做什么,你就可以用统计数据来撒谎。它们非常强大,人们可以很快地忽略它们。如今我们的注意力持续时间越来越短。很容易就得到错误的信息。
您还在包括YouTube和个人博客在内的各种平台上创作内容。作为一名内容创作者,您是如何开始从事这个领域的?您创作的是什么类型的内容?是的,这是一个疯狂的故事,对吧?我一直想进入科技领域,并说,嘿,我真的很想为IBM工作。我看到了他们使用沃森所做的事情,我想,
为什么人们对此谈论得这么少?当时我与IBM没有任何关联。我想,这太酷了。曾经有一个叫做,或者说云平台上提供的一项服务叫做Personality Insights。你可以输入一小段文字
从这段文字中,它会根据五大性格特质分析该人的性格。实际上曾经有一个演示应用程序,你可以将其连接到Twitter帐户。所以我可以通过奥普拉的Twitter帐户或勒布朗的Twitter帐户,它会分析他们的个人资料。我想,这太酷了。哇。太疯狂了。
我想,但是很多人不知道如何使用它。这很可能是我在YouTube上制作的第一个教程之一。之后我制作了很多视频……
最终在IBM找到了一份工作,我实际上在我的简历和求职信中发送了很多链接,我说,嘿,我已经在使用这些东西了,我可以做到,而且……雇用我的人,她实际上说,这是一种非常棒的方式来展现你对工作的热爱,这在获得这份工作方面产生了很大的影响,但是……
是的,我这么做是因为,首先,这项技术非常酷,我认为它非常有趣且强大。是的,最终它帮助我找到了那份工作。所以你做了很多教程,你把复杂的话题分解成更广泛的受众可以理解的内容。为什么对你来说这样做很重要?是的,我认为知识的奇妙之处在于,它是你可以给予他人而不会失去的东西,对吧?
我认为数据科学和机器学习领域最棘手的事情之一是,入门可能相当棘手。有时我们会纠结于从零开始学习,对吧?而且
学习基础知识和基础原理,并真正深入学习并没有错。但是为了坚持下去,你必须觉得它有趣。所以,如果你能看到最终结果,然后倒着推导,弄清楚它是如何工作的。
那么它就更有吸引力了,因为你会得到即时的满足感,然后说,嘿,我刚刚构建了一个能够解码手语的机器学习应用程序。太酷了。现在我要去研究它背后的技术了。诚然,并非每个人都会去研究它背后的技术,但我试图做的是让更多人参与进来并开始学习它。最近,我一直在做这些叫做代码挑战的事情,它们有点疯狂,对吧?但我喜欢做它们。所以
我必须在15分钟内构建完整的机器学习或数据科学应用程序,而不能查看任何参考代码、Stack Overflow或任何文档。所以它实际上就像一场试炼。我会拿着我的手机,设置一个计时器,然后说,好吧,伙计们,我们开始了。它实际上就是……
不停地编码,并且我在编码过程中进行解释,但这可以让大家看到并理解我在开发过程中的思路。这显然非常有趣,对吧?因为它极具吸引力,并且向人们展示了,嘿,你可以相对快速地入门。尼古拉斯就是这样一个人,他对数据科学的热情如此之高,以至于它从他的职业生活中延伸到了他的YouTube频道。
但是当他不制作视频时,他正在利用同样的专业知识来帮助他的客户更好地开展业务。在IBM,尼古拉斯与企业合作制定数据战略,帮助他们充分利用机器学习或深度学习等技术。他向罗纳德解释了为什么批判性地思考公司生成的数据可以帮助公司更高效地运行。
所以,你在你的演示文稿中使用过一句引言。“99%的人说他们的公司正在努力成为数据驱动型公司,但只有三分之一的公司报告取得了成功。”在成功的三分之一的公司中,创造力扮演着什么角色?IBM是如何帮助提高这个数字的?
我记得参加了我们前任首席执行官的一次演讲,她说有很多组织只是在进行随机的数字化尝试。所以他们只是在测试一些新技术,看看有什么可能,但是真正取得成功的组织是那些已经准备好数据的组织,他们的数据战略已经到位,他们开始收集数据,开始准备和组织数据,开始查看数据,并开始以结构化的方式进行迭代和原型设计,他们开始推出这些东西。将像机器学习这样复杂的技术投入生产
比人们想象的要困难得多,因为你现在正在构建一个有自己规则的盒子。你并没有自己定义这些规则。那么,当事情进展顺利时,你该如何解释呢?但是当事情出错时,你该如何解释呢?围绕这一点进行治理绝对至关重要,这正是数据战略发挥作用的地方。所以让我们深入探讨更多以业务为中心的数据战略。
为什么制定数据战略来推动人工智能建模如此重要?数据素养在从这些模型中获取价值方面扮演着什么角色?如今我们到处都有算法。但我认为人们忘记了一点,那就是除非你有数据,否则你无法使用任何这些算法。因此,确保你有一个结构来
首先,收集你的数据。其次,组织它。第三,分析它。然后第四,将一些机器学习或深度学习融入其中,这绝对至关重要,因为如果你不收集它,你就无法对它做任何事情。如果你不组织它,你就无法发现你实际上拥有了什么,质量如何。如果你不分析它,你就不知道你是否可以信任它。然后
他总是把注入比作蛋糕上的糖霜,对吧?所以机器学习、深度学习,所有人们四处抛出的酷炫的流行词。这就像最后一步。它总是最酷的一步,但是除非你完成了之前的艰苦工作,否则你永远无法达到最后这一酷炫的一步。
让我们进一步扩展一下公司在开发或实施数据战略时遇到的痛点。这些痛点是什么样的?老实说,我看到组织遇到的最大的痛点,实际上是我看到他们反复遇到的前两个痛点是收集和组织他们的数据。所以
例如,假设你有一个制造类型的组织,他们想要做的是提高特定生产线的生产质量。所以理想情况下
如果他们看到生产线上有缺陷产品,他们希望尽快清除这些产品,因为他们不想将这些产品运送给客户,然后经历整个保修和索赔流程。这只会花费大量资金。所以他们想,好吧,最好使用一些计算机视觉或深度学习来检测生产线上何时出现缺陷,然后我们可以抓住这些缺陷并将其清除。
生产线上有人说:“太好了,让我们去做吧。”你将遇到的第一个障碍是:“等等,你有没有例如来自观察生产线的摄像机的缺陷产品的图像?”如果你没有收集这些图像或视频,那么你根本不可能去构建那个系统来提高你的组织生产力。
因此,提前了解你可能需要哪些数据绝对至关重要。这是数据科学生命周期中的第一步。因此,收集、理解和探索你的数据是绝对的第一步。第二个有点意思。例如,假设你想要参与数据科学或机器学习的热潮。
并且你组建了一个数据科学团队,我发现许多组织遇到的下一个最大障碍是发现他们的数据。他们拥有大量数据,但没有人知道他们拥有什么。因此,能够查找、搜索、发现、评级、审查和排序这些信息至关重要,因为你将会有员工进来,然后说,
好的,一位部门经理找到我说,我们想看看我们表现最好的客户,并且我们想制定一个留存策略。这样我们就不会再流失客户了。那么,你的数据科学家就会说,好吧,我们有以前流失的客户的数据吗?如果你不能轻松地搜索和找到你拥有的东西,那么构建这些模型就会非常困难。所以
收集、组织和发现确实非常关键,但在许多组织中,它们可能有点难以处理。我们需要什么样的支持技术和新解决方案来应对日益增长的数据管理问题?
这实际上归结于几件事。因此,确保你可以首先收集你正在查看的数据类型。我认为当人们想到数据时,他们总是想到,嘿,这只是一堆电子表格。它可能只是我们可以放入数据库中的东西。但是还有更多的东西,对吧?有视频。我们如何存储它?我们如何保存它?有图像。有自然文本,就像我们刚才谈论的那样。
确保你已经制定了适当的流程来存储、保存和编目这些数据,我认为这绝对至关重要。我们刚才谈到了数据编目以及能够搜索和发现数据的必要性。这绝对是至关重要的。一旦你收集了它,你如何找到它?IBM在促进公司内部的数据访问方面有哪些独特的方法?所以,
最重要的事情之一,也是我最喜欢的事情之一,就是我能够使用的一套特定工具,对吧?这套工具叫做Cloud Pak for Data。所以,不用说得太像推销,最令人惊奇的是
我刚才谈到的那些阶段,对吧?所以收集、组织、分析和注入。它实际上有助于促进每一个阶段,对吧?所以你可以实际收集、存储和保存你的数据在一个安全和受管控的地方。你拥有数据编目功能,这允许你搜索。我最喜欢的事情之一是,你可能有一个数据集,对吧?所以我可能是一个数据科学家,然后我们团队中可能还有另一个数据科学家。
我可以有一个数据集在那里,我实际上可以对它进行排名并添加评论,然后说,嘿,要注意这一列。你需要注意某些功能。这提供了额外的元数据来理解我的数据是什么样的,以及我应该注意哪些事情。所以我是员工小赵。数据对我有什么帮助?
好问题。我的意思是,数据正在影响着每个人,对吧?无论你是否喜欢它。而且大多数情况下,你会发现你可以通过查看数据来改进你所做的任何事情,无论是在组织之外。
如果你使用睡眠追踪器,你可以开始了解你的睡眠情况,或者你什么时候睡得好,什么时候睡得不好。如果你开始收集其他数据点,例如,嘿,我白天喝了足够的水吗?我是否在睡觉前做了一些事情,例如看手机?这些事情是否会影响我的睡眠?这是否会对我的生活质量产生负面影响?
所以这是从更广泛的角度来看待它。但是当你进入团队或业务视角时,
数据可以使你的生活轻松一百万倍。如果你知道在数据管道早期系统中存在特定问题,在某些东西到达你的办公桌之前,你可能会说,“嘿,看,如果我们只是改变我们收集这些信息的方式,如果我们只是改变我们实际处理它的方式,这将简化我的整个工作流程并帮助我。”但不仅如此,我还与自动化团队一起工作,
他们非常重视机器人流程自动化。假设你每天都在做某件事。你正在将文件从这里复制到那里。你正在从网站上获取一些信息。你把它扔进一个表格,你一天必须做20次。有一些工具可以为你自动化整个过程。而且它们很聪明。它们不仅仅是查看你在页面上点击的位置。它们正在查看你正在打开哪些应用程序。它们正在查看你正在从哪些字段中提取数据。
你可以自动化这些整个工作流程。这意味着你不必做那些你并不想做的重复性枯燥的工作。你可以把它交给机器人,去做你真正想做的事情。正如尼古拉斯所说,公司利用数据的方式会影响业务的各个层面。数据会影响我们每天的工作方式以及我们对未来的规划。
对数据持开放的心态使企业更容易提出创造性的解决方案。在他们谈话的下一部分,罗纳德问尼古拉斯数据科学和创造力是如何结合在一起的。所以让我们更详细地谈谈创造力。我们刚才谈到了你的YouTube频道,以及你如何利用它来帮助人们开始学习数据科学。创造力对你来说意味着什么?你认为你的工作有创造力吗?
我绝对认为我的工作很有创造力,我认为创造力就是跳出框框思考,寻找不同的做事方法。我认为我试图体现的最重要的事情是拥有开放的心态,并且永远不愿意轻易否定某些东西,或者不去考虑某个解决方案或选项,
因为你真的永远不知道某个解决方案可能来自哪里。如果你看看医学领域的一些进步来自哪里,那是因为他们对新的想法、新的材料、新的成分、新的配方、新的技术持开放态度。拥有开放的心态确实有助于提高解决复杂问题的能力。我认为……
对我来说,创造力就是拥有这种开放的心态。请您谈谈您是如何处理新颖问题的。当您遇到困难时,您会怎么做?我认为最重要的是,当我自己尝试做一些我从未做过的事情时,我真的很喜欢。很多时候,这会产生解决问题的新的方法。
这些问题可能很难解决,它不一定需要使用这套特定的技术,而是我们还能做什么来解决这个问题,有时就像它就在你眼前,而你却不知道,直到你说,嘿,我要把所有东西都扔出窗外,试一试,看看有什么可能……但是有时确实需要一点毅力才能推动自己去看看什么才是可能的,而且……
我认为这就是我提出的一些我曾经做过的最棒的事情。所以,我正在尝试在我的日常生活中采用一些东西,我正在阅读更多关于斯多葛主义和哲学的书籍,我看到你必须有时坚持下去才能看到另一边。
我们之前谈到过人们如何利用一些数据并用它来讲述他们自己的故事,特别是如果他们知道他们想讲述的故事。但是让我们谈谈如何将其用于善事。创造力在数据叙事中扮演着什么角色?我认为你可以用数据做很多好事,如果你把这
作为你的核心原则,那么世界就是你的牡蛎,对吧?我总是回到我最喜欢的项目,那就是使用计算机视觉来尝试解码手语。它绝不是最先进的模型,但我认为,等等,为什么没有人尝试过这个,或者至少分享他们是如何尝试做的?我必须在尝试构建它时变得非常有创意。我有……
我花了几个星期的时间才在我的电脑上安装东西并让它运行,然后我才开始构建那个特定的模型。在尝试设置它方面,它非常困难。但是有很多机会可以做好事,无论是提高某些技术的可访问性,还是提高那些可以从我们更好地使用数据中受益的人的生活质量。有一大批工作……
许多不同的数据科学家正在构建针对不太流行或不像我们日常生活中那样广泛传播的语言的语言翻译模型。如果你看看
印度,有很多方言。即使是我父母来自毛里求斯的地方,也有一种完全不同的方言,如果你以前从未听说过它,你会想,这只是法语俚语吗?但不是,它就像……嗯,它是……它是一种完全不同的语言,它显然允许或提高了人们……的能力……
利用数据并做一些好事。但是有很多。我的意思是,人们正在使用医学图像数据来改进医学分割和改进诊断。在这个领域正在发生如此多的令人惊叹的工作。显然,人们会试图将数据用于坏事,但我希望大多数社区成员都真的试图将其用于善事。
你刚才开始谈到了一些,但是未来的一些趋势和挑战以及你感兴趣的未来主题或项目是什么?有什么特别的吗?展望更远的未来,我非常兴奋的是,我仍然不知道它将如何影响我,这是否会改变我作为开发人员的体验,那就是我们有了量子计算机,对吧?在这个领域正在进行大量的工作。它将彻底改变
我们能够创建的机器学习模型的大小,以及我们能够训练它们的速度。我只是很兴奋地看到在这个领域会发生什么。我绝对不是量子物理学家,但我仍然很兴奋地看到将来我能够用它们做什么。我喜欢这个。当你们继续开发这项技术时,你们很高兴在它建成后与它一起玩耍,我完全同意。是的,我会玩耍的。我不想去构建它。
尼古拉斯·雷诺特,非常感谢您今天与我交谈。非常荣幸。感谢您提出富有见地的提问。罗纳德,这太棒了。尼克提出了一点,我认为这一点很重要。当谈到技术提高我们业务能力、使我们的工作更轻松甚至造福社会的能力时,周到的数据战略始终是第一步。
如果没有好的数据,使用机器学习或人工智能来创建创新的解决方案就会变得非常非常困难。我们的技术每天都在变得越来越复杂。但这并不意味着我们应该忽视基础知识。如果我们想充分利用更智能的技术、更好的业务决策、更优化的技术、新鲜而意想不到的见解,我们将需要更智能的数据战略。
在下一期IBM智慧对话中,我们将探讨Salesforce的力量如何改变客户体验。我们将与IBM咨询公司Salesforce美洲区产品主管菲尔·温迈斯特讨论如何利用Salesforce和IBM的力量来改变数字体验。IBM智慧对话由马特·罗曼诺、大卫·贾、罗伊斯顿·贝瑟夫和埃迪思·鲁索洛与雅各布·戈德斯坦共同制作。
我们的编辑是索菲·克莱恩。我们的工程师是杰森·甘布雷尔、莎拉·布鲁格尔和本·托利迪。主题曲由Gramascope创作。特别感谢卡莉·米格里奥雷、安迪·凯利、凯西·卡拉汉以及8 Bar和IBM团队,以及普希金营销团队。IBM智慧对话是普希金工业和iHeartMedia联合制作的节目。
要查找更多普希金播客,请在iHeartRadio应用程序、Apple Podcasts或您收听播客的任何地方收听。我是马尔科姆·格拉德威尔。这是IBM的付费广告。