We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode SE Radio 641: Catherine Nelson on Machine Learning in Data Science

SE Radio 641: Catherine Nelson on Machine Learning in Data Science

2024/11/6
logo of podcast Software Engineering Radio - the podcast for professional software developers

Software Engineering Radio - the podcast for professional software developers

AI Deep Dive AI Chapters Transcript
People
C
Catherine Nelson
Topics
Catherine Nelson: 数据科学家的角色随着工作环境的不同而有所差异,但总的来说,它包含将业务问题转化为数据问题、解决问题以及构建机器学习驱动的功能。数据科学家需要具备数据处理技能(统计学、编码、机器学习算法、数据可视化、数据伦理等),以及一定的领域知识和业务知识,以便将业务问题转化为数据问题。数据科学家的项目类型多样,合作对象也因项目而异,但通常会与产品、组织和工程师合作。数据科学不仅仅局限于机器学习和AI,还包括统计分析和数据可视化等。机器学习是针对特定问题训练模型,而AI模型可以解决多个问题。Jupyter Notebook 对于探索性数据分析和初步建模非常有用,因为它能提供即时反馈。当需要重复训练模型并优化超参数,以及最终部署到生产环境时,就需要从Jupyter Notebook转向传统的Git仓库。数据科学家通常负责初始探索和模型训练,而机器学习工程师则负责将模型部署到生产环境并进行监控。在小型公司,数据科学家通常需要承担多个角色,即使在大型公司,也可能需要承担多种职责。数据科学家应该学习编写测试和使用版本控制,以提高代码质量和可维护性。Python 是目前最常用的数据科学编程语言。软件工程师在与数据科学家合作时,应该了解数据科学项目的不确定性和迭代性。 在机器学习的整个工作流程中,数据科学家和软件工程师需要紧密合作,共同完成数据摄取、数据验证、数据预处理、模型训练、模型分析和验证以及模型部署等步骤。数据验证是检查摄取的数据是否符合预期,例如检查数据是否缺失或是否存在错误。重新运行机器学习管道通常是因为数据发生了变化,或者需要重新训练模型以提高性能。衡量数据质量的方法取决于数据的类型,例如数值数据可以检查均值和标准差,文本数据可以检查文本长度等。如果数据验证失败,通常需要人工干预,例如重新运行数据摄取步骤或更改输入数据。深度学习在一定程度上减少了特征工程的工作量,尤其是在文本数据处理方面。在机器学习管道中,通常不会从头开始训练模型,而是进行微调或重新训练。模型的重训练通常包括模型架构和超参数。在机器学习管道中,模型训练通常是最耗时的步骤。随着机器学习在组织中的应用日益成熟,模型的重新训练频率也越来越高。数据科学家在建立初始管道时应该参与其中,尤其是在数据验证和模型分析方面。模型分析和验证是检查模型性能,例如精度和召回率,以及在不同子集上的性能。模型分析还包括检查模型中的偏差,例如某些群体或用户类型的性能差异。过拟合是指模型过于紧密地拟合训练数据,而无法泛化到新的数据。模型的可解释性通常不是自动化管道的一部分,因为它需要人工干预。部署是将训练好的模型交付给软件工程师,以便将其集成到产品中并提供服务。在模型部署前,应考虑模型的大小和计算资源需求。构建机器学习管道时,可以复用训练脚本,但需要编写新的代码来连接各个步骤。机器学习中一个常见的问题是训练和服务偏差,即训练和部署阶段的特征工程代码不一致。未来数据科学领域可能出现的新兴角色包括生成式AI工程师和AI模型评估师。数据科学家和软件工程师之间最有效的协作方式是团队成员之间互相支持和尊重彼此的想法。她对大型语言模型(LLM)的应用前景感到兴奋。机器学习项目的未来方向包括改进现有模型的准确性以及添加新的功能。 Philip Winston: 主要负责引导访谈,提出问题,并对Catherine Nelson的回答进行总结和补充。

Deep Dive

Chapters
The role of a data scientist varies across companies, but generally involves translating business problems into data problems and building machine learning models. Skills required include statistics, coding, machine learning algorithms, data visualization, and understanding data ethics.
  • Data scientists translate business problems into data problems.
  • Skills include statistics, coding, machine learning, data visualization, and data ethics.
  • Domain knowledge is crucial for understanding business context.

Shownotes Transcript

Catherine Nelson, author of the new O’Reilly book, Software Engineering for Data Scientists*, discusses the collaboration between data scientists and software engineers -- an increasingly common pairing on machine learning and AI projects. Host Philip Winston) speaks with Nelson about the role of a data scientist, the difference between running experiments in notebooks and building an automated pipeline for production, machine learning vs. AI, the typical pipeline steps for machine learning, and the role of software engineering in data science. Brought to you by IEEE Computer Society) and IEEE Software) magazine.