2022 年科学家必须知道的顶级MLOps工具数据

2022 年科学家必须知道的顶级MLOps工具数据

机器学习运营(Machine Learning Operations,简称 MLOps)是将机器学习模型投入生产的过程,持续维护和监控这些模型是 MLOps 的核心目标。作为一项集体项目,MLOps结合了数据科学家、数据工程师、机器学习工程师和 DevOps 工程师的技能和专业知识。如果你想了解更多关于机器学习的相关内容,可以阅读以下这些文章:
用合成数据创建机器学习欺诈模型
一文了解机器学习中的F1分数(F1 Score)
机器学习中的文本分类是什么?
Ins 数据科学、机器学习及AI宝藏博主推荐

MLOps 的主要优势是高效率、可扩展性和可再现性。

MLOps 包括从数据流到机器学习模型部署的所有内容。在某些情况下,MLOps 只是用于模型部署,但你也可以找到更成熟的企业,它们已经在各种 ML开发领域实现了MLOps,如探索性数据分析(EDA)、数据预处理、模型训练等。

(图片来自Databricks)

✦++ MLflow

MLflow 是一个用于管理端到端机器学习周期的开源平台。它具有以下主要组件:

  1. Tracking:允许你跟踪实验以记录和比较参数和结果。
  2. Models:允许你管理和部署来自各种 ML 库的模型到各种模型服务和推理平台。
  3. Projects:允许你以可重用、可复制的形式打包 ML 代码,以便与其他数据科学家共享或转移到生产中。
  4. Model Registry:允许你集中模型存储,以管理模型从试运行到生产的整个生命周期阶段转换,并具有版本控制和注释功能。
  5. Model Serving:允许你将 MLflow 模型作为 REST 端点托管。

✦++ Kubeflow

Kubeflow是一个开源的机器学习框架,创建它是为了在Kubernetes上协调和部署可扩展的机器学习管道。(例如进行数据处理,然后使用 TensorFlow 或 PyTorch 训练模型,并部署到 TensorFlow Serving 或 Seldon)。Kubeflow 是基于 Google 内部部署 TensorFlow 模型的方法构建的,称为 TensorFlow Extended。

根据官方网站:

“Kubeflow 项目致力于使机器学习(ML)工作在 Kubernetes 上的部署变得简单、便携和可扩展。我们的目标不是重新创建其他服务,而是提供一种直接的方法,将最佳的 ML 开源系统部署到不同的基础设施上。无论你在哪里运行 Kubernetes,都应该能够运行 Kubeflow。”

✦++ FastAPI

FastAPI 是一个现代的、快速的(高性能的)Web 框架,能基于Python 类型提示,用于使用 Python 3.6+ 构建 API。它完全支持异步编程,可以与 Uvicorn 和 Gunicorn 一起运行。

其主要特点是:

  1. Fast:具有非常高的性能,与 NodeJS 和 Go 不相上下(也多亏了 Starlette 和 Pydantic)。是最快的 Python 框架之一。
  2. Fast to code:能将开发功能的速度提高约 200% 至 300%。
  3. Intuitive:拥有强大的编辑器支持,对地点和时间需求大幅度降低。
  4. Easy:设计为易于使用和学习,能减少阅读文档的时间。
  5. Automated Documentation:随附自动化交互式文档。
  6. Standards-based:基于(并完全兼容)API 的开放标准:OpenAPI(以前称为 Swagger)和 JSON 模式

✦++ Docker

假设你正在构建一个 Web 应用程序。在开发阶段,你和团队中的其他开发人员将很可能使用本地开发环境。如何确保应用程序在生产环境中按预期工作?你的笔记本电脑可能有一个特定的操作系统,一个特定的 Python 运行,一个特定版本的成百上千的库/框架,而你的应用程序依赖于这些东西。一个软件应用程序或机器学习应用程序有很多依赖项,如果没有正确处理,你的应用程序将有无数种可能会失败。为了解决这个问题,开发人员使用“Containers”。

一个container是一种标准化的软件组件,它封装代码及其所有依赖项,以确保应用程序在不同的计算机环境中快速、一致地运行。应用程序的代码、运行、系统工具、库和设置都包含在一个称为“Docker container image”的轻量、独立、可执行的打包中。

那么 Docker 是什么?Docker 是一家提供软件(也称为 Docker)的公司,允许用户构建、运行和管理containers。虽然 Docker 的containers是最常见的,但也有其他不太有名的替代品,如 LXD 和 LXC,它们也能提供container式解决方案。

✦++ 结语

根据 NewVantage Partners 最近的一项研究,在排名前 70 的企业组织中,只有 15% 的企业组织将 AI 能力引入了大规模生产。不能用来创造价值的 AI,只是一个极其昂贵的实验。尽管有着高度技术性的成就,这些实验并没有产生投资回报。MLOps 通过简化企业在生产中的安装、监控和模型更新,为 AI 和 ROI 打开了大门。

感谢阅读。你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Moez Ali
翻译作者:高佑兮
美工编辑:过儿
校对审稿:明慧
原文链接:https://moez-62905.medium.com/top-mlops-tools-data-scientists-must-know-in-2022-94bf143a80d