如何成为一名卓越的数据科学家

如何成为一名卓越的数据科学家

在我过去6年多的数据科学职业生涯中,我与很多人合作过。其中99%的人都是普通的,然而1%的人却产生了巨大的影响。

在这篇文章中,我将分享我对这些人的经验,并给出我观察到的一些技巧,这些技巧可能会帮助你成为其中的一员。这篇文章也包括ChatGPT的知识。如果你想了解更多关于数据科学的相关内容,可以阅读以下这些文章:
2023年数据科学家的工具包
数据科学家提高Python代码质量指南
苹果面试流程:数据科学家的完整指南
为什么每个数据科学家都需要了解Llama 2

让我们开始吧。

1 解决问题的态度

与我共事过的前1%的专业人士都有这种共同的态度,即以高效解决问题的心态来应对挑战。他们把问题分成更小的部分,并以最基本的方式来解决它。

例如:数据清理挑战

  • 普通方法:一个普通的数据科学家可能会开始手动识别和纠正错误,花费几天甚至几周的时间来完成任务。
  • 1%方法:具有解决问题态度的专业人士会评估不同的自动清理工具。因为这是使整个过程基本而准确的第一件事。他们会选择最合适的一个,并在几个小时内完成任务。

这里的区别不仅在于速度,还在于应对复杂挑战的能力,将它们划分为较小的部分,并用基本方法解决。

通过批判性思维和选择合适的工具,特别是在这个人工智能工具的时代,你将提升你的技能,他们会认为你是一个团队,而不是一个人。

2 掌握基本的ChatGPT知识是不够的

如果有其他方法能更快、更好、更顺利地使用ChatGPT解决这个任务,你必须改变你的思维方式。

为什么呢?

随着ChatGPT的发布,LLM已经改变了太多的领域,包括数据科学。在工作中使用它的力量,将使你与一般的数据科学家区别开来。

通过使用ChatGPT及其现有功能,以下几个数据科学阶段你会做的很轻松:

  • 数据抓取
  • 数据探索和数据分析
  • 数据可视化
  • 机器学习

但是如何做到呢?让我举个例子,假设你要使用ChatGPT进行数据分析。

当然,你也可以使用Python来做,那现在为什么要这么麻烦呢?我建议你检查ChatGPT给出的代码,你可以很轻松地利用Noteable插件来进行自动化数据分析。

只需使用一个简单的提示,你就可以启动数据分析。

下面是一个简单的提示,可以帮助你:

Load this dataset : "Link"

Use this as my default project: "After signing noteable, in the website you can find this one's link, go to projects"

Act as a data scientist and analyze this dataset.

3 编程是必须的!

在数据科学领域,尽管像ChatGPT、Claude 2这样的LLM越来越多,但拥有基本的编程知识并不是可有可无的,而是必不可少的。

为什么编程是必不可少的?原因如下:

  • 自动化:通过编程技能,你可以自动化重复任务,从而有更多的空闲时间,提升工作质量。
  • 自定义:工具和插件只能帮助你解决一部分问题。了解如何编程可以帮助你找到针对特定问题的解决方案。你不能将所有东西都从ChatGPT或其他LLM工具中复制粘贴,你应该知道这意味着什么。

示例:自动化数据收集和清理

  • 没有编程知识:假设你的任务是为分析项目而去收集和清理来自各种在线数据源的数据。如果没有良好的编程技能,你可能需要手动浏览网站,将数据复制到电子表格中,并清理不一致的地方。这个过程可能非常耗时、容易出错且效率低下,可能需要数周的时间才能完成。
  • 具备编程知识:现在,假设你具备编程技能,并熟悉像AWS Lambda等服务。你可以编写一个脚本自动从网页上抓取数据,然后使用AWS Lambda设置一个自动化的流水线,定期获取、清理和存储数据,以供分析。

虽然像ChatGPT这样的工具改变了我们的工作方式,但对编程的深入理解仍然是一项重要的技能。

4 统计并不无聊!

你第一眼看到这些数据,你有什么想法?你首先会关注什么?作为一名既是数据科学家又是统计学家的人,首先会考虑以下几点:

  • 这个数据集的形状是什么?
  • 有没有需要注意的异常值?
  • 数据是否倾斜,如果是,我应该使用哪种方法来规范化我的数据?

然而,一般的数据科学家会按照他所学习过的课程中的清单进行操作。如果出现重要的情况,例如统计学家应该注意到的数据倾斜,应该在应用机器学习算法之前采取适当的措施。

我理解那些不喜欢统计学的人,在我看来,主要原因是他们所接受的教学方式过于平淡。其实有很多很棒的方法来学习统计学。

假设你是一位体育迷,同时也是费内巴切的球迷,你的球队下周六和上周都有比赛,在阅读Gencay的文章后,你打算开始将你的知识应用到现实生活中,你会如何进行计算?

通过使用泊松分布,你可以进行此计算,在这里https://pub.towardsai.net/how-to-use-poisson-distribution-to-predict-match-scores-with-python-85d2a691833f可以获取更多详细信息。

又或者你知道一个由23个人组成的群体中,两个人生日相同的概率是50%吗?在这里https://medium.com/codex/what-is-the-probability-of-2-people-having-the-same-birthday-c3e5c0b97dbd,你可以阅读更多详细信息。

最后的想法

如果你读到此处,应该看到了我的缩略图,要么你首先想到,缩略图上的人是谁,要么你知道他是谁。Nicola Tesla,如果他生活在这个时代,他肯定会是一个卓越的数据科学家。

要有创新精神,使用人工智能工具,但不要让它们替代你,要掌控局面,不要将一切都照搬照抄。

毫无疑问,现在是人工智能工具的时代,但我认为,能够生存下来的人,是那些掌握了这些工具并明智地使用它,将其用在需要使用的地方的人。

感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Gencay I.
翻译作者:文杰
美工编辑:过儿
校对审稿:Chuang
原文链接:https://levelup.gitconnected.com/how-to-be-a-10x-data-scientist-7597b9782ce1