数据科学家应知的三个回归事项
一个模型的好坏取决于你对它的理解,我担心很多人都在运行模型时看到它的最初的结果就浅尝辄止了。当谈到回归建模——最常见的建模形式之一,如果你能了解一些关于这些模型的工作原理以及它们设置方式的简单信息,你将成为更好的数据科学家。
提升数据科学水平的五个必备知识
如果你对重新研究数学有点犹豫,这是个好消息。成为一名成功的数据科学家,你不需要正式的数学学位,也不需要成为抽象证明的专家。你真正需要的是数据科学中能实际应用的统计概念知识,(例如设计用户研究、运行假设测试、有效使用机器学习模型等)。
微软宣布:分页报告,我们使用Power BI
分页报告是传统的操作报告,具有类似文档的输出要求,最适合被用于运营流程(如发票、目录、合同、提货单等)的多页列表类型报告。分页报告的一个主要好处是:它们可编程,这使报告作者对其报告的结构和格式有更大的灵活性和控制力……
哪些特征工程技术改善了机器学习预测?
当涉及到机器学习时,人们可以做的事情是选择正确的特征,并删除那些对模型性能影响可忽略不计的特征,以改进ML模型预测。因此,选择正确的特征可能是数据科学家或机器学习工程师最重要的步骤之一,他们经常要做许多工作,尤其是构建那些能够分别在测试数据集上很好地泛化的复杂模型。
使用Python和R的五个简单快捷的技巧——让你成为高效数据科学家
我最近的一个发现是许多数据科学家同时使用Python和R。在限定的一天内,大量的数据科学家在两种语言之间切换,这意味着需要通过提供如何更好地管理定期使用两种语言的技巧来填补数据科学教育的空白。本文我将介绍几个简单的技巧,这些技巧可以在不到10分钟的时间内作为日常工作的一部分来实现,它们也将帮助你成为一个在Python和R之间切换的更高效的数据科学家。
使用SQL总结A/B实验结果
我曾在大大小小的科技公司做过应用程序、产品和营销A/B实验。虽然每个实验的特性和目标各不相同,但我为总结这些产品实验的结果而编写的SQL每次都是相同的。它们都是一种设计模式!建立一个用户级别的表,然后根据该表计算汇总指标。这种方法对我来说就像是第二天性,但我很惊讶的是我需要经常向其他开始做实验的人展示它,因为没有太多东西可以解释这种方法。所以我写了这本指南!
关于开发Open-Source,我学到的6个教训!
Open-source(开放源码)这个概念棒呆了!通过将整个用户群的资源、技能和知识绑在一起,可以创造出我们作为个体做不出的软件,起到1加1大于2的效果,数据科学家会大量使用这种软件。它推动了许多技术的发展,并且有机会参与到这些技术的开发中。无论是作为作者、维护者还是开发者,Open-source领域的工作都非常艰巨!通过这篇文章,我分享了我在这个领域的一些经验,希望能帮助那些想要开发Open-source的人。
认识Julia:数据科学的未来
作为一名数据爱好者,你可能听说过:Julia——“未来数据科学编程语言”。有人声称,Julia将在数据科学领域取代Python和R,因为它在性能、效率和易用性方面具有显著优势。在本文中,我们将研究Julia是什么,它的应用及它是否值得数据科学家去学习。