如何扩充你的数据科学工具包?这里有24款免费的数据科学工具!

如何扩充你的数据科学工具包?这里有24款免费的数据科学工具!

原文作者:Naina Sethi

翻译:Man Luo

据分析工具是数据科学领域的重要组成部分。开源社区多年来一直致力于开发数据科学工具从而为该领域做出重要贡献。数据科学界一直在讨论如何使用开源技术,而不是像IBM和微软这样的公司提供专有软件。事实上,很多大企业已经开始开发开源解决方案从而他们可以留住用户,同时开源数据科学工具也已经成为数据科学领域的主导地位。因为从数据挖掘到编程语言有各种各样的开源工具可供使用,因此我们将数据科学家可以添加到他们的数据科学工具包中的技术汇总在一起供大家参考。
1  R语言
R语言是用来进行数据挖掘和数据可视化的一种编程语言。它诞生于1995年,是一款在数据科学家和商业分析师之间广泛运用的工具。它的开源版本S语言被广泛运用在统计研究中。据数据科学家称,R是更容易学习的语言之一,因为有大量的软件包和指南可供用户使用。
2 Python
Python是另外一个在数据科学领域应用广泛的语言。它由荷兰的程序员Guido Van Rossem开发。它是一种通用编程语言,专注于可读性和简单性。如果你不是程序员,但想要学习编程语言,Python是一门很好的入门语言。 它比其他通用语言更容易,并且有许多教程可供非程序员学习。您可以使用Python进行各种分析,如情感分析或时间序列分析,这是一种非常通用的通用编程语言。您可以浏览开放的数据集并执行Twitter帐户的情绪分析等。
3 KNIME
KNIME是一家总部位于世界各地主要技术中心的软件公司。 该公司提供用Java编写的开源分析平台,用于数据报告,挖掘和预测分析。该基础平台可以通过公司提供的一系列商业扩展进行升级,包括协作,生产力和性能扩展。
4 Gawk
Gawk是awk的开源版本,它是专用于处理文件的编程语言。Awk是Unix操作系统的许多组件之一。 Gawk是awk的GNU版本,它可以很容易地对文本文件进行更改,并允许用户提取数据并生成报告。
5 Weka
Weka是由怀卡托大学用Java编写的机器学习软件。 它用于数据挖掘,允许用户使用大量数据。 Weka的一些功能包括预处理,分类,回归,聚类,实验,工作流和可视化。 然而,与R和Python相比,它缺少高级功能,这就是为什么它在工作环境中不被广泛使用。
6 Scala
Scala是一种在Java平台上运行的通用编程语言。 非常适用于大型数据集,主要与Apache Spark和Apache Kafka等大数据工具一起使用。 这种功能性编程风格带来了高效的生产力,使得它逐渐被越来越多的公司作为其数据科学工具包的重要组成部分。
7 SQL
结构化查询语言(SQL)是处理关系数据库中数据的专用编程语言。 SQL用于更基础的数据分析,并且可以组织和处理数据或从数据库检索数据。 由于SQL已经被组织使用了数十年,现在已经形成了一个可供数据科学家们探索的庞大的SQL生态系统。 在数据科学工具中,它被评为对数据库进行筛选和的提取最佳工具之一。
8 RapidMiner
RapidMiner是一款具有可视化和统计建模功能的预测性分析工具。RapidMiner的基础RapidMiner Studio是一个免费的开源平台。该公司还提供可购买的企业级附加产品以补充基础平台的功能。
9 Scikit-learn
Scikit-learn是一个机器学习工具包,主要用Python编写,并构建在SciPy库上。它最初是作为Google Summer of Code的一个项目开发形成,在这个项目上Google会奖励能够开发有价值的开源软件的学生。Scikit-learn提供了许多功能,包括数据分类,回归,聚类,降维,模型选择和预处理。
10 Apache Hadoop
Apache Hadoop软件库是一个用Java编写的框架,用于处理大型和复杂的数据集。 Apache Hadoop框架的基本模块包括Hadoop Common,Hadoop分布式文件系统(HDFS),Hadoop Yarn和Hadoop MapReduce。
11 Apache Mahout
Apache Mahout是构建可伸缩机器学习算法的环境。 算法是在Hadoop之上编写的。 Mahout执行三项主要的机器学习任务:协作过滤,聚类和分类。
12 Apache Spark
Apache Spark是用于数据分析的集群计算框架。因其大数据处理能力、快速和易用性,大型组织选择使用Apache Spark。 它最初是作为Spark在加利福尼亚大学开发的,后来,源代码被捐赠给Apache基金会,以便它永远免费。 由于其高速性,与其他大数据工具相比它更受欢迎。
13 SciPi
SciPi或Scientific Python是基于Python的计算生态系统。 它提供了许多核心组件,包括用于数值计算的NumPy,用于绘图的Matplotlib以及是作为算法库和数学工具包的SciPy。
14 Orange
Orange是一种数据科学工具,它致力于使数据科学变得有趣和具有互动性。 与这里讨论的许多工具相比,这个工具很简单,并且持续吸引数据科学家的兴趣。 它使用户无需编码即可对数据进行分析和可视化。同时它为初学者提供了机器学习功能。
15 Axiis
Axiis是数据科学工具中鲜为人知的数据可视化框架。 它允许用户使用预先构建的组件以简明扼要的形式构建图表并探索数据。
16 Impala
Impala是Apache Hadoop的大规模并行处理(MPP)数据库。 数据科学家和分析师用它对存储在Apache Hadoop集群中的数据执行SQL查询。
17 Apache Drill 
Apache Drill是Google Dremel的开源版本,用于大型数据库的交互式查询。 它功能强大且灵活,支持以不同格式存储在文件或NoSQL数据库中的数据,并且是多功能的数据科学工具之一。
18 Data Melt
Data Melt是一种数学软件,其先进的数学计算,统计分析和数据挖掘功能让您的生活更轻松。 该软件可以用编程语言进行补充以增加可定制性,同时软件中还包括大量的教程库。
19 Julia
Julia是一款用于技术计算的动态编程语言。尽管它并未被广泛使用,但是由于其敏捷性,设计感和高性能,正在数据科学领域中普及。
20 D3
D3是一个用于在浏览器中构建交互式数据可视化的JavaScript库。 它允许数据科学家创建具有高度可定制性的丰富可视化样式。 如果您希望高效地展示数据洞察力,那么D3能够很好地补充您的数据科学工具箱。
21 Apache Storm
Apache Storm是用于实时分析的计算平台。它经常被拿来与Apache Spark比较,并且被称为比Spark更好的流引擎。 它是用Clojure语言编写的,并且被称为简单易用的工具。
22 MongoDB
MongoDB是一个NoSQL数据库,以其可扩展性和高性能而闻名。 它为传统数据库提供了一种强大的替代方案,并使数据在特定应用程序中的集成更加容易。如果您打算构建大型的webapp,它可能是数据科学工具包中不可或缺的一部分。
23 TensorFlow
TensorFlow是Google Brain Team为推进机器学习而聚合的产物。 这是一个为学生,研究人员,黑客和创新者构建的用于数值计算的软件库。 它允许程序员在不需要了解其背后的一些复杂原理的情况下就能够获得深度学习的力量,并且可以成为帮助成千上万公司进行深入学习的数据科学工具之一。
24 Keras
Keras是一个用Python编写的深度学习库。 它在后端引擎TensorFlow上运行,可以进行快速实验。Keras的开发旨在使深度学习模型更加容易,并帮助用户以高效智能的方式处理数据。
希望这篇文章能够为您的数据科学工具包提供一些新的工具!