大数据源终极指南

大数据源终极指南

作为一名有抱负的数据分析师或数据科学家,你可能会很快意识到,拥有大型数据集来训练和测试您的解决方案是多么重要。

数据集是所有数据科学和数据分析计划的基础。能够访问数据意味着你有机会进行试验和快速迭代,从而制定出能帮助您获得洞察力的解决方案。

最近,我发现自己已经穷途末路,只能在网上搜索免费数据集,以便利用大型语言模型进行NLP情感分析。我很快意识到,好的数据集很难找到,即使有,通常也分布稀少,藏在git仓库或一些不起眼的过时网站中。

俗话说,数据是数字经济的新石油

以下是我的一些尝试,希望能为寻找用于ML、统计分析和测试的结构化数据的朋友们提供方便,这些数据集是由慷慨向公众提供这些数据集的个人和公司汇编而成的。如果你想了解更多关于数据科学的相关内容,可以阅读以下这些文章:
苹果面试流程:数据科学家的完整指南
每个数据科学家都应该知道的关于回归的三个简单的事情
5个ChatGPT插件,让你领先于99%的数据科学家!
数据科学初学者必备的7个备忘单!

RODA是一个存储库包含公开贡献的数据集可通过AWS获取。虽然你访问的数据是通过AWS资源提供的,但实际数据集是由不同的个人、机构、政府组织、研究人员和各种企业贡献的;因此,您需要记住注意每个所有者各自的数据许可条款。

如果你参与过ML项目,就一定不会对Kaggle感到陌生。它是提供大量涵盖不同学科的各种数据集的最好的地方之一。鉴于它是由社区驱动的,你可以创建自己的高质量数据集,并与更广泛的社区分享。

Datahub是围绕气候变化、娱乐、股市数据、房地产价格、通货膨胀以及标准普尔500指数等公司财务数据等主题的数据集来源。

来自YouTube 8-M是一个为机器学习和计算机视觉研究而创建的大规模视频数据集。它包含数百万个YouTube视频ID,以及从视频中提取的相关标签和特征。

该数据集旨在促进视频、分类和推荐系统研究,通常用于视频分类等任务,其目标是预测给定视频的最相关标签或类别。

中等水平的作者Warrick对数据集进行了细分和总结性的写作评估,您可以在这里找到以帮助您进一步了解这些数据。

  • 2015年,美国政府公开了其所有数据,涵盖从气候变化到犯罪等各个方面。假设您正在寻找有关美国人口的更多一般性数据。在这种情况下,您还可以查看美国人口普查局,它提供了有关美国公民、地理、教育和人口增长的大量数据。
  • HDX是一个人道主义数据交换门户,可让您查找、共享和使用相关数据集。
  • 美国国家航空航天局(NASA)通过卫星观测数据提供地球数据。你可以在这里找到。我不确定他们是否会发布与UFO有关的数据集。如果你对太空领域感兴趣,这可能是一个很好的开始。
  • 无论你喜欢还是讨厌世界银行,它们提供的数据集都可能很有用,而且无需注册即可直接访问。虽然是免费的,但需要跳几下才能获得实际数据。由于数据缺失,数据可能也不那么清楚。无论如何,这仍然是您可以利用的免费数据。

这个GitHub存储库为包括机器学习和分析在内的各个领域整理了一份公共数据集列表,排名不分先后。还有其他类似的Git仓库这里和这里有一些重叠,但它们也提供了一些你在其他地方找不到的独特数据集,包括开放免费的 REST API,你可以为你的测试相关项目连接这些API。

CERN开放数据门户网站提供针对特定细分市场的数据集,其中包括来自强子对撞机粒子加速器的数据集。

FiveThirtyEight GitHub存储库包含与政治、体育等相关的数据集,可用于分析目的。

OpenML提供了一系列数据集,您可以通过其GitHub存储库访问其中的许多数据集。

Reddit Datasets子论坛偶尔会分享包含数据集的GitHub资源库链接。你可以在这个子论坛查看数据,范围很广,而且各不相同。

UCI ML数据库的数据集包括用于机器学习算法探索性研究的领域理论和数据生成器。加利福尼亚大学欧文分校的研究生于1987年以FTP档案的形式创建了该档案库。从那时起,它就作为机器学习数据集的重要来源被全世界的学生、教师和研究人员广泛使用。

POI是兴趣点的标准。这可以是一个人可能会感兴趣的物理位置。POI数据的一些例子包括餐馆、超市和商场。

POI数据对许多组织来说都非常宝贵,通常与地图中的地理空间数据一起用于各种目的,包括趋势、习惯、购买行为以及与人口统计数据相关的广告用例。用于业务用例的POI数据与其他数据集一起使用时,还能帮助企业获得竞争优势。虽然付费服务非常丰富,但它们的价格并不便宜,也不便于学习和培训。

POI数据的免费来源很难找到,但有一些选择可供您使用:第一个是POI Factory,第二个是POIplaza,需要注意的是,免费数据的数量较少,而且更新频率也较低。第三个选择是利用Openstreetmaps。详情请看这里。

谷歌云公共数据集计划(Google Cloud Public Dataset Program)提供了对存储在大型查询上的许多公共数据集的访问权限,作为免费层级的一部分,您可以免费访问这些数据集。虽然是免费的,但每月只能使用1TB的数据集执行查询;这是一个很好的搜索地。

图像网是一个图像数据库,全世界的研究人员都可以从中获取用于非商业项目的开源数据集。

对市场研究和产品评论感兴趣的人应使用以下网站提供的数据集Snap Web Data.它包含1995年6月至2013年3月亚马逊上超过3400万条用户评论。数据集包含纯文本、产品信息、用户名、评分和评论。

Git超赞仓库下的Twitter数据集列表。CC0涵盖各种主题,从埃隆-马斯克的推文到俄罗斯的曳引推文,没有特定的分类或顺序。

在构建人脸识别服务时,例如使用向量嵌入进行人脸相似性搜索的有效性检测器或1:N人脸匹配识别服务,拥有合适的数据来微调模型非常重要。以下是一些免费的地方,您可以从这些地方入手,帮助您获得大量数据用于训练。

  • CelebA 数据集该数据集由 MMLAB 提供,用于非商业研究目的,包含200,000幅名人图像。
  • Flickr 面孔数据集包含70,000张PNG图像,这些图像在年龄、种族、背景和民族等人口统计学方面具有相当大的差异和多样性。
  • Digi-Face是最大的免费合成数据集,至少就我目前所见,有1,000,000幅图像。

对于与电影相关的数据,我们有IMDB,它提供免费的非商业用途数据集,你可以在这里找到。

维基百科包含大量信息,可免费下载,并可用于法律硕士培训或检索增强生成(RAG)的基础目的。它们是现成的脚本,可帮助您下载和重新格式化数据,请参见维基百科数据集和全站转储-维基百科上各种格式的内容。

虽然开放数据为您的机器学习或数据洞察项目提供了一个宝库,但在使用这些数据集之前也有一些注意事项需要考虑。

公共数据集往往无法验证,容易出错。

毕竟,人类创造了这些数据并免费共享。免费的公共数据集中缺少数据点,甚至有未经同意的数据是很常见的。

在使用数据集之前,最好先检查空值或缺失值。摘要统计在这方面可以提供帮助,例如,统计非空值并将其与记录总数进行比较,以识别缺失值。

如果你打算将其用于统计分析,可以从偏度的角度去检视它,通常可以使用直方图进行可视化,这能帮助你快速评估数据集分布的形状。负偏度有时会表明数据收集过程中可能存在问题或错误,而反之亦然。

如果对数据源的可信度有疑问。最好将其与主题相似的类似来源进行比较。

免费意味着人们不需要花钱就能获得数据,可以专注于分析部分;有大量的在线数据更加小众,通常都有相应的价格。

在花钱的情况下,它很有可能更接近你在现实世界中需要的东西,在这种情况下,前期投资通常能获得更好的数据。这是我的亲身经历。

我希望这份整理清单能为你节省一些寻找数据集的时间。

感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Timothy Mugayi
翻译作者:Qing
美工编辑:过儿
校对审稿:Jason
原文链接:https://levelup.gitconnected.com/ultimate-guide-to-big-data-sources-f94435670d71