在生成式人工智能时代,数据价值有多大?
就在去年10月,Reddit还威胁要阻止Google访问其页面。现在已经接受了一家人工智能算法开发公司的提议,希望使用这家社交新闻网站的内容来训练其模型。与此同时,Apple和OpenAI继续向主流媒体提出数百万美元的交易,以获取他们的新闻。所有这些都提出了一个非常有趣的问题:数据的价值有多大,它在哪里,如何将其货币化?
如果你想了解更多关于人工智能的相关内容,可以阅读以下这些文章:
2024年每个开发人员都需要掌握的生成式人工智能技能
Google的Gemini AI模型:揭开人工智能的未来
世界上最好的人工智能模型:谷歌DeepMind的Gemini已经超过了GPT-4!
我尝试了50种人工智能工具,以下是我的最爱
最近生成式人工智能的爆炸式增长,是基于开发该技术的公司没有经过太多思考就做出的一个关键决定:他们没有用特定的数据集训练算法,而是从网络上搜罗信息。对于像LinkedIn这样的网站所有者的裁决似乎表明,如果数据公开发布,就可以通过网络抓取收集并自由使用,但对于像Clearview这样的公司的裁决则遭到了反对,他们显然滥用了这种做法,并制造了一场严重的隐私噩梦。
显然,搜集互联网信息的决定引发了另一个问题:可靠性。如果使用的数据充满了阴谋论、儿童色情、极端主义观点或其他各种无聊的内容,那么它在用于训练算法时的价值就会大幅下降,因为它需要使用昂贵的监控系统来过滤有害内容。
安装了质量保证流程的数据生产者似乎具有优势。但是,那些生成与社交评级系统相关的数据也可能具有优势,这些系统选择了最佳的内容,并将其从质量较差的内容中分离出来,只要这些数据被贴上合理一致的本体论标签,就可以从混乱中得到一些秩序。
在最初的西部荒野阶段,人工智能公司利用了他们可以合法或非法访问的一切来训练他们的算法,随后进入的第二阶段引发了各种投诉。突然之间,艺术家、作家、喜剧演员或图像库Getty Images等人注意到出现了与他们自己作品非常相似的材料,而且上面往往带有其水印的降级版本,于是开始对这些公司提起诉讼,让它们重新思考自己商业模式的可行性。这又是关于版权的攻击:我们有能力创造出具有令人印象深刻的能力的智能,但用于训练它们的内容的所有者想要他们的分成。
对于每一个新算法,核心问题都会再次出现:谁的数据被用来训练它?与此同时,算法开发公司认为,任何人都可以走进博物馆,受到特定画家的艺术启发,如果他们的技能允许,就可以创建类似的作品,而不必支付任何费用。但与通过自动程序侵入网页并获取数千条信息的事实相比,这个论点充其量是站不住脚的;这让我们想到了当下:为了避免法律诉讼,越来越多开发生成算法的公司正在与任何可能拥有有用数据的公司达成交易。
为了用于训练算法,这些数据应该满足什么标准?
- 数量:很明显,要发挥作用,数据收集必须相当大。如果满足其他变量,规模越大,价值越高。如果我们还在谈论实时数据源,即持续不断更新的数据源,其价值将高于存档数据。
- 质量:数据存储库中充满了减损其价值的信息,无论是极端或不良内容,还是由于其他因素(写得不好、拼写错误或概念错误)导致的低质量,都没有什么用处,因为它需要手动清理。另一方面,内容的质量可以来自其来源的权威,也可以来自于存在社交评分系统,该系统允许根据内容的质量对内容进行过滤,尽管有一定的限制。这个例子很明显:Quora的数据当然非常有价值,但来自Yahoo!等服务的数据也会非常有价值吗?答案有价值吗?很可能不会。
- 标记:允许有序或系统地访问内容的一致标记系统的存在是其训练算法价值的基础。同样,如果这些系统不存在,则需要手动或通过关键字提取来完成,这使得它们的使用成本更高。
- 主题:有些领域可能比其他领域更有趣。
- 一致性:一致的数据收集,即遵循合理的、尤其是可知的同质性标准的数据收集,比变量分布存在显著差异的数据收集更有价值。
- 正态性:一般来说,生成的向量更接近正态分布的数据存储库可能比那些由于某种原因而严重偏斜的数据存储库更有价值。
- 许可证:许可证的类型是否会影响数据的价值?也许不会,因为除了许可进入公共领域的数据可以自由使用之外,即使是限制性最小的许可,如归属,也会被算法系统地违反,这些算法在整个训练过程中经历了无数转换,并且失去了它们使用的数据的可追溯性,因此它们执行允许遵守许可条件的归因的能力至少可以说是值得怀疑的。
谁拥有这些数据存储库?用它们来训练算法的可能性有什么价值?数据是21世纪的数字黄金吗?
感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/
原文作者:Enrique Dans
翻译作者:文玲
美工编辑:过儿
校对审稿:Jason
原文链接:https://medium.com/enrique-dans/how-much-is-data-worth-in-the-age-of-generative-ai-1c9df1f7fe2c