
2025年十大数据和人工智能趋势
业内专家认为,2024年是生成式人工智能的丰收之年。应用场景逐渐浮现,技术门槛不断降低,通用人工智能似乎近在咫尺。
那么,这些预言实现了吗?
可以说部分实现了,到2024年底,有些预测已成为热点,而其他一些则需要更多时间去验证(比如通用人工智能的实现)。
以下是未来学家和投资者 Tomasz Tunguz 对2024年底数据与人工智能现状的总结,同时加入了我自己对2025年的一些预测。如果你想了解更多关于人工智能的相关内容,可以阅读以下这些文章:
如何在2024年构建人工智能软件
Meta的FAIR团队:为全球免费开放人工智能
人工智能产品经理的崛起
Google的2024年人工智能设计原则:以用户为中心的人工智能体验
2025年数据工程趋势
1. 我们生活在一个缺乏理性的世界中(Tomasz)
进入人工智能“反乌托邦”仅仅三年,我们已经看到企业在一些领域创造了价值,但并非所有领域都如预期。Tomasz将当前人工智能的应用分为三类:
- 预测型:例如,能够补全句子、纠正代码的人工智能副驾驶。
- 搜索型:通过语料库回答问题的工具。
- 推理型:能够完成复杂任务的多步骤工作流。
尽管人工智能副驾驶和搜索功能在企业中取得了一定成功(尤其是前者),推理模型的进展却不尽如人意。原因何在?
模型准确性不足。
Tomasz指出,当前模型难以有效将任务分解成步骤,除非它们以前多次见过类似任务。而大多数现实工作场景并非如此。
“目前,如果让一个大型语言模型制作 FP&A 图表,它可以做到。但如果存在某些变化,比如从软件计费切换到基于使用的计费,它就会出错。”
因此,就目前而言,人工智能副驾驶和部分准确的搜索结果占据了上风。
2. 工艺胜于工具(Barr)
新工具的效能在很大程度上取决于支撑它们的流程。
随着“现代数据技术栈”不断演进,数据团队往往陷入一种无止境的工具试验中。他们过于关注技术平台的“是什么”,却忽视了操作的“如何”(更为关键)。
在迈向生产级人工智能的过程中,企业必须搞清楚如何有效运作这些工具。
以数据质量为例:随着人工智能的崛起,数据质量的重要性也空前提高。面对实现生产级人工智能的紧迫性,企业数据负责人已经没有时间从数据质量工具中逐一试验——他们需要的是能够立即部署、产生价值的解决方案。
现实是,即便你拥有市场上最先进的数据质量平台——无论是自动化能力、一流的辅助功能,还是出色的集成性能——如果无法快速推动组织运转,这一切不过是预算中的一项支出和桌面上的一个新图标。
在接下来的12个月内,数据团队更倾向于采用经过验证的端到端解决方案,而不是拼凑各种工具。优先解决数据质量所有权、事件管理和长期领域支持等关键问题的方案将在人工智能领域中脱颖而出。
3. 人工智能推动了投资回报率,但未直接带来收入(Tomasz)
像任何数据产品一样,生成式人工智能的价值体现为两种形式:降低成本或增加收入。
在收入方面,可以通过人工智能 SDR(销售开发代表)、推荐系统等工具增加销售机会。然而,Tomasz认为,这些工具虽然能带来大量销售线索,但却未能转化为健康的收入渠道。因此,当无法直接增加收入时,人工智能必须通过削减成本来证明价值——在这方面,它确实取得了一些突破。
“很少有企业通过人工智能直接关闭交易。更多的是通过降低成本实现效益。例如,Klarna 裁员三分之二,微软和 ServiceNow 的工程生产力提升了50%-75%。”
Tomasz指出,只要满足以下三个条件之一,人工智能用例就有望降低成本:
- 重复性工作
- 劳动力市场紧张
- 招聘需求迫切
一个成功推动收入的案例是 EvenUp,这是一家专注于诉讼法律服务的公司,可自动生成索赔信件。像 EvenUp 这样提供模板化但高度专业化服务的企业,可能在当前的人工智能生态中获得显著优势。
4. 人工智能的采用速度低于预期,但领导者在等待时机(Tomasz)
与一年前“人工智能战略”浪潮高涨形成鲜明对比的是,现在的领导者似乎对这项技术态度趋于冷静。
“去年,有一股热潮,企业纷纷尝试各种人工智能软件,只为看看它是否有用。董事会频频询问企业的人工智能战略。但如今,早期浪潮已经带来了大量的混乱。”
一些组织未能从早期实验中看到价值,而另一些则因底层技术的快速发展而措手不及。Tomasz指出,这正是投资人工智能公司面临的最大挑战之一。这并不是说人工智能技术没有潜在价值,而是企业尚未弄清楚如何在实践中高效应用它。
Tomasz认为,下一波人工智能的采用将有所不同,因为领导者已经明确了需求,并且知道从哪里找到所需的解决方案。就像一场大型演出的彩排,团队已经解决了法律和采购中的部分难题(例如数据泄露和预防问题),当机会来临时,他们会更加准备充分。
未来的最大挑战是什么?Tomasz总结道:“如何更快地发现价值并将其转化为收益?”
5. 小型模型是人工智能的未来(Tomasz)
开源与托管的争论由来已久,而在人工智能领域,这一话题变得更加复杂。
在企业层面,这不仅仅是控制权或互操作性的问题,还涉及到运营成本。Tomasz预测,虽然大规模的B2C公司将更多依赖现成的人工智能模型,但B2B公司将倾向于专属的、基于开源的小型模型。
“在B2B领域,你会看到更小、更开源的模型。因为运行小型开源模型的成本低得多。”
这不仅仅是成本问题,还涉及性能优化。大规模模型(如Google模型)被设计用于处理各种用例,因而需要在庞大的数据集上进行训练。然而,随着训练主题的增多,这些模型的错误率也可能上升。
Tomasz指出:“你可以用1万个支持工单对像Llama 2这样拥有80亿参数的小型模型进行微调,它的表现可能会好得多。”
此外,托管解决方案(如ChatGPT)经常面临法律问题,因为其训练所用的数据可能存在版权争议。对于高度监管的行业,这可能会对专有模型的长期采用产生深远影响。
然而,托管模型也在通过价格战努力保持竞争力。例如,像ChatGPT这样的模型价格已经下降了约50%,并计划在未来6个月内再下降50%。对于希望在人工智能竞争中争得一席之地的B2C公司来说,这无疑是一个利好消息。
6. 分析师和数据工程师的界限正在模糊(Barr)
在扩展数据管道的过程中,数据团队面临两大挑战:缺乏足够技术经验的分析师和时间有限的数据工程师。
这个问题听起来像是人工智能的用武之地。
展望2025年,我认为有两个主要趋势会推动数据工程和分析职责的融合:
- 需求增加:随着商业领导者对数据和人工智能产品的需求持续增长,数据团队将需要以更少的资源完成更多的任务。为了减少瓶颈,领导者将逐步授权传统专属团队承担更多职责,包括管道管理和利益相关方支持。
- 自动化的改进:新需求往往会推动新技术的诞生,而人工智能支持的管道便是一个很好的例子。随着技术更加自动化,数据工程师能够用更少的资源完成更多工作,而分析师则能在更大程度上实现自助服务。
- 理由很简单:需求增加推动管道自动化的发展,而自动化的发展又降低了创建和管理管道的障碍。技能差距缩小后,创造新价值的能力自然会提升。
从长远看,向自助式人工智能管道管理的转变意味着每个人在工作中最耗时、最复杂的部分将被自动化,而创造与展示新价值的能力会因此得到拓展。这无疑是一个令人期待的未来。
7. 合成数据很重要——但它有代价(Tomasz)
你可能见过“蛇吞尾巴”的图案,而当代人工智能正呈现出类似的趋势。
目前,互联网上大约有21-25万亿个数据标记(tokens)。如今生产中的人工智能模型几乎已经使用了所有这些数据。为了让数据继续推动人工智能发展,我们需要一个无限扩展的数据语料库,因为数据越多,模型的输出上下文就越丰富,结果也越精确。
那么,当训练数据枯竭时,研究人员该怎么办?答案是,他们开始自造数据。
随着训练数据的日益稀缺,OpenAI等公司认为合成数据将在未来的模型训练中扮演重要角色。过去两年中,许多公司已经着手服务于这一目标,例如Tonic(一家生成合成结构化数据的公司)和Gretel(一家专注于生成合规性数据的公司,服务于金融、医疗等受监管行业)。
但合成数据真的是长久之计吗?或许并不是。
合成数据通过人工生成的方式创建数据集,这些数据反映了某种假想下存在的真实数据,然后用这些合成数据训练模型。在小范围内,这种方法的确合理。然而,正如俗话所说,“好事过犹不及”。
你可以将这种现象类比为“情境性营养不良”。就像食物一样,真实的、有机的数据是模型训练中最有价值的营养来源,而从现有数据中提取并生成的合成数据,其本质上比不上原始数据的“营养价值”。一点人工数据调味无妨,但如果模型长期依赖合成数据而没有引入新的真实数据,其性能最终会下降。
Tomasz认为,尽管目前我们离模型性能下降还有一段距离,但随着研究者不断逼近模型的功能极限,人工智能可能会在未来某个时间点触及其发展平台。
8. 非结构化数据堆栈即将崛起(Barr)
利用非结构化数据并不是一个新概念,但在人工智能时代,非结构化数据正扮演一个全新的角色。
根据IDC的一份报告,目前全球仅有约50%的组织对其非结构化数据进行了分析。
然而,这种情况正在改变。
在生成式人工智能中,企业的成功很大程度上取决于其非结构化数据的训练、微调和增强能力。随着越来越多的公司将人工智能用于企业场景,对非结构化数据的需求正在激增,由此催生了一个新的领域:“非结构化数据堆栈”。
一些团队甚至开始探索利用额外的大语言模型(LLM)为非结构化数据赋予结构,从而提高其在训练和分析中的价值。
识别企业内部存在哪些非结构化数据,以及如何激活这些数据以为利益相关者创造价值,正在成为数据领导者的全新机会。这不仅能展示数据平台的商业价值,还可能为优先项目争取额外预算。
如果说2024年是探索非结构化数据潜力的一年,那么2025年将是实现其商业价值的一年。问题是,哪些工具会脱颖而出?
9. 人工智能适合对话,但难以部署(Tomasz)
最近,如果你在风险投资圈子里听得足够多,你会发现一些常用术语:“副驾驶”和“代理”。
- “副驾驶” 是指完成单一步骤任务的人工智能,例如纠正代码。
- “代理” 则是指多步骤工作流,能够收集信息并执行任务,例如撰写博客并将其发布到网站上。
2024年,我们已经见证了许多“副驾驶”式人工智能的成功(例如Github Copilot、Snowflake AI、微软Clippy等)。但人工智能代理呢?
尽管“人工智能”在客户支持领域掀起一场风暴,但代理的实际表现却远不如人意。当前,代理的准确率在75%-90%之间,相当于高中生水平。而在一个三步骤的工作流中,最终的成功率只有约50%。
“我们训练大象作画的准确率甚至比这更高。”
在现有性能水平下,若直接部署到生产环境,大多数人工智能代理不仅无法带来收入,还可能对组织造成负面影响。因此,我们需要优先解决准确率问题。
换句话说,目前人工智能在“展示”方面表现出色,但“实际部署”仍然差强人意。正如Tomasz总结的那样:“现在,人工智能代理更多是谈论的对象,而不是实际应用的工具。”
10. 数据管道的扩展未能跟上质量管理(Tomasz)
“在与一群人工智能负责人共进晚餐时,我问有多少人对他们数据输出的质量满意,没有人举手。显然,数据质量问题令人头疼。”
每年,Monte Carlo都会对数据专业人士进行调查,了解他们的数据质量现状。2024年的调查揭示了一个显而易见的趋势:尽管数据管道的数量和复杂性正在爆炸式增长,但数据质量管理的覆盖却远远落后。
Tomasz解释道:“我们看到团队大规模构建矢量数据库和嵌入模型。它们架构越来越复杂,甚至延伸到内容分发网络(CDN)层。然而,数据量反而大大减少,增加了管理难度。”
随着数据管道的增多和复杂性上升,数据质量问题只会愈发凸显。而这也是未来几年需要重点解决的挑战。
感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/。
原文作者:Barr Moses
翻译作者:过儿
美工编辑:过儿
校对审稿:Jason
原文链接:https://towardsdatascience.com/top-10-data-ai-trends-for-2025-4ed785cafe16