谷歌发布的Gemini 1.5,具有1M上下文窗口

谷歌发布的Gemini 1.5,具有1M上下文窗口

Google的人工智能团队一直承受着巨大压力,要跟上OpenAI开创性的GPT-4语言模型的步伐。如果你想了解更多关于人工智能的相关内容,可以阅读以下这些文章:
2024年每个开发人员都需要掌握的生成式人工智能技能
Google的Gemini AI模型:揭开人工智能的未来
世界上最好的人工智能模型:谷歌DeepMind的Gemini已经超过了GPT-4!
我尝试了50种人工智能工具,以下是我的最爱

谷歌一直在试用最近推出的Gemini,甚至升级到每月20美元的Gemini高级版——到目前为止,体验非常糟糕。

近期,Google发布了一个重磅消息——Gemini 1.5——他们旗舰语言模型的一个显著改进版本。

Gemini 1.5提供了主要增强功能,旨在解决初始版本的缺陷:

  1. 1,000,000个代币上下文窗口:这目前是任何大规模基础模型中最大的上下文窗口。OpenAI的GPT-4有一个128K的上下文窗口。
  2. 响应更快:Google采用了可能驱动GPT-4的专家混合MoE架构。这使得模型能够将提示分解为子任务,并将它们路由到专门的“专家”,从而显著提高了效率和性能。
  3. 快速信息检索:新模型展示了显着改进的能力,可以在庞大的文本、视频或音频数据中准确定位特定细节。
  4. 更擅长编码:大型上下文窗口可以对整个代码库进行深度分析,帮助Gemini模型掌握复杂的关系、模式和对代码的理解。

也许最令人震惊的是上下文窗口大小的升级。虽然大多数当前的大型语言模型(LLMs)最多只能处理128,000个左右的代币,但Gemini 1.5 Pro的实验版本可以处理惊人的100万个代币。

图片来源于Google

这种能力转化为:

  • 1小时视频
  • 11小时音频
  • 超过30K行代码
  • 超过70万字

这绝对是一个游戏规则的改变者——想象一下,给LLM提供一个完整的电影剧本,数千行复杂的代码,或者一本厚书。它提供了足够的上下文去分析细微的互动,追踪角色发展或大规模查找代码错误。

图片来源于Google

把它看作是让一个聊天机器人分析30秒对话与深入剖析《指环王》三部曲中角色动机之间的区别。

开发者们,欢呼吧!

作为一名开发人员,最令人印象深刻的功能可能是能够上传整个代码仓库,并要求Gemini在几分钟内构建整个模块。这多酷啊!

除了带来最新的模式创新,谷歌还让你可以更轻松地使用Gemini进行构建。

  • 易于调整:将有一组示例,你可以在几分钟内从Google AI Studio中根据你的特定需求自定义Gemini。
  • 新的开发者界面:集成Gemini API,通过新的Firebase Extensions、Project IDX中的开发工作区或我们新发布的Google AI Dart SDK构建新的AI驱动功能。
  • 更便宜的Gemini 1.0 Pro:与之前宣布的相比,今天的稳定版文本输入和输出的价格分别降低了50%和25%。AI Studio 即将推出的即用即付计划即将推出。

谷歌的白皮书展示了Gemini 1.5令人印象深刻的真实用例:

在下面的例子中,他们输入了一部长达45分钟的巴斯特·基顿电影《小神探夏洛克》(1924年)(1FPS下的2,674帧,684k代币)。Gemini 1.5 Pro从特定帧中检索并提取文本信息,并提供相应的时间戳。

图片来源于Google

另一个例子是,在《悲惨世界》全文作为提示输入时,Gemini 1.5 Pro通过一幅手绘草图识别并定位了一场著名的场景。

图片来源于Google

谷歌还展示了Gemini Pro 1.5处理100,000行代码和一系列多模式提示的能力。

图片来源于Google

如果他们真的能成功实现这一点,这将是一场疯狂的变革!

从理论上讲,Gemini 1.5绝对值得升级。

然而,谷歌最近在人工智能产品推出方面的记录引起了人们的担忧。

  • 谷歌首次推出的Bard就失败了。
  • Gemini的“发布”视频本质上是一个营销剪辑,未展示真实的产品,遭到了很多人的严厉批评。
  • Gemini Ultra本应该非常出色,甚至比GPT-4更好,但我的初步测试证明它仍远远不及GPT-4。

我们应该为在之前的版本失败后仅仅几周就宣布的雄心勃勃的升级而兴奋吗?可以理解的是,这种模式反映的是匆忙发布还是公司内部为跟上步伐而进行的斗争。

目前,我对谷歌发布的任何不是即时可测试的输入表单的东西都持怀疑态度。

Gemini 1.5 Pro在性能上应该与Gemini Ultra不相上下。

从今天开始,开发人员和企业客户可以通过AI Studio和Vertex AI访问1.5 Pro的有限预览。

如果你像我一样对这个名字感到困惑,这里有一个总结:

图片来源Jim Clyde Monge

谷歌让我感到惊讶。上下文窗口的大小——如果它真的像宣传的那样工作的话——是非常具有开创性的。

虽然仍然需要现实世界的基准测试,但不可否认的是,谷歌又回到了游戏中,并嗅到了血腥味。OpenAI面临着再次提高标准的压力。

目前还没有消息表明Gemini Pro将于何时向消费者发布。Gemini Ultra 1.5已经在准备中,而且它的功能似乎会非常强大,1.5 Pro已经非常非常强大了。

感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Jim Clyde Monge
翻译作者:文杰
美工编辑:过儿
校对审稿:Jason
原文链接:https://generativeai.pub/google-releases-gemini-1-5-with-1m-context-window-44ed4a2ea319