5 分钟内使用 Python 开始使用 Google Gemini Pro
Google Gemini Pro 是 Google 最新 AI 模型 Gemini 的一部分,Gemini 被宣布为迄今为止最强大、最通用的 AI 模型。这代表着谷歌人工智能开发向前迈出了重要一步,旨在处理广泛的任务,并在许多领先的基准测试中提供最先进的性能。Gemini Pro 以及 Gemini Ultra 和 Gemini Nano 的推出标志着 Google DeepMind 所谓的 Gemini 时代的开始,旨在通过利用 AI 的功能为世界各地的人们释放新的机遇。
继与三星合作将 Gemini Nano 和 Gemini Pro 整合到 Galaxy S24 智能手机系列之后,Gemini Pro 于 2024 年 1 月在全球推出。事实上,就在撰写本文时(2024 年 2 月 8 日),就在上周,他们的 ChatGPT 竞争对手助理应用程序 Bard 现已更名为 Gemini 。我们还看到通过 Google One 订阅服务的 AI Premium 层推出了“Gemini Advanced with Ultra 1.0”。
Gemini Pro 的关键功能之一是其 API,旨在让开发人员能够快速开发人工智能驱动的功能并将其集成到他们的应用程序中。该 API 支持多种编程语言,包括 Python,我们将在这里使用 Python 来向您展示如何开始免费使用 Gemini Pro 大型语言模型(截至 2024 年 2 月)!如果你想了解更多关于人工智能的相关内容,可以阅读以下这些文章:
2024年每个开发人员都需要掌握的生成式人工智能技能
Google的Gemini AI模型:揭开人工智能的未来
世界上最好的人工智能模型:谷歌DeepMind的Gemini已经超过了GPT-4!
我尝试了50种人工智能工具,以下是我的最爱
双子座必备品
谷歌的 Gemini 是一套人工智能模型,旨在处理各种任务,包括内容生成以及通过文本和图像输入解决问题。以下是您可以通过 API 轻松访问的不同 Gemini 模型的简要概述:
双子座 API 定价
在撰写本文的时刻(即 2024 年 2 月 13 日),Gemini Pro API 可以免费使用,但我的直觉告诉我,他们很快就会引入基于代币的定价,正如您在下面从他们的网站上截取的屏幕截图中看到的那样。
Gemini Pro 和 Python 入门
现在让我们开始使用 Gemini Pro API 和 Python 构建基本的 LLM 功能。我们将向您展示如何获取 API 密钥,然后在 Python 中使用相关的 Gemini LLM。
从 Google AI Studio 获取您的 API 密钥
Google AI Studio 是一款免费的基于网络的工具,可让您快速开发提示并获取用于应用开发的 API 密钥。您可以使用您的 Google 帐户登录 Google AI Studio,并从此处获取您的 API 密钥。
请记住将密钥保存在安全的地方,并且不要将其暴露在 GitHub 等公共平台上。
Google Gemini Pro 仍然无法在所有国家/地区访问,但预计很快就会推出,以防您还无法访问它,或者您可以使用 VPN。
使用 Gemini Pro API 和 Python 进行文本输入
要开始使用 Gemini Pro API,我们需要从 PyPI 或 GitHub安装google-generativeai包
pip install -q -U google-generativeai
现在,我已将 API 密钥保存在 YAML 文件中,以便可以加载它,并且不需要在任何地方公开公开代码中的密钥。我加载此文件并将 API 密钥加载到变量中,如下所示。
import yaml
with open('gemini_key.yml', 'r') as file:
api_creds = yaml.safe_load(file)
GOOGLE_API_KEY = api_creds['gemini_key']
下一步是通过 API 创建与 Gemini Pro 模型的连接,如下所示,您首先需要使用 API 设置配置,然后加载模型(或者更确切地说,创建与 Google 服务器上的模型的连接)。
import google.generativeai as genai
genai.configure(api_key=GOOGLE_API_KEY)
model = genai.GenerativeModel('gemini-pro')
我们现在准备开始使用 Gemini Pro!让我们完成获取一些信息的基本任务。
response = model.generate_content("Explain Generative AI with 3 bullet points")
to_markdown(response.text)
to_markdown (…)函数使文本输出看起来更漂亮,您可以从官方文档获取该函数或使用我的Colab 笔记本。
现在让我们尝试一个更实际的示例,假设您正在使用不同语言跨多个区域实现 IT 支持自动化。我们会让LLM尝试检测客户问题的源语言,将其翻译成英语,并以客户的原始语言回复。
it_support_queue = [
"I can't access my email. It keeps showing an error message. Please help.",
"Tengo problemas con la VPN. No puedo conectarme a la red de la empresa. ¿Pueden ayudarme, por favor?",
"Mon imprimante ne répond pas et n'imprime plus. J'ai besoin d'aide pour la réparer.",
"Eine wichtige Software stürzt ständig ab und beeinträchtigt meine Arbeit. Können Sie das Problem beheben?",
"我无法访问公司的网站。每次都显示错误信息。请帮忙解决。"
]
it_support_queue_msgs = f"""
"""
for i, msg in enumerate(it_support_queue):
it_support_queue_msgs += "\nMessage " + str(i+1) + ": " + msg
prompt = f"""
Act as a customer support agent. Remember to ask for relevant information based on the customer issue to solve the problem.
Don't deny them help without asking for relevant information. For each support message mentioned below
in triple backticks, create a response as a table with the following columns:
orig_msg: The original customer message
orig_lang: Detected language of the customer message e.g. Spanish
trans_msg: Translated customer message in English
response: Response to the customer in orig_lang
trans_response: Response to the customer in English
Messages:
'''{it_support_queue_msgs}'''
"""
现在我们已经准备好进入 LLM 的提示了,让我们执行它吧!
response = model.generate_content(prompt)
to_markdown(response.text)
很简约!我确信,有了更详细的信息或 RAG 系统,回复会更加相关和有用。
使用 Gemini Pro Vision API 和 Python 进行文本和图像输入
谷歌发布了 Gemini Pro Vision 多模式法学硕士,它可以将文本和图像作为输入,并返回文本作为输出。请记住,这仍然是仅输出文本的法学硕士。让我们通过一个简单的用例来使用它,即理解图片并从中创建一个短故事!
我们首先加载图像。
import PIL.Image
img = PIL.Image.open('cat_pc.jpg')
img
之后,我们加载 Gemini Pro Vision 模型并向其发送以下提示以获得响应。
odel = genai.GenerativeModel('gemini-pro-vision')
prompt = """
Describe the given picture first based on what you see.
Then create a short story based on your understanding of the picture.
Output should have both the description and the short story as two separate items
with relevant headings
"""
response = model.generate_content(contents=[prompt, img])
to_markdown(response.text)
总体来说还不错!虽然我大概见过GPT-4配合DALL-E可以识别游戏为《动物森友会》,这就更准确了。但我想说,相当不错。
你还可以使用 Gemini Pro 构建交互式聊天体验。这涉及向 API 发送消息并接收响应,支持多轮对话。请随意查看详细的 API 文档以获取一些示例!
结论
总之,无论您是经验丰富的 AI 开发人员还是刚刚起步,Google 的 Gemini Pro 和 Python 都提供了一种非常简单而强大的方法,可以将尖端 AI 融入您的应用程序和项目中。此外,目前免费提供的 Gemini Pro API 邀请您在无需初始投资的情况下探索 AI LLM 的功能。虽然预计未来的价格会发生变化,但有机会免费开始使用如此强大的工具进行构建真是太划算了!
希望您了解如何通过 Google AI Studio 获取 API 密钥,以便在很短的时间内使用 Gemini Pro API 执行您的第一个 Python 脚本。现在继续尝试在您自己的问题和项目中利用它!
感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/
原文作者:Dipanjan (DJ) Sarkar
翻译作者:诗彤
美工编辑:过儿
校对审稿:Jason
原文链接:https://pub.towardsai.net/get-started-with-google-gemini-pro-using-python-in-5-minutes-00700244f58a