Gemini API集成Google图像生成模型Imagen 3-电子发烧友网

作者 / 产品经理 Ivan Solovyev

开发者现在可以通过 Gemini API 访问 Google 最先进的图像生成模型 Imagen 3。该模型最初仅对付费用户开放，不久后也将面向免费用户推出。

Imagen 3 擅长生成具有视觉吸引力、无伪影且风格多样的图像，从超现实主义图像到印象派风景，从抽象构图到动漫角色等应有尽有。改进后的提示遵循能力使其能够轻松地将绝佳创意转化为高质量图像。总体而言，Imagen 3 在各种基准测试中展现出了最先进的性能。通过 Gemini API 使用 Imagen 3 的价格为每张图像 0.03 美元，并且用户可以控制宽高比、生成选项数量等更多参数。

为了帮助遏制错误信息和错误归因，所有由 Imagen 3 生成的图像都包含一个不可见的数字SynthID水印，用于识别它们为 AI 生成的图像。

了解 Imagen 3 的实际效果

下方图库展示了Imagen 3在多种风格图像上的卓越表现。

开始使用 Gemini API 中的 Imagen 3

此 Python 代码段展示了如何使用 Gemini API 和 Imagen 3 生成图像。

fromgoogleimportgenai
fromgoogle.genaiimporttypes
fromPILimportImage
fromioimportBytesIO


client = genai.Client(api_key='GEMINI_API_KEY')


response = client.models.generate_images(
  model='imagen-3.0-generate-002',
  prompt='a portrait of a sheepadoodle wearing cape',
  config=types.GenerateImagesConfig(
    number_of_images=1,
  )
)
forgenerated_imageinresponse.generated_images:
 image = Image.open(BytesIO(generated_image.image.image_bytes))
 image.show()

图像已生成

您可以在 Gemini API 开发者文档中探索更多关于提示技巧和图像风格的内容，有关评分、方法论及性能提升的更多详情，请参阅我们更新后的技术报告附录 D。

我们非常高兴能够迈出第一步，将我们的生成式媒体模型扩展至 Gemini API。我们还计划在不久的将来推出更多模型，以便开发者能够将生成式媒体与语言模型结合起来使用。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉