0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用Firebase AI Logic生成图像模型的两种新功能

谷歌开发者 来源:谷歌开发者 2025-11-30 09:28 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者 / 高级开发者关系工程师 Thomas Ezan 和开发者关系工程师 Mozart Louis

为您的应用添加自定义图像,能够显著改善和个性化用户体验,有效提高用户参与度。本文将探讨使用 Firebase AI Logic 生成图像的两种新功能: 其一是 Imagen 专属编辑功能预览版;其二是 Gemini 2.5 Flash Image (又名 Nano Banana) 正式版,后者的专长就是在情境或对话中生成图像。

借助 Firebase AI Logic 生成图像以提高用户参与度

图像生成模型可用于创建自定义用户个人资料头像,或将个性化视觉素材直接集成到应用关键流程中。

例如,Imagen 提供了尚处于开发者预览版的全新编辑功能。现在,您可以绘制遮罩并利用图像内绘制 (inpainting) 在遮罩区域内生成像素。此外,还提供了图像扩展 (outpainting) 功能,可用于生成遮罩区域外的像素。

另一方面,Gemini 2.5 Flash Image (又名 Nano Banana) 可以使用 Gemini 模型渊博的世界知识和推理能力来生成与上下文相关的图像,这非常适合用于创建与用户当前应用内体验契合的动态插图。

△ 使用 Gemini 2.5 Flash Image 创建与您的应用上下文相关的动态插图

最后,借助对话和迭代编辑图像的功能,用户可以使用自然语言编辑图像。

在着手将 AI 集成到您的应用中时,了解 AI 安全性非常重要。尤其关键的是,您需要评估应用的安全风险、斟酌调整以降低安全风险、执行适合您用例的安全测试,以及征求用户反馈并监控内容。

Imagen 或 Gemini 任您选择

Gemini 2.5 Flash Image (Nano Banana) 和 Imagen 之间的区别在于各自独特的侧重点和高级功能。Gemini 2.5 Flash Image 作为广泛的 Gemini 系列中的图像模型,擅长对话式图像编辑,能在多次迭代中保持上下文和主体一致性,并利用 "世界知识和推理" 来创建与上下文相关的视觉内容,或在长文本序列中嵌入准确的视觉内容。

Imagen 是 Google 的专业图像生成模型,专为更好地发挥创意和掌控作品而设计,擅长于高度真实的输出、艺术细节、特定风格,并提供明确的控制选项,来指定生成图像的宽高比或格式。

Gemini 2.5 Flash Image
(Nano Banana )
Imagen
具备世界知识和推理能力,生成与上下文更相关的图像
在保持与上下文关联性的同时,通过对话编辑图像
在长文本序列中嵌入准确的视觉内容
指定生成图像的宽高比或格式
支持基于遮罩的编辑,实现图像内绘制和图像扩展
更好地控制生成图像的细节 (质量、艺术细节和特定风格)

一起来了解如何在您的应用中使用上述功能。

使用 Imagen 进行图像内绘制

几个月前,我们发布了 Imagen 新的编辑功能。虽然 Imagen 的图像生成功能已可正式用于生产环境,但编辑功能仍处于开发者预览版阶段。

Imagen 编辑功能包括图像内绘制和图像扩展,二者均为基于遮罩的图像编辑功能。这项新功能允许用户修改图像的特定区域,而无需重新生成整个图像。这意味着您可以保留图像中您最满意的部分,只更改您想要调整的内容。

做出这些更改时,原始图像的核心元素和图像整体完整性不受影响,您可以仅调整遮罩区域。

要使用 Imagen 的图像内绘制功能,请先初始化 imagen-3.0-capability-001,这是支持编辑功能的特定 Imagen 模型:

// Copyright2025Google LLC.
// SPDX-License-Identifier: Apache-2.0
val editingModel =
    Firebase.ai(backend = GenerativeBackend.vertexAI()).imagenModel(
     "imagen-3.0-capability-001",
      generationConfig =ImagenGenerationConfig(
        numberOfImages =1,
        aspectRatio = ImagenAspectRatio.SQUARE_1x1,
        imageFormat = ImagenImageFormat.jpeg(compressionQuality =75),
      ),
    )

然后,定义图像内绘制函数:

// Copyright 2025 Google LLC.
// SPDX-License-Identifier: Apache-2.0
valprompt ="remove the pancakes and make it an omelet instead"
suspendfuninpaintImageWithMask(sourceImage:Bitmap, maskImage:Bitmap, prompt:String, editSteps:Int=50): Bitmap {
   valimageResponse = editingModel.editImage(
      referenceImages = listOf(
        ImagenRawImage(sourceImage.toImagenInlineImage()),
        ImagenRawMask(maskImage.toImagenInlineImage()),
      ),
      prompt = prompt,
      config = ImagenEditingConfig(
        editMode = ImagenEditMode.INPAINT_INSERTION,
        editSteps = editSteps,
      ),
    )
   returnimageResponse.images.first().asBitmap()
  }

您需要提供一张原始图像、一张遮罩图像、用于编辑的提示词以及需要执行的编辑步骤数量。

您可以在 Android AI 示例库的 Imagen Editing Sample 中,查看其实际运行效果!

Imagen 还支持图像扩展,该功能使您能让模型在遮罩外的区域生成像素。您还可以使用 Imagen 的图像自定义功能来更改图像风格或更新图像中的一个主体。有关详细信息,请参阅 Android 开发者文档。

使用 Gemini 2.5 Flash Image 通过对话生成图像

要使用 Gemini 2.5 Flash Image 编辑图像,一种方法是通过该模型的多轮聊天功能进行编辑。

首先,初始化模型:

// Copyright 2025 Google LLC.
// SPDX-License-Identifier: Apache-2.0
valmodel=Firebase.ai(backend = GenerativeBackend.googleAI()).generativeModel(
  modelName ="gemini-2.5-flash-image",
 // Configure the model to respond with text and images (required)
  generationConfig = generationConfig {
    responseModalities = listOf(ResponseModality.TEXT,
    ResponseModality.IMAGE)
  }
)

为了实现与上述基于遮罩的 Imagen 方法类似的结果,我们可以利用chatAPI,启动与 Gemini 2.5 Flash Image 的对话。

// Copyright 2025 Google LLC.
// SPDX-License-Identifier: Apache-2.0
// Initialize the chat
valchat=model.startChat()
// Load a bitmap
valsource=ImageDecoder.createSource(context.contentResolver, uri)
valbitmap=ImageDecoder.decodeBitmap(source)
// Create the initial prompt instructing the model to edit the image
valprompt=content {
  image(bitmap)
  text("remove the pancakes and add an omelet")
}
// To generate an initial response, send a user message with the image and text prompt
varresponse=chat.sendMessage(prompt)
// Inspect the returned image
vargeneratedImageAsBitmap=response
  .candidates.first().content.parts.filterIsInstance().firstOrNull()?.image
// Follow up requests do not need to specify the image again
response = chat.sendMessage("Now, center the omelet in the pan")
generatedImageAsBitmap = response  .candidates.first().content.parts.filterIsInstance().firstOrNull()?.image

您可以在 Android AI 示例库的 Gemini Image Chat Sample 查看该功能的实际运作,也可参阅 Android 技术文档以了解更多相关信息。

结论

Imagen 和 Gemini 2.5 Flash Image 都提供了强大的功能,允许您根据具体用例选择理想的图像生成模型,从而让您的应用更加个性化,并提高用户参与度。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Gemini
    +关注

    关注

    0

    文章

    73

    浏览量

    8105
  • AI
    AI
    +关注

    关注

    89

    文章

    38083

    浏览量

    296310
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51692

原文标题:一文详解 | 从了解到集成,轻松为您的应用选择理想的图像生成模型

文章出处:【微信号:Google_Developers,微信公众号:谷歌开发者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    基于扩散模型图像生成过程

    近年来,扩散模型在文本到图像生成方面取得了巨大的成功,实现了更高图像生成质量,提高了推理性能,也可以激发扩展创作灵感。 不过仅凭文本来控制
    的头像 发表于 07-17 11:00 4071次阅读
    基于扩散<b class='flag-5'>模型</b>的<b class='flag-5'>图像</b><b class='flag-5'>生成</b>过程

    【Sipeed MaixCAM Pro开发板试用体验】基于MaixCAM-Pro的AI生成图像鉴别系统

    能够有效捕捉AI生成图像与真实手绘扫描图像在纹理、笔触、光影、全局一致性等方面的细微差异。 边缘端部署:将模型量化、编译,最终高效运行在算力
    发表于 08-21 13:59

    机器人运动控制的两种模型

    以六自由度模块化机器人为对象,利用D-H坐标变换方法进行运动学分析,计算出各杆之间的齐次坐标变换矩阵,建立求解机器人逆运动学问题的两种模型。并根据两种模型应用vc++
    发表于 08-05 11:34 14次下载

    机器人运动控制的两种模型

    以六自由度模块化机器人为对象,利用D-H坐标变换方法进行运动学分析,计算出各杆之间的齐次坐标变换矩阵,建立求解机器人逆运动学问题的两种模型。并根据两种模型应用vc++程
    发表于 07-20 15:33 24次下载

    两种空间矢量脉宽调制生成方法的分析与比较

    两种空间矢量脉宽调制生成方法的分析与比较
    发表于 03-30 18:24 11次下载

    iOS10.3beta3推送 修复bug增加两种新功能

    今天凌晨苹果正式向开发者推送了iOS 10.3 beta 3的开发者预览版固件。本次更新仍然主要以bug修复和性能提升为主,另外还加入了新的功能:应用兼容性、查找AirPods两种新功能,同时也调整了关于APP store的一些
    发表于 02-22 08:41 1617次阅读

    基于改进的DCGAN生成SAR图像的方法

    针对SAR图像识别软件,通过改进 DCGAN模型生成器与单判别器对抗的结构,采用多生成器与单判别器进行对抗,设计了控制各生成
    发表于 04-23 11:01 21次下载
    一<b class='flag-5'>种</b>基于改进的DCGAN<b class='flag-5'>生成</b>SAR<b class='flag-5'>图像</b>的方法

    基于生成式对抗网络的图像补全方法

    图像补全是数字图像处理领域的重要研究方向,具有广阔的应用前景。提出了一基于生成式对抗网络(GAN)的图像补全方法。
    发表于 05-19 14:38 14次下载

    Stability AI开源图像生成模型Stable Diffusion

    Stable Diffusion 的很多用户已经公开发布了生成图像的样例,Stability AI 的首席开发者 Katherine Crowson 在推特上分享了许多图像。基于
    的头像 发表于 09-21 15:37 3600次阅读

    Stability AI试图通过新的图像生成人工智能模型保持领先地位

    Stability AI的最新图像生成模型Stable Cascade承诺比其业界领先的前身Stable Diffusion更快、更强大,而Stable Diffusion是许多其他文
    的头像 发表于 02-19 16:03 1608次阅读
    Stability <b class='flag-5'>AI</b>试图通过新的<b class='flag-5'>图像</b><b class='flag-5'>生成</b>人工智能<b class='flag-5'>模型</b>保持领先地位

    谷歌计划重新推出改进后的Gemini AI模型人像生成功能

    谷歌DeepMind的首席执行官德米斯·哈萨比斯在2月26日透露,公司计划在接下来的几周内重新发布其备受关注的Gemini AI模型人像生成功能。此前,由于在某些历史图像
    的头像 发表于 02-28 10:17 1077次阅读

    快手自研文生图大模型“可图”开放,支持AI图像创作及定制

    5月30日最新动态,快手于近日向公众推出其自主研发的文生图大模型命名为“可图”。该模型具备文生图及图生图两种功能,适用于AI
    的头像 发表于 05-31 10:32 1291次阅读

    如何用C++创建简单的生成AI模型

    生成AI(Generative AI)是一人工智能技术,它通过机器学习模型和深度学习技术,从大量历史数据中学习对象的特征和规律,从而能够
    的头像 发表于 07-05 17:53 2514次阅读

    Google款先进生成AI模型登陆Vertex AI平台

    新的 AI 模型,包括最先进的视频生成模型Veo以及最高品质的图像生成
    的头像 发表于 12-30 09:56 975次阅读

    借助谷歌Gemini和Imagen模型生成高质量图像

    在快速发展的生成AI 领域,结合不同模型的优势可以带来显著的成果。通过利用谷歌的 Gemini 模型来制作详细且富有创意的提示,然后使用 Imagen 3
    的头像 发表于 01-03 10:38 1332次阅读
    借助谷歌Gemini和Imagen<b class='flag-5'>模型</b><b class='flag-5'>生成</b>高质量<b class='flag-5'>图像</b>