Gemini 2.5; Nano Banana

¿Qué puede hacer Gemini con imágenes?

Gemini entiende texto, imágenes o ambos y trabaja de forma conversacional para crear y refinar visuales con control fino:

Text-to-Image: genera imágenes a partir de descripciones simples o complejas.
Edición (imagen + texto): agrega, quita o modifica elementos; cambia estilos y colorimetría.
Composición / transferencia de estilo: combina varias imágenes o transfiere un estilo a otra.
Refinamiento iterativo: conversa e itera hasta “clavar” el resultado.
Texto de alta fidelidad en imagen: ideal para logotipos, pósters y diagramas.
Marca de agua SynthID: todas las imágenes generadas incluyen marca de agua.

Empezar en Python (Text-to-Image)

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

client = genai.Client()

prompt = "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[prompt],
)

for part in response.candidates[0].content.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = Image.open(BytesIO(part.inline_data.data))
        image.save("generated_image.png")

Edición con imagen + texto

Tip legal: sube solo imágenes sobre las que tengas derechos de uso.

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

client = genai.Client()

prompt = (
    "Create a picture of my cat eating a nano-banana in a "
    "fancy restaurant under the Gemini constellation"
)

image = Image.open("/path/to/cat_image.png")

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[prompt, image],
)

for part in response.candidates[0].content.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        img = Image.open(BytesIO(part.inline_data.data))
        img.save("generated_image.png")

Otros modos útiles

Intercalado (texto ↔ imágenes): “Genera una receta ilustrada para hacer paella.”
Pregunta + actualización: sube foto de una sala y pide: “¿Qué colores de sofá quedan? Actualiza la imagen.”
Chat multivuelta: “Convierte este auto en convertible… ahora ponlo amarillo”.

Plantillas de prompts que funcionan

1) Fotorrealismo (usa lenguaje fotográfico)

Un retrato fotorrealista en primer plano de [sujeto], en [entorno], con iluminación [tipo] que crea un ambiente [mood]. Lente [detalles]. Formato [relación de aspecto].

2) Ilustraciones / stickers (pide fondo transparente)

Sticker [estilo] de [sujeto] con [características] y paleta [colores]. Línea [tipo] y sombreado [tipo]. Fondo transparente.

3) Texto en imagen (tipografía + maquetación)

Crea un [tipo de pieza] para [marca] con el texto “[texto]” en estilo [tipografía]. Diseño [descripción] y esquema de color [paleta].

4) Fotografía de producto (e-commerce)

Foto de producto de alta resolución de [producto] sobre [fondo]. Iluminación [setup] para [propósito]. Ángulo [tipo] para destacar [atributo]. Formato [relación].

5) Minimalista con espacio negativo (fondos para marketing)

Composición minimalista con un solo [sujeto] en [posición]. Fondo [color] con gran espacio negativo. Luz suave. Formato [relación].

6) Panel de cómic / storyboard

Un panel de cómic estilo [arte]. En primer plano [personaje + acción]; fondo [escena]. Globos de texto: “[diálogo]”. Iluminación que crea [mood].

Edición avanzada

Agregar/quitar elementos:
Con la imagen de mi sala, agrega una lámpara de pie moderna a la izquierda; respeta iluminación y perspectiva.
Enmascaramiento semántico (reconstrucción):
Cambia solo el sofá azul por un Chesterfield café; deja lo demás igual.
Transferencia de estilo:
Transforma esta foto de calle nocturna al estilo cyberpunk: neones magenta/cian, reflejos en el pavimento mojado.
Composición multiimagen:
Combina el producto de la imagen 1 sobre el escenario de la imagen 2; resultado: foto de catálogo con luz de estudio.
Conserva detalles críticos:
Superpone el logotipo GA en la taza sin modificar textura ni reflejos de la cerámica; integra a escala real.

Buenas prácticas de prompting

Sé hiperespecífico (materiales, texturas, clima, hora, cámara).
Da contexto e intención (p. ej., “para un anuncio display 1080×1080”).
Itera en pasos cortos (“sube un 15% la calidez de la luz”).
Estructura por fases (fondo → sujeto → props → color grading).
Usa negativas semánticas (“calle vacía y silenciosa” en vez de “sin autos”).
Controla la cámara (wide, macro, low angle, depth of field).

Limitaciones y notas

Idiomas recomendados: EN, es-MX, ja-JP, zh-CN, hi-IN.
Entrada solo texto e imágenes (no audio/video).
Mejor con ≤ 3 imágenes de entrada.
Para texto en imagen, genera el texto primero y luego la imagen.
Restricciones regionales para subir imágenes de menores (EEE, Suiza, Reino Unido).
SynthID: todas las imágenes incluyen marca de agua.

¿Gemini o Imagen? (cuándo usar cada uno)

Atributo	Imagen	Gemini (nativo)
Ventaja clave	Máxima calidad fotorrealista, mejor ortografía y tipografía.	Flexibilidad conversacional; edición multi-turnos sin máscaras.
Disponibilidad	GA	Vista previa (usable en producción).
Latencia	Baja (rápido).	Mayor (más procesamiento).
Costo	USD 0.02–0.12 por imagen.	USD 30 / 1M tokens salida (≈ 1,290 tokens por imagen hasta 1024×1024).
Úsalo si	Prioridad: detalle, realismo, tipografías exigentes.	Prioridad: iterar, componer, editar con instrucciones naturales.

Regla práctica: empieza con Imagen 4 para fotorrealismo y logos; usa Gemini 2.5 Flash cuando necesites conversación + edición rápida y combinar entradas.

La generación de imágenes con Gemini te da velocidad, control y calidad para campañas, e-commerce, branding y contenidos sociales. Con prompts bien estructurados, podrás iterar, editar y lanzar creativos listos para rendimiento.

Ahora, ¡estas listo para probarlo!

Agencia de Desarrollo Digital

Generación de imágenes con Gemini “Nano Banana”: guía práctica para marketers y devs

Gemini 2.5; Nano Banana

¿Qué puede hacer Gemini con imágenes?

Empezar en Python (Text-to-Image)

Edición con imagen + texto

Otros modos útiles

Plantillas de prompts que funcionan

1) Fotorrealismo (usa lenguaje fotográfico)

2) Ilustraciones / stickers (pide fondo transparente)

3) Texto en imagen (tipografía + maquetación)

4) Fotografía de producto (e-commerce)

5) Minimalista con espacio negativo (fondos para marketing)

6) Panel de cómic / storyboard

Edición avanzada

Buenas prácticas de prompting

Limitaciones y notas

¿Gemini o Imagen? (cuándo usar cada uno)

Deja un comentario Cancelar respuesta

Generación de imágenes con Gemini “Nano Banana”: guía práctica para marketers y devs

Gemini 2.5; Nano Banana

¿Qué puede hacer Gemini con imágenes?

Empezar en Python (Text-to-Image)

Edición con imagen + texto

Otros modos útiles

Plantillas de prompts que funcionan

1) Fotorrealismo (usa lenguaje fotográfico)

2) Ilustraciones / stickers (pide fondo transparente)

3) Texto en imagen (tipografía + maquetación)

4) Fotografía de producto (e-commerce)

5) Minimalista con espacio negativo (fondos para marketing)

6) Panel de cómic / storyboard

Edición avanzada

Buenas prácticas de prompting

Limitaciones y notas

¿Gemini o Imagen? (cuándo usar cada uno)

Comparte esto:

Deja un comentario Cancelar respuesta