Gemini 2.5; Nano Banana
¿Qué puede hacer Gemini con imágenes?
Gemini entiende texto, imágenes o ambos y trabaja de forma conversacional para crear y refinar visuales con control fino:
- Text-to-Image: genera imágenes a partir de descripciones simples o complejas.
- Edición (imagen + texto): agrega, quita o modifica elementos; cambia estilos y colorimetría.
- Composición / transferencia de estilo: combina varias imágenes o transfiere un estilo a otra.
- Refinamiento iterativo: conversa e itera hasta “clavar” el resultado.
- Texto de alta fidelidad en imagen: ideal para logotipos, pósters y diagramas.
- Marca de agua SynthID: todas las imágenes generadas incluyen marca de agua.
Empezar en Python (Text-to-Image)
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client()
prompt = "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[prompt],
)
for part in response.candidates[0].content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")
Edición con imagen + texto
Tip legal: sube solo imágenes sobre las que tengas derechos de uso.
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client()
prompt = (
"Create a picture of my cat eating a nano-banana in a "
"fancy restaurant under the Gemini constellation"
)
image = Image.open("/path/to/cat_image.png")
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[prompt, image],
)
for part in response.candidates[0].content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
img = Image.open(BytesIO(part.inline_data.data))
img.save("generated_image.png")
Otros modos útiles
- Intercalado (texto ↔ imágenes): “Genera una receta ilustrada para hacer paella.”
- Pregunta + actualización: sube foto de una sala y pide: “¿Qué colores de sofá quedan? Actualiza la imagen.”
- Chat multivuelta: “Convierte este auto en convertible… ahora ponlo amarillo”.
Plantillas de prompts que funcionan
1) Fotorrealismo (usa lenguaje fotográfico)
Un retrato fotorrealista en primer plano de [sujeto], en [entorno], con iluminación [tipo] que crea un ambiente [mood]. Lente [detalles]. Formato [relación de aspecto].
2) Ilustraciones / stickers (pide fondo transparente)
Sticker [estilo] de [sujeto] con [características] y paleta [colores]. Línea [tipo] y sombreado [tipo]. Fondo transparente.
3) Texto en imagen (tipografía + maquetación)
Crea un [tipo de pieza] para [marca] con el texto “[texto]” en estilo [tipografía]. Diseño [descripción] y esquema de color [paleta].
4) Fotografía de producto (e-commerce)
Foto de producto de alta resolución de [producto] sobre [fondo]. Iluminación [setup] para [propósito]. Ángulo [tipo] para destacar [atributo]. Formato [relación].
5) Minimalista con espacio negativo (fondos para marketing)
Composición minimalista con un solo [sujeto] en [posición]. Fondo [color] con gran espacio negativo. Luz suave. Formato [relación].
6) Panel de cómic / storyboard
Un panel de cómic estilo [arte]. En primer plano [personaje + acción]; fondo [escena]. Globos de texto: “[diálogo]”. Iluminación que crea [mood].
Edición avanzada
- Agregar/quitar elementos:
Con la imagen de mi sala, agrega una lámpara de pie moderna a la izquierda; respeta iluminación y perspectiva. - Enmascaramiento semántico (reconstrucción):
Cambia solo el sofá azul por un Chesterfield café; deja lo demás igual. - Transferencia de estilo:
Transforma esta foto de calle nocturna al estilo cyberpunk: neones magenta/cian, reflejos en el pavimento mojado. - Composición multiimagen:
Combina el producto de la imagen 1 sobre el escenario de la imagen 2; resultado: foto de catálogo con luz de estudio. - Conserva detalles críticos:
Superpone el logotipo GA en la taza sin modificar textura ni reflejos de la cerámica; integra a escala real.
Buenas prácticas de prompting
- Sé hiperespecífico (materiales, texturas, clima, hora, cámara).
- Da contexto e intención (p. ej., “para un anuncio display 1080×1080”).
- Itera en pasos cortos (“sube un 15% la calidez de la luz”).
- Estructura por fases (fondo → sujeto → props → color grading).
- Usa negativas semánticas (“calle vacía y silenciosa” en vez de “sin autos”).
- Controla la cámara (wide, macro, low angle, depth of field).
Limitaciones y notas
- Idiomas recomendados: EN, es-MX, ja-JP, zh-CN, hi-IN.
- Entrada solo texto e imágenes (no audio/video).
- Mejor con ≤ 3 imágenes de entrada.
- Para texto en imagen, genera el texto primero y luego la imagen.
- Restricciones regionales para subir imágenes de menores (EEE, Suiza, Reino Unido).
- SynthID: todas las imágenes incluyen marca de agua.
¿Gemini o Imagen? (cuándo usar cada uno)
Atributo | Imagen | Gemini (nativo) |
---|---|---|
Ventaja clave | Máxima calidad fotorrealista, mejor ortografía y tipografía. | Flexibilidad conversacional; edición multi-turnos sin máscaras. |
Disponibilidad | GA | Vista previa (usable en producción). |
Latencia | Baja (rápido). | Mayor (más procesamiento). |
Costo | USD 0.02–0.12 por imagen. | USD 30 / 1M tokens salida (≈ 1,290 tokens por imagen hasta 1024×1024). |
Úsalo si | Prioridad: detalle, realismo, tipografías exigentes. | Prioridad: iterar, componer, editar con instrucciones naturales. |
Regla práctica: empieza con Imagen 4 para fotorrealismo y logos; usa Gemini 2.5 Flash cuando necesites conversación + edición rápida y combinar entradas.
La generación de imágenes con Gemini te da velocidad, control y calidad para campañas, e-commerce, branding y contenidos sociales. Con prompts bien estructurados, podrás iterar, editar y lanzar creativos listos para rendimiento.
Ahora, ¡estas listo para probarlo!