MODULO 3.6

🎨 Multimodal

Trabalhando com imagens, audio, video e documentos no Gemini.

6
Topicos
35
Minutos
Avancado
Nivel
Pratico
Tipo
1

🖼️ Processamento de Imagens

Gemini Pro Vision pode analisar imagens: identificar objetos, extrair texto (OCR), descrever cenas e responder perguntas.

Analisando Imagem com Python

import google.generativeai as genai
from PIL import Image

model = genai.GenerativeModel('gemini-pro-vision')

# Carregar imagem
img = Image.open('diagrama.png')

# Enviar com prompt
response = model.generate_content([
    "Descreva este diagrama em detalhes",
    img
])
print(response.text)

Formatos Suportados

  • • PNG, JPEG, WebP, GIF
  • • Ate 20MB por imagem
  • • Ate 16 imagens por request

Casos de Uso

  • • OCR e extracao de texto
  • • Descricao de cenas
  • • Analise de graficos/tabelas
2

🎵 Processamento de Audio

Gemini pode processar arquivos de audio para transcricao, resumo e analise de conteudo.

Transcrevendo Audio

# Upload do arquivo de audio
audio_file = genai.upload_file('podcast.mp3')

# Aguardar processamento
while audio_file.state.name == "PROCESSING":
    time.sleep(2)
    audio_file = genai.get_file(audio_file.name)

# Gerar transcricao
response = model.generate_content([
    "Transcreva este audio e faca um resumo dos pontos principais",
    audio_file
])

💡 Formatos de Audio

Suportados: WAV, MP3, AIFF, AAC, OGG, FLAC. Duracao maxima depende do modelo e plano.

3

🎬 Processamento de Video

Analise de videos: descricao de cenas, deteccao de eventos, resumos e perguntas sobre conteudo visual.

Analisando Video

# Upload do video (pode demorar para videos grandes)
video_file = genai.upload_file('presentation.mp4')

# Aguardar processamento completo
while video_file.state.name == "PROCESSING":
    time.sleep(10)
    video_file = genai.get_file(video_file.name)

# Analisar
response = model.generate_content([
    "Liste todos os topicos abordados nesta apresentacao",
    video_file
])

Capacidades

  • • Descricao de cenas
  • • Deteccao de objetos/pessoas
  • • Extracao de texto em video
  • • Resumo temporal

Limitacoes

  • • Tamanho maximo: varies by plan
  • • Formatos: MP4, AVI, MOV, MKV
  • • Processamento pode demorar
4

📄 Processamento de PDFs

Analise de documentos PDF: texto, tabelas, graficos e layout.

Analisando PDF

# Upload do PDF
pdf_file = genai.upload_file('relatorio.pdf')

# Analisar conteudo
response = model.generate_content([
    "Extraia todos os dados financeiros das tabelas deste documento",
    pdf_file
])

print(response.text)
5

📤 File API

A File API permite upload de arquivos maiores (>20MB) para processamento.

📁 Funcoes da File API

  • genai.upload_file() - Faz upload do arquivo
  • genai.get_file() - Verifica status do upload
  • genai.list_files() - Lista arquivos uploaded
  • genai.delete_file() - Remove arquivo
6

🔀 Multimodal Combinado

Combine multiplas modalidades em um unico prompt para analises mais ricas.

Exemplo: Texto + Imagens

# Combinar texto com multiplas imagens
response = model.generate_content([
    "Compare estas duas imagens de dashboards.",
    "Quais metricas melhoraram entre a primeira e a segunda?",
    img1,
    img2
])

💡 Dica

A ordem das partes (texto, imagem, audio) no array importa. Coloque instrucoes primeiro, depois o conteudo a ser analisado.

📚 Resumo do Modulo

Imagens - OCR, descricao, analise de graficos e tabelas
Audio - Transcricao, resumo, analise de podcasts e reunioes
Video - Descricao de cenas, deteccao de eventos, resumos
PDFs - Extracao de texto, tabelas e dados estruturados
File API - Upload e gerenciamento de arquivos grandes
Combinado - Multiplas modalidades em um unico prompt

Proximo Modulo:

3.7 - Vertex AI Integration