Modulo 3.6: Multimodal | Agent Skills Mastery

🖼️ Processamento de Imagens

Gemini Pro Vision pode analisar imagens: identificar objetos, extrair texto (OCR), descrever cenas e responder perguntas.

Analisando Imagem com Python

import google.generativeai as genai
from PIL import Image

model = genai.GenerativeModel('gemini-pro-vision')

# Carregar imagem
img = Image.open('diagrama.png')

# Enviar com prompt
response = model.generate_content([
    "Descreva este diagrama em detalhes",
    img
])
print(response.text)

Formatos Suportados

• PNG, JPEG, WebP, GIF
• Ate 20MB por imagem
• Ate 16 imagens por request

Casos de Uso

• OCR e extracao de texto
• Descricao de cenas
• Analise de graficos/tabelas

🎵 Processamento de Audio

Gemini pode processar arquivos de audio para transcricao, resumo e analise de conteudo.

Transcrevendo Audio

# Upload do arquivo de audio
audio_file = genai.upload_file('podcast.mp3')

# Aguardar processamento
while audio_file.state.name == "PROCESSING":
    time.sleep(2)
    audio_file = genai.get_file(audio_file.name)

# Gerar transcricao
response = model.generate_content([
    "Transcreva este audio e faca um resumo dos pontos principais",
    audio_file
])

💡 Formatos de Audio

Suportados: WAV, MP3, AIFF, AAC, OGG, FLAC. Duracao maxima depende do modelo e plano.

🎬 Processamento de Video

Analise de videos: descricao de cenas, deteccao de eventos, resumos e perguntas sobre conteudo visual.

Analisando Video

# Upload do video (pode demorar para videos grandes)
video_file = genai.upload_file('presentation.mp4')

# Aguardar processamento completo
while video_file.state.name == "PROCESSING":
    time.sleep(10)
    video_file = genai.get_file(video_file.name)

# Analisar
response = model.generate_content([
    "Liste todos os topicos abordados nesta apresentacao",
    video_file
])

Capacidades

• Descricao de cenas
• Deteccao de objetos/pessoas
• Extracao de texto em video
• Resumo temporal

Limitacoes

• Tamanho maximo: varies by plan
• Formatos: MP4, AVI, MOV, MKV
• Processamento pode demorar

📄 Processamento de PDFs

Analise de documentos PDF: texto, tabelas, graficos e layout.

Analisando PDF

# Upload do PDF
pdf_file = genai.upload_file('relatorio.pdf')

# Analisar conteudo
response = model.generate_content([
    "Extraia todos os dados financeiros das tabelas deste documento",
    pdf_file
])

print(response.text)

📤 File API

A File API permite upload de arquivos maiores (>20MB) para processamento.

📁 Funcoes da File API

•genai.upload_file() - Faz upload do arquivo
•genai.get_file() - Verifica status do upload
•genai.list_files() - Lista arquivos uploaded
•genai.delete_file() - Remove arquivo

🔀 Multimodal Combinado

Combine multiplas modalidades em um unico prompt para analises mais ricas.

Exemplo: Texto + Imagens

# Combinar texto com multiplas imagens
response = model.generate_content([
    "Compare estas duas imagens de dashboards.",
    "Quais metricas melhoraram entre a primeira e a segunda?",
    img1,
    img2
])

💡 Dica

A ordem das partes (texto, imagem, audio) no array importa. Coloque instrucoes primeiro, depois o conteudo a ser analisado.

📚 Resumo do Modulo

✓

Imagens - OCR, descricao, analise de graficos e tabelas

✓

Audio - Transcricao, resumo, analise de podcasts e reunioes

✓

Video - Descricao de cenas, deteccao de eventos, resumos

✓

PDFs - Extracao de texto, tabelas e dados estruturados

✓

File API - Upload e gerenciamento de arquivos grandes

✓

Combinado - Multiplas modalidades em um unico prompt

Proximo Modulo:

3.7 - Vertex AI Integration

← Modulo Anterior Proximo Modulo →