🖼️ Processamento de Imagens
Gemini Pro Vision pode analisar imagens: identificar objetos, extrair texto (OCR), descrever cenas e responder perguntas.
Analisando Imagem com Python
import google.generativeai as genai
from PIL import Image
model = genai.GenerativeModel('gemini-pro-vision')
# Carregar imagem
img = Image.open('diagrama.png')
# Enviar com prompt
response = model.generate_content([
"Descreva este diagrama em detalhes",
img
])
print(response.text)
Formatos Suportados
- • PNG, JPEG, WebP, GIF
- • Ate 20MB por imagem
- • Ate 16 imagens por request
Casos de Uso
- • OCR e extracao de texto
- • Descricao de cenas
- • Analise de graficos/tabelas
🎵 Processamento de Audio
Gemini pode processar arquivos de audio para transcricao, resumo e analise de conteudo.
Transcrevendo Audio
# Upload do arquivo de audio
audio_file = genai.upload_file('podcast.mp3')
# Aguardar processamento
while audio_file.state.name == "PROCESSING":
time.sleep(2)
audio_file = genai.get_file(audio_file.name)
# Gerar transcricao
response = model.generate_content([
"Transcreva este audio e faca um resumo dos pontos principais",
audio_file
])
💡 Formatos de Audio
Suportados: WAV, MP3, AIFF, AAC, OGG, FLAC. Duracao maxima depende do modelo e plano.
🎬 Processamento de Video
Analise de videos: descricao de cenas, deteccao de eventos, resumos e perguntas sobre conteudo visual.
Analisando Video
# Upload do video (pode demorar para videos grandes)
video_file = genai.upload_file('presentation.mp4')
# Aguardar processamento completo
while video_file.state.name == "PROCESSING":
time.sleep(10)
video_file = genai.get_file(video_file.name)
# Analisar
response = model.generate_content([
"Liste todos os topicos abordados nesta apresentacao",
video_file
])
Capacidades
- • Descricao de cenas
- • Deteccao de objetos/pessoas
- • Extracao de texto em video
- • Resumo temporal
Limitacoes
- • Tamanho maximo: varies by plan
- • Formatos: MP4, AVI, MOV, MKV
- • Processamento pode demorar
📄 Processamento de PDFs
Analise de documentos PDF: texto, tabelas, graficos e layout.
Analisando PDF
# Upload do PDF
pdf_file = genai.upload_file('relatorio.pdf')
# Analisar conteudo
response = model.generate_content([
"Extraia todos os dados financeiros das tabelas deste documento",
pdf_file
])
print(response.text)
📤 File API
A File API permite upload de arquivos maiores (>20MB) para processamento.
📁 Funcoes da File API
- •
genai.upload_file()- Faz upload do arquivo - •
genai.get_file()- Verifica status do upload - •
genai.list_files()- Lista arquivos uploaded - •
genai.delete_file()- Remove arquivo
🔀 Multimodal Combinado
Combine multiplas modalidades em um unico prompt para analises mais ricas.
Exemplo: Texto + Imagens
# Combinar texto com multiplas imagens
response = model.generate_content([
"Compare estas duas imagens de dashboards.",
"Quais metricas melhoraram entre a primeira e a segunda?",
img1,
img2
])
💡 Dica
A ordem das partes (texto, imagem, audio) no array importa. Coloque instrucoes primeiro, depois o conteudo a ser analisado.
📚 Resumo do Modulo
Proximo Modulo:
3.7 - Vertex AI Integration