🏗️ Arquiteturas de Referencia
Escolher a arquitetura certa impacta custo, latencia, escalabilidade e manutencao. Cada opcao tem trade-offs.
Serverless
AWS Lambda, Google Cloud Functions
- ✓ Zero infra management
- ✓ Pay-per-use
- ✗ Cold starts
- ✗ 15min timeout
Containers
ECS, EKS, Cloud Run
- ✓ Flexibilidade
- ✓ Sem cold starts
- ✗ Mais complexo
- ✗ Custo base
Managed AI
Bedrock, Vertex AI
- ✓ Integrado ao cloud
- ✓ Compliance built-in
- ✗ Vendor lock-in
- ✗ Menos flexivel
📈 Scaling Strategies
AI tem caracteristicas unicas que afetam scaling: latencia variavel, dependencia de APIs externas, e custos por token.
Estrategias de Scaling
- •Auto-scaling: Scale baseado em request rate ou latencia
- •Rate limiting: Proteger de spikes e controlar custos
- •Queues: Buffer requests em picos (SQS, Redis)
- •Caching: Semantic cache para queries similares
Semantic Caching
# Cache baseado em similaridade semantica
# Queries similares retornam resultado cacheado
Query: "Qual a capital da Franca?"
Cache hit: "qual e a capital francesa" (0.95 similarity)
Result: "Paris" (from cache, 0ms)
💰 Gestao de Custos
Custos de LLM podem escalar rapidamente sem controle. Estrategias de otimizacao sao essenciais para viabilidade.
Otimizacao de Tokens
- • Prompts concisos e eficientes
- • Truncar contexto quando possivel
- • Usar summarization para historico
- • Batch requests quando aplicavel
Model Tiering
- • GPT-4 para tarefas complexas
- • GPT-3.5/Claude Haiku para simples
- • Routing inteligente por task type
- • Fallback para modelos menores
📊 Cost Breakdown Tipico
LLM API calls
Vector DB
Compute/Infra
🔒 Seguranca em Producao
AI em producao tem vetores de ataque unicos: prompt injection, data leakage, e abuso de recursos.
⚠️ Ameacas Principais
- •Prompt Injection: Usuario manipula comportamento via input
- •Data Leakage: Modelo revela dados de treinamento/contexto
- •PII Exposure: Dados pessoais em logs ou outputs
- •Resource Abuse: Requests maliciosos para gastar tokens
✓ Guardrails
- • Input validation e sanitization
- • Output filtering (PII, harmful content)
- • Rate limiting por usuario
- • Audit logging de todas as interacoes
- • Separacao de ambientes (prod/staging)
🔄 CI/CD para AI
Pipelines de CI/CD para AI precisam de testes especificos: evaluation gates, canary deploys, e rollback rapido.
Pipeline Exemplo
💡 Prompt Versioning
Versione prompts como codigo. Cada mudanca de prompt e um "release" que deve passar por evaluation antes de ir para producao.
🚀 Skills em Producao
Skills precisam de ciclo de vida gerenciado: versionamento, distribuicao, updates e eventual deprecation.
Skill Production Checklist
Pre-Deploy
- ☐ Testes em staging
- ☐ Documentacao atualizada
- ☐ Allowed-tools revisados
- ☐ Secrets em vault
Post-Deploy
- ☐ Monitorar metricas
- ☐ Verificar logs de erro
- ☐ Feedback loop ativo
- ☐ Plano de rollback
🎉 Parabens!
Voce completou a Trilha 4: Ecossistema e Integracoes! Agora voce conhece o landscape de ferramentas AI, sabe integrar skills com LangChain, n8n, RAG, e esta preparado para deploy em producao.
📚 Resumo do Modulo
Trilha Completa!
Voce concluiu todos os 8 modulos da Trilha 4: Ecossistema e Integracoes.