MODULO 4.8

🏭 Arquiteturas de Producao

Deploy, scaling, custos e seguranca: como levar skills e agentes AI para producao de forma robusta e eficiente.

6
Topicos
30
Minutos
Avancado
Nivel
Pratico
Tipo
1

🏗️ Arquiteturas de Referencia

Escolher a arquitetura certa impacta custo, latencia, escalabilidade e manutencao. Cada opcao tem trade-offs.

Serverless

AWS Lambda, Google Cloud Functions

  • ✓ Zero infra management
  • ✓ Pay-per-use
  • ✗ Cold starts
  • ✗ 15min timeout

Containers

ECS, EKS, Cloud Run

  • ✓ Flexibilidade
  • ✓ Sem cold starts
  • ✗ Mais complexo
  • ✗ Custo base

Managed AI

Bedrock, Vertex AI

  • ✓ Integrado ao cloud
  • ✓ Compliance built-in
  • ✗ Vendor lock-in
  • ✗ Menos flexivel
2

📈 Scaling Strategies

AI tem caracteristicas unicas que afetam scaling: latencia variavel, dependencia de APIs externas, e custos por token.

Estrategias de Scaling

  • Auto-scaling: Scale baseado em request rate ou latencia
  • Rate limiting: Proteger de spikes e controlar custos
  • Queues: Buffer requests em picos (SQS, Redis)
  • Caching: Semantic cache para queries similares

Semantic Caching

# Cache baseado em similaridade semantica
# Queries similares retornam resultado cacheado

Query: "Qual a capital da Franca?"
Cache hit: "qual e a capital francesa" (0.95 similarity)
Result: "Paris" (from cache, 0ms)
3

💰 Gestao de Custos

Custos de LLM podem escalar rapidamente sem controle. Estrategias de otimizacao sao essenciais para viabilidade.

Otimizacao de Tokens

  • • Prompts concisos e eficientes
  • • Truncar contexto quando possivel
  • • Usar summarization para historico
  • • Batch requests quando aplicavel

Model Tiering

  • • GPT-4 para tarefas complexas
  • • GPT-3.5/Claude Haiku para simples
  • • Routing inteligente por task type
  • • Fallback para modelos menores

📊 Cost Breakdown Tipico

60%

LLM API calls

25%

Vector DB

15%

Compute/Infra

4

🔒 Seguranca em Producao

AI em producao tem vetores de ataque unicos: prompt injection, data leakage, e abuso de recursos.

⚠️ Ameacas Principais

  • Prompt Injection: Usuario manipula comportamento via input
  • Data Leakage: Modelo revela dados de treinamento/contexto
  • PII Exposure: Dados pessoais em logs ou outputs
  • Resource Abuse: Requests maliciosos para gastar tokens

✓ Guardrails

  • • Input validation e sanitization
  • • Output filtering (PII, harmful content)
  • • Rate limiting por usuario
  • • Audit logging de todas as interacoes
  • • Separacao de ambientes (prod/staging)
5

🔄 CI/CD para AI

Pipelines de CI/CD para AI precisam de testes especificos: evaluation gates, canary deploys, e rollback rapido.

Pipeline Exemplo

1Code push → Lint + Unit tests
2Build → Prompt validation
3Eval → LLM evaluation on test dataset
4Gate → Score > threshold?
5Deploy → Canary (5%) → Full rollout

💡 Prompt Versioning

Versione prompts como codigo. Cada mudanca de prompt e um "release" que deve passar por evaluation antes de ir para producao.

6

🚀 Skills em Producao

Skills precisam de ciclo de vida gerenciado: versionamento, distribuicao, updates e eventual deprecation.

Skill Production Checklist

Pre-Deploy

  • ☐ Testes em staging
  • ☐ Documentacao atualizada
  • ☐ Allowed-tools revisados
  • ☐ Secrets em vault

Post-Deploy

  • ☐ Monitorar metricas
  • ☐ Verificar logs de erro
  • ☐ Feedback loop ativo
  • ☐ Plano de rollback

🎉 Parabens!

Voce completou a Trilha 4: Ecossistema e Integracoes! Agora voce conhece o landscape de ferramentas AI, sabe integrar skills com LangChain, n8n, RAG, e esta preparado para deploy em producao.

📚 Resumo do Modulo

Arquiteturas - Serverless, containers, managed AI
Scaling - Auto-scaling, rate limiting, caching, queues
Custos - Token optimization, model tiering, semantic cache
Seguranca - Prompt injection, guardrails, audit logs
CI/CD - Eval gates, canary deploys, prompt versioning
Skills - Lifecycle management, checklist de producao

Trilha Completa!

Voce concluiu todos os 8 modulos da Trilha 4: Ecossistema e Integracoes.