📡
AI Tech Radar™Curadoria trimestral · LUIZRJESUS
Edição #1 · Janeiro 2026 · Atualizado trimestralmente

AI Tech Radar™
Janeiro 2026

Curadoria oficial da LUIZRJESUS CONSULTING sobre o que vale APRENDER, EXPERIMENTAR, OBSERVAR ou EVITAR no ecossistema de Inteligência Artificial. Modelo ThoughtWorks aplicado à engenharia de IA brasileira em produção.

v2026.01 · publicado em 15 jan 2026
ADOPT
Use em produção AGORA
TRIAL
Vale testar em projeto-piloto
ASSESS
Acompanhe — não decida ainda
HOLD
Evite começar projeto novo aqui

📘 Como ler este radar

O Tech Radar é um documento de opinião curada com responsabilidade. Não é review acadêmico, nem ranking publicitário. É a leitura que fazemos do mercado de IA em janeiro de 2026, baseada em projetos reais que executamos para clientes e em análise técnica profunda.

Por que importa: em IA, tecnologia obsoleta em 6 meses. Equipes que apostam em ferramenta errada perdem trimestres. Este radar te poupa esse tempo — direto ao ponto.

Atualização: trimestralmente (próximas: abril, julho, outubro de 2026). Cada edição revê posições, adiciona novidades, move itens entre anéis.

Disclaimer: opiniões nossas baseadas em uso real. Quem ler discorda? Ótimo — discussão técnica é o jogo. Faça seu próprio radar interno.

🧠 Modelos de IA

LLMs e modelos especializados que estão movendo o mercado.

Adopt — use agora

Maduros, performance comprovada, ecossistema sólido.

Claude Sonnet 4.x Top em código + reasoning longo, melhor tool use do mercado.
Adopt
GPT-4o / 4o-mini Default seguro. Ecossistema OpenAI maduro, function calling sólido.
Adopt
DeepSeek-V3 (chat) Qualidade próxima de GPT-4 a 5% do custo com prompt caching. Ideal para volume.
Adopt
Llama 3.3 70B Top open-weights. Self-host viável. Base para fine-tuning sério.
Adopt

Trial — vale testar

Promissores, mas com arestas — use em pilot, não em crítico.

DeepSeek-R1 (Reasoner) Reasoning quase GPT-o1 a fração do custo. Latência alta — só onde reasoning vale.
Trial
Gemini 2 Pro/Flash Context window 2M tokens (gigante). Bom para análise de docs longos.
Trial
Mistral Large 2 Open weights europeu. Compliance GDPR mais limpo que US.
Trial
Qwen 2.5 72B Forte em código e chinês. Open weights. Ainda subutilizado fora da Ásia.
Trial

👀 Assess — acompanhe

Hype real ou bolha? Aguardamos mais sinais.

o3 / o3-mini Reasoning forte mas caro. Casos de uso reais ainda emergindo.
Assess
Modelos multimodais nativos (GPT-4o vision, Gemini 2) Ótimos em demo. Em produção, ainda quebram com edge cases.
Assess
Modelos sub-7B (Phi, Llama 3 8B) Promissores para edge / mobile. Aguardar maturidade do tooling.
Assess

🛑 Hold — evite começar novo

Funcionam, mas há melhor opção hoje.

GPT-3.5-turbo Quase 3 anos. Use 4o-mini ou DeepSeek-chat — mesma faixa de custo, MUITO melhor.
Hold
Modelos próprios "do zero" para 99% dos casos Treinar foundation model interno = bilhões em CapEx. Para QUASE TODO mundo, fine-tuning resolve.
Hold

🏗️ Frameworks & Bibliotecas

O que escolher para construir agentes, RAG, pipelines.

Adopt

LangGraph State machine real para agentes. Padrão de fato em 2026.
Adopt
LlamaIndex RAG production-grade. Melhor que LangChain puro para dados complexos.
Adopt
vLLM Inferência LLM self-host. Throughput 10× outras opções.
Adopt
HuggingFace TRL + PEFT Stack de fine-tuning. Maduro, bem documentado.
Adopt
Pydantic + structured outputs (OpenAI/Anthropic) Adeus regex parsing de JSON. Use sempre que precisar de output estruturado.
Adopt

Trial

CrewAI Multi-agente alto nível. Simples, mas custo escala rápido.
Trial
DSPy (Stanford) "Prompt engineering por compilação". Conceito brilhante, ainda nichado.
Trial
Unsloth Fine-tuning 2× mais rápido que PEFT puro. Drop-in replacement.
Trial
Mem0 Memória de agente como serviço. Boa abstração, depende da empresa.
Trial

👀 Assess

AutoGen 0.4 (Microsoft) Reescrita major. Vale ver, mas LangGraph já está consolidado.
Assess
Pydantic AI Type-safe agents. Maturidade ainda emergente.
Assess
Letta (ex-MemGPT) Memória paginada estilo SO. Interessante, ainda experimental.
Assess

🛑 Hold

LangChain "Agents" legados (pre-LangGraph) Frágeis, opacos, hard to debug. Migre para LangGraph.
Hold
AutoGPT / BabyAGI Iconos de 2023, mas obsoletos. Use LangGraph ou CrewAI.
Hold
Full-parameter fine-tuning (sem LoRA/QLoRA) Para 95% dos casos, QLoRA entrega 95% da qualidade por 5% do custo.
Hold

🛠️ Ferramentas & Infraestrutura

Vector DBs, observability, deploy, monitoring.

Adopt

Qdrant Vector DB performant, filtros poderosos, free self-host.
Adopt
pgvector Se você já tem Postgres. Simplicidade arquitetural vence.
Adopt
Langfuse (self-host) Observability LLM open source. Free, melhor que LangSmith pago.
Adopt
RAGAS Avaliação RAG sem ground truth manual. Indispensável.
Adopt
Modal / RunPod GPU on-demand. Adeus Kubernetes para 90% dos casos.
Adopt

Trial

LiteLLM Proxy unificado OpenAI/Anthropic/etc. Ótimo para multi-provider.
Trial
Cohere Rerank +15-25% precisão em RAG. Custo razoável.
Trial
Helicone Proxy + observability simples. Bom alternativo a Langfuse.
Trial

👀 Assess

Cerebras / Groq Inferência ultra-rápida (1500+ tok/s). Caro, mas mágico.
Assess
Postgres "AI" extensions (timescale-vector, etc) Promissoras, ainda imaturas vs pgvector básico.
Assess

🛑 Hold

Pinecone para projetos novos pequenos Caro fora de escala enterprise. Use Qdrant ou pgvector primeiro.
Hold
Kubernetes "puro" para servir 1 modelo Overkill. Modal/RunPod faz por 1/10 do esforço operacional.
Hold

🧩 Patterns & Práticas

Decisões arquiteturais e técnicas que diferenciam sistema sério de protótipo.

Adopt

Prompt caching (Anthropic/OpenAI) 60-90% redução de custo em system prompts longos. Sempre ativar.
Adopt
QLoRA para fine-tuning 4-bit quantization + LoRA. Llama 70B em GPU consumer.
Adopt
Hybrid search (vector + BM25) RAG sério usa os dois. Melhor recall para nomes/IDs/exatos.
Adopt
Contextual Retrieval (Anthropic) +35% em precisão RAG. Vale o custo extra de embedding.
Adopt
Loop controller obrigatório em agentes max_steps + cost_cap + timeout. Não negociável.
Adopt

Trial

MCP (Model Context Protocol) Padrão Anthropic 2024. Cresce rápido. Vale construir 1 servidor.
Trial
Multi-model routing DeepSeek para volume, GPT-4o para crítico. Economia 70%+.
Trial
DPO (Direct Preference Optimization) Substituto prático do RLHF. Mais simples, resultados similares.
Trial

👀 Assess

Speculative decoding Modelo pequeno "rascunha", grande verifica. 2-3× speedup possível.
Assess
Agent self-reflection patterns Pode melhorar 10-20%, mas dobra custo. Vale caso a caso.
Assess

🛑 Hold

Stuffing context com 100k+ tokens "Lost in the middle". RAG seleciona melhor que dump.
Hold
Multi-agent para tudo Custo 3-10× single-agent. Use só onde JUSTIFICA.
Hold
Agente em produção sem observability É caixa preta indebugável. Langfuse ou similar = obrigatório.
Hold

Quer estar do lado certo dessas decisões?

Aprenda quando usar cada coisa no Elite AI Engineering Program — 400h de currículo que ensina não só "como usar", mas "quando e por quê".

⚡ Conhecer Elite Program →

Próxima edição: abril 2026. Quem tem AI Career Passport™ recebe primeiro.