IA generativa em produtos brasileiros: lições do mercado
Desde o lançamento do ChatGPT em novembro de 2022, o mercado de IA generativa explodiu em visibilidade e expectativa. Mas trabalhar com LLMs em produção, para usuários reais, em português, é uma experiência bem diferente do que os tutoriais e demos sugerem. Este artigo reúne as lições que tiramos de mais de dois anos construindo produtos de IA para o mercado brasileiro.
O contexto importa mais do que o modelo
A primeira armadilha que quase todo desenvolvedor cai é supor que o modelo de linguagem vai "entender" o contexto por osmose. Não vai.
Um modelo treinado em gigabytes de texto da internet tem uma noção razoável do que é um currículo. Mas não sabe que o mercado brasileiro usa o formato Lattes para acadêmicos, que o Gupy tem requisitos específicos de formatação, que certas expressões em português têm conotações diferentes do português europeu, ou que determinados setores da economia brasileira têm jargões que não aparecem em textos em inglês.
A qualidade do output de um LLM é diretamente proporcional à qualidade do contexto que você fornece. Isso significa:
No GeraDocumentos, os prompts mais importantes têm entre 800 e 2.000 tokens de contexto antes sequer de receber o input do usuário. Isso aumenta o custo por requisição, mas a diferença em qualidade é mensurável.
O problema do português com IA
O inglês continua sendo a língua com melhor suporte nos modelos de linguagem. Isso não significa que o português não funciona — significa que você precisa ser mais cuidadoso.
Alguns padrões que observamos na prática:
Mistura de registros: Modelos tendem a misturar registro formal e informal de forma inconsistente em português, especialmente em textos mais longos. A solução é ser explícito no prompt: "Use linguagem formal corporativa, terceira pessoa, voz ativa."
Regionalismo e expressões idiomáticas: O modelo pode usar expressões que soam estranhas no contexto brasileiro ou que têm significados diferentes no Brasil vs. Portugal. Adicione instruções explícitas como "Use português brasileiro, sem europeísmos" e dê exemplos.
Acentuação e gramática: Os modelos mais recentes (GPT-4, Claude, Gemini) têm qualidade muito boa em português. Os modelos mais baratos (GPT-3.5) cometem erros gramaticais que são perceptíveis para usuários brasileiros. Teste com exemplos reais antes de decidir qual modelo usar em produção.
Nomes próprios e referências culturais: Modelos treinados principalmente em inglês podem ter dificuldade com referências culturais brasileiras — nomes de cidades, empresas, personalidades. Se seu produto usa essas referências, adicione contexto explícito.
Latência: o elefante na sala
Um dos maiores desafios técnicos de produtos de IA generativa não é a qualidade do output — é a latência. Gerar 500 tokens com um modelo GPT-4 leva entre 5 e 15 segundos dependendo da carga do servidor da OpenAI. Para usuários acostumados com aplicações web que respondem em milissegundos, isso é uma eternidade.
As estratégias que mais nos ajudaram:
Streaming: Já mencionei isso no artigo sobre o GeraDocumentos, mas vale repetir: mostrar o texto sendo gerado progressivamente transforma a percepção do usuário. 10 segundos com streaming parece muito mais rápido do que 10 segundos com um spinner.
Feedback de progresso explícito: Se você não pode fazer streaming (alguns tipos de output não permitem), use feedback de progresso com mensagens informativas. "Analisando experiência profissional... Estruturando competências... Otimizando para ATS..." faz o usuário sentir que o sistema está trabalhando, não travado.
Cache inteligente: Algumas partes do output são mais determinísticas do que outras. Se um usuário pede o mesmo resumo de texto duas vezes, você pode cachear o resultado (com hash do input como chave). Isso reduz latência para zero em chamadas repetidas e diminui custos.
Modelo certo para o problema certo: Nem tudo precisa do modelo mais poderoso. Para tarefas de formatação, extração de dados estruturados e validações simples, modelos mais rápidos e baratos frequentemente entregam qualidade suficiente.
Custos: o que ninguém te conta antes
Os tutoriais geralmente mostram você fazendo uma chamada de API e vendo o resultado. Eles não mostram o que acontece quando você tem mil usuários fazendo isso simultaneamente, cada um gerando 2.000 tokens por sessão.
Os custos de APIs de IA escalam de forma não-linear. À medida que seu produto cresce, você precisa pensar em custos de uma forma diferente:
Custo por usuário ativo, não por chamada: Métricas de custo por chamada de API são enganosas. O que importa é quanto você gasta por usuário ativo por mês, e se esse número é sustentável com o seu modelo de receita.
Prompts longos custam caro: Um prompt de 1.000 tokens que você usa em cada chamada é cobrado como 1.000 tokens de input toda vez. Para um produto com alto volume, prompts longos têm impacto significativo. Invista tempo em otimizar prompts sem perder qualidade.
Rate limits existem e vão te pegar: A OpenAI, Anthropic e Google têm rate limits por conta e por minuto. Se você não planejar para isso, vai ter erros em produção quando o volume de usuários aumentar. Implemente filas de requisições, retry com backoff exponencial e, se necessário, contas de API múltiplas.
Multiplique os provedores: Não dependa de um único provedor de LLM. Além do risco de downtime (que acontece), a concorrência entre OpenAI, Anthropic e Google está tornando os preços mais competitivos. Abstraia seu código de IA atrás de uma interface que permita trocar o provedor sem reescrever a aplicação.
Alucinações: gerenciar, não eliminar
Um dos problemas mais difíceis de trabalhar com LLMs é a "alucinação" — quando o modelo gera informações incorretas com total confiança. Para produtos de documentação profissional, isso é crítico: um currículo com dados inventados é pior do que não ter currículo nenhum.
Nossas estratégias para mitigar alucinações:
Trabalhe com dados fornecidos, não gerados: Para documentos pessoais (currículos, perfis), instrua o modelo explicitamente a usar apenas as informações fornecidas pelo usuário. "Use apenas as informações contidas no texto abaixo. Não invente ou acrescente informações."
Valide a estrutura do output: Depois de receber a resposta do modelo, valide se ela tem a estrutura esperada. Se um campo obrigatório está faltando ou parece incoerente, trate isso como erro e peça para o modelo tentar novamente.
Dê saída a dúvidas: Em vez de deixar o modelo inventar, peça para ele sinalizar quando não tem informação suficiente. "Se não houver informação suficiente para preencher um campo, escreva [INFORMAÇÃO INSUFICIENTE]."
Mostre o que o usuário forneceu: Exibir para o usuário quais informações foram usadas como base cria um checklist natural para identificar inconsistências.
O que ainda não resolvemos
Dois anos depois de lançar os primeiros produtos de IA, há coisas que ainda estamos trabalhando:
Personalização sem fine-tuning: Cada usuário tem um estilo de comunicação. Sem fine-tuning (que é caro e complexo), é difícil fazer o modelo adaptar o tom e o estilo ao indivíduo de forma consistente.
Contexto longo e coerência: Documentos mais longos tendem a perder coerência interna. O modelo pode contradizer no parágrafo 10 o que disse no parágrafo 3. Estamos testando abordagens de geração em partes com verificação de coerência cruzada.
Multimodalidade em português: A capacidade de trabalhar com imagens, tabelas e formatos complexos em português ainda é inconsistente nos modelos disponíveis. É uma área que vai melhorar — mas ainda não chegou lá.
Conclusão
IA generativa em produtos brasileiros funciona. Mas funciona bem quando você entende suas limitações, investe em engenharia de prompts cuidadosa e trata o modelo como um colaborador que precisa de contexto detalhado, não como um oráculo que sabe tudo.
O mercado está evoluindo rapidamente. Os modelos ficam melhores todo trimestre, os custos caem, e as ferramentas de desenvolvimento ficam mais maduras. Quem começa agora, mesmo com imperfeições, vai ter uma vantagem considerável sobre quem espera as peças se encaixarem perfeitamente.
Alexandre Yamamoto é fundador da Satochi Yamamoto Tecnologia da Informação e responsável técnico pelo ecossistema GeraDocumentos.