Tags: Engenharia
Custos invisíveis de um SaaS com IA: tokens, latência, suporte e margem
Por Alexandre Satochi Yamamoto · 2026-05-06
Os custos de um SaaS com IA vão além da fatura da API. Tokens de entrada, latência, reprocessamento e suporte consomem margem de formas que o modelo financeiro inicial não prevê.
Introdução
O modelo financeiro de um SaaS com IA tende a ser construído em torno de uma métrica central: o custo por chamada à API do modelo. É uma simplificação compreensível no início — você sabe quanto custa por mil tokens, estima quantas chamadas vai fazer por usuário por mês, e chega a um custo de COGS que parece razoável. O problema é que essa métrica captura apenas uma parte do custo real de operação. O restante vem de lugares que aparecem gradualmente: tokens de entrada que cresceram sem perceber, latência que gerou reprocessamento, qualidade irregular que virou suporte, e escolhas de arquitetura feitas no início que ficaram caras com o crescimento. Este artigo mapeia esses custos com base em decisões e situações reais, com o objetivo de ajudar quem está construindo — ou planejando construir — um produto com IA a ter uma visão mais completa do custo de operação antes de precificar.Custo 1: tokens de entrada — o que você está enviando que não deveria
A maioria das estimativas de custo foca em tokens de saída. Os tokens de entrada são, em geral, mais baratos por unidade — mas também tendem a ser ignorados e podem crescer de formas não óbvias. Prompt que cresceu sem auditoria Prompts evoluem. Cada ajuste para corrigir um comportamento específico adiciona instruções. Com o tempo, um prompt que começou com 200 tokens chega a 800, 1.200, 2.000 tokens — sem que alguém tenha feito o cálculo do impacto acumulado. Se você faz 10.000 chamadas por mês e o prompt cresceu 600 tokens sem necessidade, isso representa [INSERIR CÁLCULO REAL] de custo adicional mensal que não existia na estimativa original. Auditoria de prompt: o que está no system prompt que pode ser removido ou condensado sem perda de qualidade? Essa revisão deve acontecer regularmente, especialmente após períodos de ajuste frequente. Contexto desnecessário enviado junto com o input Em alguns fluxos, dados do histórico do usuário ou metadados são enviados junto com o input principal para enriquecer o contexto. Isso tem valor — mas precisa ser proporcional. Enviar 5.000 tokens de histórico para uma operação que precisaria de 200 é um custo real sendo pago por um benefício marginal. Avalie: qual é o percentual de contexto enviado que o modelo realmente usa? Ferramentas de análise de atenção (onde disponíveis) ou testes A/B de qualidade com contexto reduzido ajudam a responder isso.Custo 2: reprocessamento e retentativas
Em produção, nem toda chamada à API resulta em um output utilizável na primeira tentativa. Os motivos incluem: Timeout ou erro do provedor: a chamada falha e precisa ser repetida Output fora do formato esperado: o modelo não seguiu a estrutura solicitada e o output precisa ser regenerado Validação de qualidade reprovada: o sistema de validação detecta output inadequado e aciona nova geração Rate limiting: chamadas bloqueadas por exceder o limite de requisições por minuto exigem retentativa com backoff Cada retentativa tem custo de tokens e de latência. Um sistema com taxa de retentativa de [INSERIR MÉTRICA REAL]% não está desperdiçando apenas dinheiro — está adicionando latência ao usuário e complexidade operacional. Como medir: rastrear no log a quantidade de chamadas por operação (incluindo retentativas) e calcular a taxa de "chamadas reais por operação concluída com sucesso". Qualquer valor acima de 1,2 merece investigação.Custo 3: latência e o que ela custa além do tempo
Latência em produtos com IA é diferente de latência em APIs convencionais. Uma chamada a um modelo de linguagem pode levar de 2 a 20 segundos dependendo do modelo, do tamanho do output e da carga do provedor. Isso tem consequências que vão além da experiência do usuário: Timeout de usuário e abandono Usuários que esperam mais do que o esperado abandonam o fluxo antes de receber o resultado. Isso significa custo de chamada à API pago, output gerado, e nenhuma conversão. Em produtos freemium onde a geração é parte do funil de conversão, o abandono por latência é custo direto de aquisição desperdiçado. Infraestrutura de timeout e filas Sem uma estratégia de fila assíncrona, requisições lentas bloqueiam workers. Com uma estratégia de fila, você precisa de infraestrutura para gerenciar a fila — e isso tem custo. A escolha entre geração síncrona e assíncrona é uma decisão de arquitetura com implicações financeiras diretas. Modelo síncrono: simples de implementar, ruim para operações longas, risco de timeout de cliente e servidor. Modelo assíncrono com fila: melhor experiência para operações longas, requer infraestrutura adicional (queue, polling ou webhooks, notificação ao usuário), custo fixo de operação da fila. Latência de cold start em infraestrutura serverless Se o backend de IA roda em ambiente serverless, o cold start pode adicionar latência significativa nas primeiras requisições após período de inatividade. Para produtos com tráfego irregular, isso pode afetar desproporcionalmente a experiência de novos usuários que chegam por campanha ou indicação — exatamente quando a primeira impressão mais importa.Custo 4: suporte relacionado à qualidade de output
Usuários que recebem um documento com qualidade abaixo do esperado não costumam entender se o problema é deles (dado insuficiente), do modelo (prompt falhou) ou do produto (bug). Eles abrem suporte. O custo de suporte por ticket relacionado a qualidade de IA é mais alto do que o suporte técnico convencional porque: Requer investigação: você precisa recuperar o input, o prompt da versão usada e o output para entender o que aconteceu Nem sempre tem solução clara: se o comportamento foi estocástico ou o prompt não cobre o caso, a resposta pode ser "não conseguimos reproduzir" Gera expectativa de crédito ou regeação: usuários frustrados com qualidade pedem reembolso ou nova geração — que tem custo Como medir: calcular o custo de suporte por usuário ativo e a porcentagem de tickets originados por qualidade de output. Se esse número for maior que [INSERIR BENCHMARK INTERNO], o investimento em melhoria de prompt e validação de output tem retorno direto em redução de suporte.Custo 5: escolhas de modelo que envelhecem mal
A escolha do modelo no lançamento do produto tende a ser baseada em qualidade de output. Com o tempo, o mercado evolui: modelos melhores chegam com custo menor, o modelo escolhido tem atualizações que mudam o comportamento, ou o volume crescente torna o custo por operação insustentável na margem. Produtos sem abstração da camada de modelo ficam presos. Trocar de modelo exige reescrever lógica de integração, retestar todos os prompts e validar qualidade em todos os casos de uso — o que pode levar semanas. Decisão de arquitetura com impacto financeiro de longo prazo: isolar a camada de chamada ao modelo atrás de uma interface interna. A troca de provedor ou versão se torna uma decisão operacional, não uma refatoração.Custo 6: o modelo de preços do produto vs. o custo real por usuário
O custo por usuário em produtos com IA não é homogêneo. Usuários com casos de uso complexos — documentos longos, muitas seções, inputs ricos — custam significativamente mais do que usuários com casos simples. Se o produto tem preço fixo por assinatura, os usuários intensivos subsidiam seu próprio custo às custas da margem. Análise necessária: segmentar usuários por custo real de operação e verificar se a distribuição de uso está alinhada com a estrutura de preços. Algumas perguntas práticas:Qual é o custo médio de tokens por usuário por mês?
Qual é o custo do percentil 90 (usuários mais intensos)?
O plano mais barato cobre o custo de operação do usuário mais intenso daquele plano?
Como construir visibilidade de custo real
O mínimo necessário para ter visibilidade de custo de operação em um SaaS com IA: Log de tokens por operação: input tokens, output tokens, modelo usado, versão do prompt Custo calculado por operação em tempo real: converter tokens em custo monetário e associar ao user_id Dashboard de custo por usuário e por plano: identificar outliers e usuários que consomem fora da média Alerta de custo por operação: operações que excedem um threshold indicam prompt inflado ou input inesperadamente grandeAprendizados práticos
O custo de tokens de entrada é subestimado sistematicamente. Audite o tamanho dos prompts regularmente. Taxa de retentativa é um indicador de saúde do sistema, não apenas de custo. Retentativas altas sinalizam problemas de qualidade ou confiabilidade. Suporte é o custo que faz a margem sangrar devagar. Qualidade de output ruim não aparece só no COGS — aparece no suporte. Abstração da camada de modelo é investimento, não gold plating. Você vai trocar de modelo. A questão é se vai custar uma semana ou um sprint inteiro. Custo por usuário precisa ser calculado individualmente, não como média. Médias escondem os outliers que destroem a margem.Conclusão
Construir um SaaS com IA viável economicamente exige mais do que calcular o custo de tokens de saída e multiplicar pelo número de usuários projetados. Exige visibilidade dos custos que aparecem com o tempo: prompts que cresceram, retentativas que se acumularam, suporte que escalou com o crescimento e escolhas de infraestrutura que ficaram caras. A boa notícia é que todos esses custos são mensuráveis e gerenciáveis — desde que a instrumentação esteja no lugar antes de você precisar dos dados. Se você está no início, o conselho mais prático é: implemente o log de tokens e custo por operação antes de lançar. Com esses dados desde o dia um, você tem a visibilidade necessária para tomar decisões financeiras baseadas em realidade, não em estimativa.Sobre o autor
Alexandre Satochi Yamamoto — Conteúdo revisado pela equipe editorial do GeraDocumentos, com foco em IA, produtividade e criação de documentos profissionais.