Como contar tokens LLM e estimar custos de API localmente

4 min read

•Verified Educational Resource

In this guide:

•Compreendendo tokens LLM e codificações de contagem
•Por que a contagem de tokens do lado do cliente é essencial para a segurança
•Como usar o contador de tokens e o estimador de custos

Compreendendo tokens LLM e codificações de contagem

Modelos de linguagem grande (LLMs), como os modelos GPT da OpenAI, Claude da Anthropic e Gemini do Google, não processam texto em caracteres ou palavras. Em vez disso, eles dividem o texto em pedaços de caracteres chamados tokens. Um token pode ser um único caractere, uma sílaba, uma palavra ou até mesmo parte de uma palavra. Compreender a contagem exata de tokens de seus prompts é crucial, pois os provedores de LLM cobram com base no uso de token e os modelos têm limites rígidos de janela de contexto.

Diferentes modelos usam diferentes algoritmos de tokenizer (ou codificações de token) para analisar texto. Por exemplo, GPT-3.5 e GPT-4 usam a codificação 'cl100k_base', enquanto os modelos GPT-4o mais recentes usam a codificação 'o200k_base'. Comparar seu texto nessas codificações ajuda a otimizar os prompts para caber nos orçamentos e limites de contexto.

Por que a contagem de tokens do lado do cliente é essencial para a segurança

Modelos Pastry, prompts de API e blocos de código frequentemente contêm dados confidenciais, incluindo chaves de API, credenciais de banco de dados, estruturas de código proprietárias ou registros pessoais de clientes. Carregar este texto em servidores remotos para contar tokens expõe suas informações a vazamentos de conformidade e segurança. ZeroWebTools executa o mecanismo tokenizer inteiramente dentro do seu navegador.

Nosso LLM Token Counter utiliza bibliotecas Javascript locais para carregar matrizes de classificação BPE (Byte Pair Encoding) na memória. O processo de tokenização, a renderização visual dos limites das palavras e as estimativas de preços são processados na CPU local. Suas solicitações privadas e entradas de texto nunca atingem um servidor remoto.

Como usar o contador de tokens e o estimador de custos

Insira seu texto – cole seu prompt, trecho de código ou arraste e solte um arquivo de texto no editor do espaço de trabalho.
Escolha codificações do tokenizador – alterne entre cl100k_base (GPT-4), o200k_base (GPT-4o) ou contagens aproximadas de tokens para Gemini e Claude.
Analise previsões de custos - alterne as entradas de taxas personalizadas ou selecione predefinições de preços de modelo (GPT-4o, Claude 3.5, Gemini 1.5) para ver a entrada exata e a estimativa de custo de conclusão projetada.
Inspecionar limites de token – Revise o texto destacado em cores alternadas para visualizar exatamente onde o tokenizer divide as palavras em componentes de token distintos.

Frequently Asked Questions

Meu prompt colado é enviado para algum banco de dados ou servidor de IA?

Não. Todo o processo de tokenização é executado no lado do cliente na memória do seu navegador. Seu texto permanece 100% privado e nunca sai do seu computador.

Qual é a diferença entre cl100k_base e o200k_base?

São dicionários de tokenização diferentes. o200k_base é um dicionário de vocabulário maior e mais novo usado pelo GPT-4o, que é mais eficiente para código e texto que não seja em inglês, resultando em contagens de tokens mais baixas para a mesma entrada.

Como são calculadas as estimativas de custos?

As previsões de custos multiplicam os tokens de entrada calculados e os tokens de saída projetados pelas taxas de preços do modelo selecionado por milhão de tokens. Você também pode personalizar essas taxas de entrada e saída manualmente.

Was this utility tool helpful?

Your anonymous feedback helps us refine our tools and resources.

Como contar tokens LLM e estimar custos de API localmente