Cómo contar tokens LLM y estimar los costos de API localmente

4 min read

•Verified Educational Resource

In this guide:

•Comprensión de los tokens LLM y las codificaciones de recuento
•Por qué el recuento de tokens del lado del cliente es esencial para la seguridad
•Cómo utilizar el contador de tokens y el estimador de costos

Comprensión de los tokens LLM y las codificaciones de recuento

Los modelos de lenguaje grande (LLM), como los modelos GPT de OpenAI, Claude de Anthropic y Gemini de Google, no procesan texto en caracteres o palabras. En cambio, dividen el texto en fragmentos de caracteres llamados tokens. Un token puede ser un solo carácter, una sílaba, una palabra o incluso parte de una palabra. Comprender el recuento exacto de tokens de sus solicitudes es crucial, ya que los proveedores de LLM cobran según el uso de tokens y los modelos tienen límites estrictos de ventana de contexto.

Los diferentes modelos utilizan diferentes algoritmos tokenizadores (o codificaciones de tokens) para analizar el texto. Por ejemplo, GPT-3.5 y GPT-4 usan la codificación 'cl100k_base', mientras que los modelos GPT-4o más nuevos usan la codificación 'o200k_base'. Comparar su texto entre estas codificaciones ayuda a optimizar las indicaciones para que se ajusten a los presupuestos y umbrales de contexto.

Por qué el recuento de tokens del lado del cliente es esencial para la seguridad

Las plantillas de pastelería, las solicitudes de API y los bloques de código contienen con frecuencia datos confidenciales, incluidas claves de API, credenciales de bases de datos, estructuras de código patentadas o registros personales de clientes. Cargar este texto en servidores remotos para contar tokens expone su información a fugas de cumplimiento y seguridad. ZeroWebTools ejecuta el motor tokenizador completamente dentro de su navegador.

Nuestro contador de tokens LLM utiliza bibliotecas Javascript locales para cargar matrices de clasificación BPE (codificación de pares de bytes) en la memoria. El proceso de tokenización, la representación visual de los límites de las palabras y las estimaciones de precios se procesan en su CPU local. Sus mensajes privados y entradas de texto nunca tocan un servidor remoto.

Cómo utilizar el contador de tokens y el estimador de costos

Ingrese su texto: pegue su mensaje, fragmento de código o arrastre y suelte un archivo de texto en el editor del espacio de trabajo.
Elija codificaciones de tokenizador: cambie entre cl100k_base (GPT-4), o200k_base (GPT-4o) o recuentos de tokens aproximados para Gemini y Claude.
Analice los pronósticos de costos: alterne las entradas de tarifas personalizadas o seleccione ajustes preestablecidos de precios de modelos (GPT-4o, Claude 3.5, Gemini 1.5) para ver la entrada exacta y la estimación del costo de finalización proyectado.
Inspeccionar los límites de los tokens: revise el texto resaltado en colores alternos para visualizar exactamente dónde el tokenizador divide las palabras en distintos componentes del token.

Frequently Asked Questions

¿Mi mensaje pegado se envía a alguna base de datos o servidor de IA?

No. Todo el proceso de tokenización se ejecuta en el lado del cliente en la memoria de su navegador. Su texto permanece 100% privado y nunca sale de su computadora.

¿Cuál es la diferencia entre cl100k_base y o200k_base?

Son diccionarios de tokenización diferentes. o200k_base es un diccionario de vocabulario más nuevo y más amplio utilizado por GPT-4o que es más eficiente para código y texto que no está en inglés, lo que resulta en un menor recuento de tokens para la misma entrada.

¿Cómo se calculan las estimaciones de costos?

Los pronósticos de costos multiplican los tokens de entrada calculados y los tokens de salida proyectados por las tasas de precios del modelo seleccionado por millón de tokens. También puede personalizar estas tasas de entrada y salida manualmente.

Was this utility tool helpful?

Your anonymous feedback helps us refine our tools and resources.

Cómo contar tokens LLM y estimar los costos de API localmente