Token Economics para despachos: la guía definitiva para convertir la IA legal en margen, velocidad y ROI
Pablo Sáez Hurtado, Artificial Intelligence Senior Counsel en Delvy y Presidente de la Comisión Joven de ENATIC Abogacía Digital, vuelve a la carga con el cuchillo de las bondades de la IA genérica (cada vez menos genérica) entre los dientes. Aunque en Derecho Práctico somos acérrimos defensores de la IA especializada en legal, también lo somos de trasladarte la realidad del sector. Y qué mejor conocedor de esa realidad que Pablo, con su estilo directo y pragmático. En este artículo sobre Token Economics, es brutalmente claro: si no gobiernas tus tokens, asegura, no estás “usando mejor la IA”. Estás financiando latencia, reintentos, respuestas infladas y pérdida de foco con cargo directo a tu margen.
Si has seguido mis artículos en Derecho Práctico durante los últimos meses, ya has visto la misma idea aparecer desde varios ángulos: en la crítica a la falsa superioridad de la IA “especializada”, en el uso de Deep Research para due diligence, en la búsqueda jurisprudencial en el CENDOJ con agentes, en el modo voz para preparar interrogatorios y en el vibe coding jurídico. La revolución no está en la existencia de la IA, sino en su encaje práctico en flujos reales de trabajo jurídico. Token Economics es la capa que faltaba para cerrar el círculo: la disciplina que decide qué contexto merece entrar en la ventana del modelo, qué modelo debe ejecutar cada tarea, cuánto cuesta cada iteración y cuánto margen destruye el despacho cuando le lanza al LLM más ruido del necesario.
Voy a ser brutalmente claro desde el arranque: en un despacho sofisticado de España, Token Economics no es una rareza técnica para perfiles de innovación. Es una cuestión de rentabilidad, velocidad, confianza interna y escalabilidad operativa. Si no gobiernas tus tokens, no estás “usando mejor la IA”; estás financiando latencia, reintentos, respuestas infladas y pérdida de foco con cargo directo a tu margen. Y eso, en 2026, ya no es una anécdota: es gestión del negocio.
La verdad incómoda del margen invisible
La urgencia no es teórica. El Future of Professionals 2025 de Thomson Reuters muestra que el 80% de los profesionales espera un impacto alto o transformacional de la IA en su trabajo durante los próximos cinco años; el 46% de las organizaciones ya ha invertido en tecnología de IA en los últimos doce meses; y solo el 22% tiene una estrategia visible de IA. El dato decisivo es otro: las organizaciones con estrategia visible son 3,5 veces más propensas a estar viendo retorno de la inversión. Traducido al castellano llano de socio de despacho: el problema ya no es si la IA llegará, sino si tu firma va a capturar valor o a regalarlo por improvisación. [3]
El informe Future Ready Lawyer 2026 de Wolters Kluwer, además, ya sitúa el debate dentro del sector legal y no en una nube genérica de “profesionales del conocimiento”. La encuesta, realizada a 810 abogados de EE. UU., China y nueve países europeos —entre ellos España—, concluye que el 92% usa al menos una herramienta de IA en su flujo diario, que el 62% ahorra entre un 6% y un 20% de su semana laboral y que el 60% espera que la inversión en IA siga aumentando en los próximos tres años. Eso ya no describe una fase de pruebas. Describe una nueva infraestructura de trabajo. [4]
El freno real, por tanto, no es tecnológico. Es cultural y económico. Una encuesta de LexisNexis sobre la abogacía británica mostraba en septiembre de 2025 que el 61% de los abogados ya utilizaba IA generativa en su trabajo, pero dos tercios seguían percibiendo que la cultura de su organización era lenta o inexistente respecto a la IA. Entre quienes ya la usan, el 56% emplea el tiempo ahorrado para hacer más trabajo facturable y el 47% cree que la IA transformará la forma de facturar servicios jurídicos. El mensaje incómodo es este: la tecnología avanza, pero la organización suele llegar tarde. Y cuando llega tarde, la ventaja ya se la han repartido otros. [5]
Encima, la variable tiempo importa más de lo que parece. Otro análisis de Thomson Reuters, aplicado expresamente a la profesión jurídica, recordaba que la IA podría liberar unas 240 horas al año por profesional legal y que el 43% de los profesionales jurídicos ya anticipa un descenso del modelo puramente horario en los próximos cinco años. Por eso Token Economics no va de rascar céntimos a una factura de API. Va de proteger dos cosas que a un partner sí le quitan el sueño: la captura de tiempo liberado y la defensa de la estrategia de precios frente a una eficiencia que, mal gobernada, solo abarata trabajo que antes se cobraba caro. [6]
Qué pagas de verdad cuando trabajas con LLMs
Empiezo por la base para evitar la trampa más común: no pagas solo “uso de IA”. Pagas una combinación de input tokens, output tokens, tokens cacheados, reasoning tokens, llamadas a herramientas y, en algunos flujos, almacenamiento y búsqueda documental. La ayuda oficial de OpenAI recuerda que un token es la unidad de texto que procesa el modelo, que una regla práctica útil es 1 token ≈ 4 caracteres, y que la contabilidad distingue entre tokens de entrada, salida, cacheados y, en modelos avanzados, reasoning tokens. La guía de estado conversacional añade algo crucial: la ventana de contexto incluye input, output y reasoning tokens. Es decir, pensar mejor también cuesta ventana. [7]
La falsa sensación de “contexto infinito” es una de las peores enfermedades del sector legal. En ChatGPT, por ejemplo, la ayuda oficial indicaba a mayo de 2026 que GPT-5.5 Thinking ofrece 256K de contexto total para planes de pago y 400K en Pro cuando se selecciona manualmente Thinking; sigue siendo mucho, sí, pero sigue siendo finito, y además convivirá con límites de uso y con herramientas que meten más material en contexto. Quien usa esa amplitud como excusa para pegar el expediente entero en cada turno no está siendo exhaustivo: está comprando dispersión. [9]
|
Partida económica |
Qué la dispara | Qué te rompe si la ignoras | Palanca principal |
| Input tokens | instrucciones, ejemplos, documentos, historial | coste, latencia y saturación de contexto | adelgazar prompts y recuperar solo lo necesario |
| Output tokens | respuestas largas, formatos verbosos, resúmenes inflados | la factura sube rápido y el abogado revisa más | límites de salida y formatos cerrados |
| Tokens cacheados | prefijos idénticos reutilizados | pagas de más y esperas más de lo necesario | prefijos estables y aciertos de caché |
| Reasoning tokens | tareas complejas, herramientas, cadenas largas | menos espacio real para el resto del trabajo | separar tareas complejas de tareas tontas |
| Llamadas a herramientas | web search, file search, code execution | costes añadidos y más contexto inyectado | alcances estrechos y uso deliberado |
| Long context | expedientes enteros, data rooms, PDFs masivos | degradación de foco y precio superior |
compactación, capas y chunking |
La taxonomía anterior se apoya en la documentación oficial de tokens, contexto y precios de la API. No es una abstracción académica: es la contabilidad operativa del trabajo jurídico asistido por IA. [10]
Aquí aparece otra capa que muchos despachos descubren tarde: las herramientas también tienen economía propia. En la tabla de precios de OpenAI, web search cuesta 10 dólares por cada 1.000 llamadas y, para modelos de razonamiento, además se facturan los search content tokens al precio del modelo; file search añade 0,10 dólares por GB/día de almacenamiento y 2,50 dólares por 1.000 llamadas a herramientas; y los modelos especializados de deep research se anuncian, en Batch, a 5/20 dólares por millón de tokens para o3-deep-research y a 1/4 dólares para o4-mini-deep-research. La propia documentación de deep research describe esta capacidad como orientada a encontrar, analizar y sintetizar cientos de fuentes con soporte de web search, MCP y file search. Dicho sin maquillaje: la investigación profunda mal diseñada no solo gasta modelo; también quema herramientas. [11]
La caché es la primera gran palanca que un despacho serio debe entender. La guía de caché de prompts explica que el sistema se activa automáticamente a partir de 1.024 tokens, que funciona con coincidencias exactas de prefijo y que colocar contenido estático al principio y variables al final mejora los aciertos de caché. En GPT-5.5 y GPT-5.5 Pro, además, la documentación indica que la retención por defecto es de hasta 24 horas. Ojo con el matiz importante: la caché reduce coste y latencia, pero no te regala más ventana de contexto. Si repites 20.000 tokens en cada llamada, te puede salir más barato, sí; pero sigues ocupando 20.000 tokens de la ventana. [12]
La segunda gran palanca es la compactación. La guía oficial de compactación la define como una forma de reducir el tamaño del contexto preservando el estado necesario para turnos posteriores. Puedes activar un umbral y, cuando el conteo renderizado lo supere, el servidor ejecuta una compactación que conserva lo importante y poda lo anterior. En términos de despacho, esto significa que una conversación larga sobre un contrato, una due diligence o una investigación jurisprudencial no tiene por qué arrastrar, turno tras turno, todo el barro histórico. Si no haces esto, acabas utilizando la ventana del modelo como si fuera una carpeta de “copiar y pegar” mal gestionada. [13]
La matemática operativa que conviene dominar
Voy a ponerle números para que deje de sonar abstracto. Como regla de trabajo, usaré 4 caracteres por token como media operativa, con una banda prudente entre 3,8 y 4,2 caracteres por token. La referencia oficial de OpenAI da 4 caracteres por token como aproximación en inglés; la banda 3,8–4,2 que voy a usar aquí es, Basado en patrones observados hasta mayo 2026 y extrapolaciones razonables…, una forma práctica de evitar precisión falsa cuando un despacho mezcla español jurídico, encabezados, tablas, cláusulas y términos técnicos. La fórmula simple es esta: tokens estimados ≈ caracteres / 4, con sensibilidad caracteres / 4,2 a caracteres / 3,8. [14]
Con esa regla, un manual interno de estilo de 32.000 caracteres son unos 7.619–8.421 tokens; un dossier de asunto de 160.000 caracteres ronda 38.095–42.105 tokens; y una respuesta final de 9.000 caracteres suele caer en torno a 2.143–2.368 tokens. La segunda fórmula que importa al partner es la de coste directo en API: coste = input × tarifa de input + entrada cacheada × tarifa cacheada + output × tarifa de output + herramientas. En GPT-5.5 contexto corto, las tarifas estándar publicadas por OpenAI son 5 dólares por millón de input tokens, 0,50 por millón de entrada cacheada y 30 por millón de output; si te vas a contexto largo, el input sube a 10 y el output a 45. Batch y Flex recortan esas tarifas a la mitad. [15]
| Activo textual | Caracteres | Rango estimado de tokens | Lectura directiva |
| Manual de estilo largo | 32.000 | 7.619–8.421 | si lo inyectas siempre, tu prompt ya nace pesado |
| Expediente o dossier medio | 160.000 | 38.095–42.105 | repetirlo en cada turno es carísimo en foco |
| Respuesta extensa | 9.000 | 2.143–2.368 | la verbosidad también factura, y además caro |
| Respuesta muy larga | 24.000 | 5.714–6.316 | puede costar tanto como un gran bloque de input |
Supuestos: 1 token ≈ 4 caracteres como media operativa; rango de sensibilidad 3,8–4,2; precios de GPT-5.5 contexto corto según tabla oficial. [16]
Hay un detalle que cambia la conversación con cualquier manager en treinta segundos: en GPT-5.5, 1.000 output tokens cuestan seis veces más que 1.000 input tokens. Dicho todavía más claro: una respuesta innecesariamente larga puede salirte económicamente equivalente a varios bloques grandes de contexto de entrada. Por eso una obsesión madura con Token Economics no se limita a “recortar documentos”; también persigue la salida inflada, los informes que responden de más, los sumarios que podrían ser tablas y los borradores que parecen querer impresionar a alguien en lugar de resolver una tarea. Si cruzas, además, el umbral de contexto largo, la penalización se vuelve más visible: el input se duplica y el output se encarece un 50%. [15]
Merece la pena una comparación estratégica entre proveedores, porque aquí muchos despachos se confunden. En la documentación de OpenAI, GPT-5.5 Pro ofrece 1.050.000 tokens de contexto y 128.000 de salida máxima en API; en la documentación de Anthropic, Claude Opus 4.7 aparece con 1M de contexto, 128K de salida máxima y precio de 5 dólares por millón de input tokens y 25 por millón de output tokens según la vista general de modelos, mientras que su documentación sobre límites de uso indica que los tokens de entrada cacheados suelen cobrarse al 10% del precio base y no cuentan para esos límites de uso. Basado en patrones observados hasta mayo 2026 y extrapolaciones razonables…, la diferencia decisiva para un despacho no es ganar una guerra de marketing por unos pocos dólares por millón, sino entender quién te obliga a reinyectar menos contexto, quién aguanta mejor tareas largas y quién te deja separar mejor trabajo premium de trabajo commodity. [18]
Y aquí entra la lección de contexto que el mercado legal todavía no ha interiorizado. El artículo técnico de Anthropic sobre context engineering lo formula con una claridad brutal: el contexto es un recurso finito, con rendimientos decrecientes, y la disciplina correcta consiste en encontrar el conjunto más pequeño posible de tokens de alta señal que maximice la probabilidad del resultado deseado. Eso es exactamente Token Economics aplicado al derecho. No se trata de “darle todo” al modelo. Se trata de darle solo aquello que merece ocupar memoria de trabajo. El resto debe vivir fuera, disponible, pero no siempre dentro. [19]
Técnicas de optimización que sí cambian la cuenta de resultados
La ingeniería de prompts sigue importando, pero ya no basta. La guía oficial de prompt engineering de OpenAI define prompt engineering como el arte de escribir instrucciones efectivas y recuerda que conviene fijar versiones estables de modelo y construir evaluaciones; el enfoque de context engineering de Anthropic amplía el problema: no solo importa cómo redactas la instrucción, sino qué tokens curas, mantienes, recuperas, compactas y expulsas. En un despacho serio, la evolución natural es esta: del prompt bonito al contexto gobernado. [20]
Antes de darte cifras, una tesis clave. La documentación pública de GPT-5.5 y GPT-5.5 Pro insiste en cuatro rasgos: entiende antes la tarea, pide menos guidance, usa herramientas de forma más eficaz y es más eficiente en tokens que sus predecesores; además, la guía de prompting para GPT-5.5 afirma que el modelo rinde mejor cuando defines resultado, criterios de éxito, restricciones y contexto disponible, y le dejas elegir la ruta. Basado en patrones observados hasta mayo 2026 y extrapolaciones razonables…, eso significa que las técnicas buenas de Token Economics hoy pagan más que hace un año: no solo ahorras tokens, sino que también reduces reintentos porque el modelo necesita menos sobreinstrucción y menos andamiaje rígido para trabajar bien. [21]
| Técnica | Cálculo operativo | Impacto directo | Por qué mejora más en GPT-5.5 Pro |
| Adelgazar el prompt maestro | pasar de 32.000 a 8.000 caracteres en 8.000 solicitudes/mes | ahorro de 48M input tokens y ≈ 240 $/mes | porque GPT-5.5 necesita menos guidance y entiende mejor el objetivo |
| Almacenar prefijos estables en caché | prefijo de 24.000 caracteres reutilizado en 8.000 solicitudes/mes | 0 tokens menos, pero ≈ 216 $/mes menos y menor latencia | porque GPT-5.5 y Pro usan retención extendida por defecto de hasta 24h |
| Contexto por capas | no repetir un dossier de 160.000 caracteres en 10 turnos por 100 asuntos | ahorro de 33,75M input tokens y ≈ 168,75 $/mes | porque el modelo elige mejor qué herramienta o búsqueda usar y se pierde menos |
| Compacción por hitos | reducir un hilo largo de 120.000 a 18.000 tokens equivalentes en 500 hilos | ahorro de 63,75M input tokens y ≈ 318,75 $/mes | porque GPT-5.5 mantiene mejor el hilo de trabajo en tareas largas |
| Higiene de salida | bajar de 2.200 a 900 output tokens en 6.000 respuestas/mes | ahorro de 7,8M output tokens y ≈ 234 $/mes | porque estructura mejor la respuesta y tolera mejor formatos cerrados |
| Enrutamiento de modelos | mover 12.000 microtareas de extracción de GPT-5.5 a mini | 0 tokens menos, pero ≈ 137,70 $/mes menos | porque reservas la precisión premium para juicio jurídico real |
Supuestos del cuadro: GPT-5.5 estándar de contexto corto a 5/0,50/30 dólares por millón de tokens; conversión media de 4 caracteres por token; retención extendida por defecto en GPT-5.5 y GPT-5.5 Pro; compactación y prompts orientados al resultado según guías oficiales. [22]
Lo primero que debes entender es que no todas las palancas ahorran lo mismo. Adelgazar prompts, aplicar capas de contexto y compactar sí reducen tokens reales. El almacenamiento en caché y el enrutamiento de modelos optimizan coste y latencia aunque el volumen de tokens no baje igual. Y limitar salida es, muchas veces, la palanca más subestimada de todas, porque el output es caro y además contamina la conversación siguiente si dejas que el historial se arrastre sin control. En un despacho con perfiles brillantes pero desordenados, mi experiencia es tajante: la verbosidad mata dos veces, primero en factura y luego en revisión humana.
Hay dos técnicas extra que merecen una mención inmediata. La primera es Batch: si una tarea no exige respuesta síncrona —extracciones nocturnas, clasificaciones masivas, preparación de matrices, normalización documental—, la tabla de precios de la API deja claro que puedes cortar a la mitad tanto input como output. La segunda es el alcance de las herramientas: web search y file search son potentísimos, pero si lanzas búsquedas abiertas, sin límites de fuentes, fechas ni tipos de documento, conviertes una tarea legal concreta en una aspiradora de contexto. El problema no es la herramienta; es la pereza con la que se la invoca. [23]
La conclusión estratégica de esta sección es contundente: en 2026, la mejor optimización no consiste en “enseñar al abogado a escribir prompts más listos”, sino en diseñar contextos más estrechos, más estables, más recuperables y más medibles. Eso es lo que permite que un modelo premium como GPT-5.5 Pro haga trabajo premium, sin malgastarlo en tareas de secretaría glorificada ni asfixiarlo con treinta páginas de irrelevancia.
Cómo implantar Token Economics en un despacho sin teatro de innovación
La implantación no empieza con un comité ni con una sesión inspiracional. Empieza como empiezan las cosas serias: con inventario, clasificación, reglas operativas y control de resultados. Y, sí, también con gobierno, porque el resumen de la International Bar Association sobre adopción de IA en despachos ya alertaba de que, entre las firmas que declaraban usar IA, solo 91 de 210 tenían políticas formales sobre su uso. La improvisación es la norma. Precisamente por eso, una firma que haga esto bien va a parecer “exagerada” durante tres meses y “obvia” durante los tres años siguientes. [26]
Inventario de contexto repetido
Objetivo → descubrir qué partes de vuestro uso de IA son en realidad repetición disfrazada. Acción concreta → extraer doscientas interacciones reales de las tareas más frecuentes del despacho y separar en cada una lo fijo, lo variable y lo prescindible. Herramienta o método → una hoja simple, el tokenizer oficial y una revisión manual hecha por alguien que conozca el trabajo y no solo la tecnología. Resultado esperado cuantificable → identificar en dos semanas los veinte prefijos o bloques de contexto que generan el 60% o el 70% del volumen recurrente. Posible resistencia cultural y cómo superarla en treinta segundos → “esto es microgestión”; respuesta: no, esto es descubrir qué estamos repitiendo de forma cara y ciega. [7]
Taxonomía de tareas y modelos
Objetivo → dejar de usar un Ferrari para ir a por el pan y una bicicleta para subir un puerto. Acción concreta → clasificar el trabajo en cuatro familias: extracción, síntesis, análisis con juicio y generación de entregable final. Herramienta o método → matriz simple asunto-tarea-riesgo y política de enrutamiento: mini para extracción, modelo medio para síntesis, insignia para juicio, premium para entregable crítico. Resultado esperado cuantificable → reducir entre un 25% y un 45% el uso de modelo premium en tareas que no lo justifican. Posible resistencia cultural y cómo superarla en treinta segundos → “si usamos el mejor para todo evitamos errores”; respuesta: no, lo que haces es pagar precisión de socio para tareas de becario. [27]
Prefijos estables y bibliotecas reutilizables
Objetivo → convertir la repetición útil en capital operativo. Acción concreta → construir bibliotecas de prefijos estables por práctica: tono del despacho, criterios de citación, formato de tabla, warning de confidencialidad, estándares de calidad y plantillas de salida. Herramienta o método → repositorio versionado, nombres consistentes y orden fijo del prefijo para favorecer aciertos de caché. Resultado esperado cuantificable → alcanzar en un mes un ratio de entrada cacheada superior al 50% en tareas repetitivas. Posible resistencia cultural y cómo superarla en treinta segundos → “cada abogado tiene su estilo”; respuesta: perfecto, pero el despacho no puede pagar ocho veces la misma instrucción escrita con sinónimos. [28]
Capas de contexto y políticas de compactación
Objetivo → impedir que cada conversación se convierta en un vertedero histórico. Acción concreta → dividir el contexto en tres capas: base estable, material del asunto y memoria resumida de trabajo; después, establecer compactación obligatoria tras cada hito relevante. Herramienta o método → umbrales de compactación, resúmenes intermedios de alta señal y recuperación bajo demanda de documentos completos. Resultado esperado cuantificable → bajar entre un 40% y un 70% el input medio de hilos largos sin pérdida apreciable de calidad. Posible resistencia cultural y cómo superarla en treinta segundos → “si quitamos texto, el modelo sabrá menos”; respuesta: sabrá menos ruido y más de lo que importa. [29]
Piloto cerrado con abogados buenos
Objetivo → validar la disciplina con trabajo jurídico real y no con demos de feria. Acción concreta → escoger dos equipos con volumen y criterio, por ejemplo mercantil y litigación, y pilotar durante seis semanas con asuntos vivos, no con casos juguete. Herramienta o método → evaluaciones internas, fijación de versiones estables de modelo, checklist de calidad de salida y registro de reintentos. Resultado esperado cuantificable → reducir el tiempo a primer borrador entre un 25% y un 40% y bajar reintentos por tarea por debajo de 1,5. Posible resistencia cultural y cómo superarla en treinta segundos → “mejor esperar a que madure la herramienta”; respuesta: no necesitas una herramienta perfecta, necesitas un flujo gobernado. [30]
Gobierno, dashboard y cadencia ejecutiva
Objetivo → que Token Economics deje de ser una intuición y se convierta en una palanca de management. Acción concreta → revisar semanalmente cuatro vistas: coste, tiempo, calidad y adopción. Herramienta o método → dashboard mínimo viable conectado al uso real, comité quincenal de treinta minutos y reglas de escalado cuando se disparen contexto, salida o reintentos. Resultado esperado cuantificable → detectar en la misma semana los prompts inflados, los asuntos que saltan demasiado pronto a contexto largo y los equipos donde la adopción cae por debajo del umbral. Posible resistencia cultural y cómo superarla en treinta segundos → “medir esto nos quita tiempo”; respuesta: no medirlo es lo que te impide saber dónde se te va el margen. [31]
Errores comunes que cometen incluso perfiles sénior y cómo detectarlos en ocho segundos
| Error | Señal de alarma instantánea | Qué corregir hoy mismo |
| Pegar el expediente entero en cada turno | el prompt parece un email reenviado diez veces | separar base, asunto y memoria |
| Confundir detalle con calidad | la instrucción supera al documento que quieres analizar | subir el listón de contexto, no de palabrería |
| Pedir diez entregables en una sola corrida | la respuesta mezcla tabla, memo, riesgos y plan de acción | dividir por fases |
| No fijar formato de salida | cada respuesta sale con una estructura distinta | cerrar esquema, tabla o longitud máxima |
| No almacenar en caché lo repetible | el equipo reescribe siempre la misma política de estilo | crear prefijos estables |
| Usar modelo premium para extracción | pagas juicio alto para copiar y clasificar | rutear a mini o medio |
| No compactar conversaciones largas | el hilo parece una arqueología forense | compactación por hitos |
| Abrir herramientas sin alcance definido | la búsqueda devuelve de todo y el resumen vale de poco | limitar fuentes, fechas y tipo documental |
La lógica detrás de esta tabla está respaldada por tres hechos técnicos: el contexto tiene rendimientos decrecientes, GPT-5.5 rinde mejor con prompting orientado al resultado y la caché exige prefijos estables, no un carnaval de variaciones. [32]
Cómo medir el ROI real de Token Economics en los primeros noventa días con fórmula y dashboard recomendado
La fórmula que recomiendo es seca, casi brutal, porque obliga a dejar de confundir actividad con retorno:
ROI a 90 días =
[(horas liberadas × margen por hora recuperable × tasa de captura) + (errores evitados × coste medio del error) + (capacidad nueva facturada × margen de contribución)] − (licencias + implantación + formación + gobierno)
todo ello dividido por (licencias + implantación + formación + gobierno)
La variable más manipulable aquí es la tasa de captura. No basta con “ahorrar tiempo”. Hay que convertir una parte razonable de ese tiempo en más producción útil, mejor preparación, más asuntos, mejor realización de honorarios o menos retrabajo. Los informes sectoriales ya indican que una estrategia visible multiplica la probabilidad de ROI, que la IA puede liberar volumen relevante de tiempo y que el mercado legal está empezando a absorber la eficiencia en precios y organización. Medir sin captura es hacer teatro. [33]
| Capa | KPI | Meta razonable a noventa días | Semáforo rojo |
| Adopción | usuarios activos semanales | > 65% | < 40% |
| Adopción senior | perfiles sénior activos semanales | > 40% | < 20% |
| Economía | input tokens por asunto | -25% | plano o al alza |
| Economía | ratio de entrada cacheada en tareas repetitivas | > 50% | < 20% |
| Economía | output tokens por respuesta | -30% | crecimiento continuo |
| Economía | asuntos que entran en contexto largo | < 10% | > 20% |
| Operación | tiempo a primer borrador | -30% | mejora marginal |
| Operación | reintentos por tarea | < 1,4 | > 2 |
| Calidad | respuestas válidas al primer pase | > 80% | < 60% |
| Negocio | horas capturadas sobre horas liberadas | > 35% | < 15% |
| Riesgo | incidencias de fuentes o confidencialidad | 0 críticas | cualquier repetición
|
Mi recomendación práctica es no complicarlo al principio: un dashboard semanal con estos once KPIs, aunque sea básico, vale infinitamente más que una narrativa triunfal sin números. El partner no necesita cincuenta métricas. Necesita ver si el despacho usa mejor el contexto, confía más en la herramienta, tarda menos y convierte parte de esa mejora en negocio real.
Prompts y casos de uso listos para copiar
Lo que sigue no son prompts “bonitos”. Son prompts económicamente disciplinados. Están pensados para capturar lo mejor de los casos de uso que ya se han trabajado en Derecho Práctico —due diligence, agentes, jurisprudencia, workflows y prototipado jurídico—, pero adaptados a la lógica de GPT-5.5: definir resultado, criterio de éxito, restricciones y contexto disponible sin caer en el micromanagement barroco. La guía de prompting de GPT-5.5 y la de prompt engineering general van exactamente en esa dirección. [34]
Revisión contractual con disciplina de salida
- Actúa como abogado mercantil senior del despacho.
- Objetivo: revisar el contrato adjunto para identificar solo riesgos materiales, cláusulas atípicas y puntos que alteren posición económica, responsabilidad o control.
- Criterios de éxito:
– no resumas el contrato entero
– no cites cláusulas irrelevantes
– devuelve máximo 12 hallazgos
– cada hallazgo en una fila con: cláusula, riesgo, impacto, recomendación, severidad
– si falta un anexo o definición clave, dilo antes de analizar - Restricciones:
– máximo 650 tokens de salida
– sin introducción comercial
– no repitas el texto de la cláusula salvo fragmento mínimo necesario
Este prompt funciona porque ataca tres fugas a la vez: evita el resumen ornamental, fija esquema de salida y obliga al modelo a pedir la pieza faltante antes de inventarse media operación. En Token Economics, pedir primero lo imprescindible casi siempre es más barato que analizar de memoria lo inexistente. El patrón orientado al resultado está alineado con la guía oficial de GPT-5.5. [35]
Due diligence por capas y con memoria compactada
- Actúa como coordinador de due diligence legal.
- Fase inicial: sin analizar aún todos los documentos, crea un mapa de riesgos y una lista priorizada de documentos necesarios para validar:
1) societario
2) contractual
3) laboral
4) regulatorio
5) litigios - Método:
– trabaja por capas
– analiza primero índice, metadatos y documentos críticos
– tras cada bloque, genera una memoria compactada de máximo 500 tokens con hallazgos, dudas y siguientes pasos
– solo pide el documento completo cuando la duda no pueda resolverse con extractos - Salida: tabla de riesgos + lista de documentos pendientes + memoria compactada
La lógica aquí está directamente conectada con los flujos de deep research y análisis documental: primero orientarse, luego recuperar, después profundizar, y compactar al final de cada hito. Es exactamente la filosofía que evita reenviar un data room entero en cada turno y la que mejor casa con sistemas que buscan y sintetizan cientos de fuentes o múltiples documentos. [36]
Investigación jurisprudencial con foco y presupuesto de contexto
- Actúa como investigador jurídico español.
- Objetivo: localizar jurisprudencia realmente útil sobre [tema] y entregar solo resoluciones accionables para fundamentar un escrito.
- Procedimiento:
– antes de buscar, propón 5 términos de búsqueda y 3 filtros temporales
– limita fuentes a tribunales y bases públicas prioritarias
– devuelve máximo 8 resoluciones
– para cada una: ECLI o identificador, fecha, doctrina útil, riesgo de mala analogía
– cierra con una síntesis de máximo 300 tokens y una memoria de seguimiento de máximo 200 tokens
Este tercero sirve para trabajos como los que ya se han discutido en el entorno del CENDOJ: obliga a planificar antes de buscar, reduce el alcance, limita el número de resultados y añade un campo que pocos prompts incluyen y que vale oro para un litigador serio: el riesgo de mala analogía. Ese campo, aparentemente pequeño, evita el sesgo del “caso favorable porque sí” y ahorra mucho retrabajo humano. [38]
Si tuviera que resumir la filosofía de los tres prompts en una sola frase sería esta: menos “hazlo todo” y más “haz exactamente esto, con este criterio de éxito, en este formato y con este presupuesto de contexto”. Eso no empequeñece al modelo. Lo convierte en un instrumento de producción jurídica, no en un generador de texto con ínfulas.
La ventaja competitiva que ya se está repartiendo
Token Economics no es una subdisciplina nerd de laboratorio. Es la forma adulta de hablar de margen, foco y capacidad productiva en la era de la IA. Los datos sectoriales ya apuntan a una adopción acelerada, a una presión creciente sobre precios y a una diferencia clara entre organizaciones con estrategia visible y organizaciones que siguen confundiendo entusiasmo con gobierno. Quien ordena contexto, rutas de modelo, caché, compactación y salida no solo gasta mejor: trabaja mejor, confía más y escala antes. [39]
La tesis final, por tanto, es incómoda pero útil. El despacho que meta más IA no ganará necesariamente. Ganará el que compre más señal con menos tokens inútiles, el que reserve el razonamiento premium para trabajo premium y el que convierta tiempo liberado en valor capturado. Todo lo demás —prompts pomposos, demos espectaculares, copilotos sin gobierno y conversaciones kilométricas— es estética. Y la estética, en un despacho de alto nivel, jamás ha sido una estrategia.
Referencias
[2] [26] — https://www.ibanet.org/Legal-Business-News-Oct-Nov-2024
[3] [17] [31] [33] [39] — https://www.thomsonreuters.com/en/c/future-of-professionals
[4] — https://www.wolterskluwer.com/en/know/future-ready-lawyer-2026
[6] [8] — https://legal.thomsonreuters.com/blog/how-ai-is-transforming-the-legal-profession/
[7] [10] [14] [16] — https://help.openai.com/en/articles/4936856-what-are-tokens-and-how-to-count-them
[9] — https://help.openai.com/en/articles/11909943-gpt-5-1-in-chatgpt
[11] [15] [22] [23] [24] [37] — https://developers.openai.com/api/docs/pricing
[12] [28] — https://developers.openai.com/api/docs/guides/prompt-caching
[13] [25] [29] — https://developers.openai.com/api/docs/guides/compaction
[18] — https://developers.openai.com/api/docs/models/gpt-5.5-pro
[19] [32] — https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
[20] [27] [30] — https://developers.openai.com/api/docs/guides/prompt-engineering
[21] GPT-5.5 System Card | OpenAI — https://openai.com/index/gpt-5-5-system-card/
[34] Casos de uso de IA generalista: Investigación en profundidad (Deep Research) con LLMs para procesos de Due Diligence | Derecho Práctico — https://derechopractico.es/casos-de-uso-de-ia-generalista-investigacion-en-profundidad-deep-research-con-llms-para-procesos-de-due-diligence/
[35] — https://developers.openai.com/api/docs/guides/prompt-guidance
[36] Deep research | OpenAI API — https://developers.openai.com/api/docs/guides/deep-research
Pablo Sáez Hurtado