Casos de uso de IA generalista: Anonimización inteligente de documentos jurídicos con IA generativa
Continuamos con esta serie de contenidos súper prácticos que aterrizan en lo concreto para conocer como impacta la IA generalista en tareas legales muy específicas. Si hasta ahora hemos analizado las funcionalidades más top de soluciones especializadas como Vincent AI (vLex), GenIA-L (Lefebvre), Dilichat (DiliTrust), Iberley IA, Justicio y tantas otras, ahora llega el momento de examinar las prestaciones de proveedores como ChatGPT, Gemini, Claude y otras en el trabajo diario de los profesionales jurídicos. Proveedores de IAGen que, no olvidemos, son la tecnología subyacente en la IA especializada antes mencionada. En estos contenidos siempre pondremos el foco en lo más importante: los datos. En este completísimo análisis, su autor, David Tejedor, desmenuza una tarea realmente necesaria: la anonimización de documentos jurídicos para cumplir con la normativa de protección de datos. ¡Esperamos que te resulte útil!
Actualidad
La inteligencia artificial generativa está irrumpiendo en el mundo legal con casos de uso muy concretos que mejoran la eficiencia y el cumplimiento normativo. En los últimos meses, hemos visto despachos de abogados y departamentos jurídicos adoptar herramientas de IA para tareas especializadas: desde la revisión contractual hasta la preparación de demandas. Uno de esos casos de aplicación inmediata es la anonimización de documentos jurídicos para cumplir con la normativa de protección de datos. En plena era del RGPD y con el Reglamento Europeo de IA en camino, los abogados se preguntan cómo aprovechar modelos como GPT-4 manteniendo la confidencialidad de la información sensible. La noticia reciente de que un abogado español enfrentó un procedimiento disciplinario por usar ChatGPT sin verificar contenidos (citó por error leyes extranjeras) subraya la necesidad de un uso responsable de estas tecnologías. En este análisis práctico exploramos cómo la IA generativa puede ayudar a anonimizar expedientes y contratos, evitando riesgos legales y potenciando la eficiencia, todo ello con la vista puesta en la seguridad jurídica y el cumplimiento estricto de la normativa vigente.
Descripción del caso
Una asesoría jurídica interna de una empresa multinacional necesita compartir con un consultor externo varios contratos y dictámenes reales para un proyecto de formación. Estos documentos (de unas 30 páginas cada uno) contienen nombres de personas, direcciones, correos electrónicos, DNI y otros datos personales de empleados y clientes. Según el RGPD, antes de entregarlos a terceros deben eliminar o anonimizar esa información identificativa. Tradicionalmente, un abogado junior tendría que revisar línea por línea cada documento, tachando nombres y oscureciendo párrafos, con riesgo de que algún dato sensible quedase sin ocultar. Con los plazos encima y decenas de documentos por procesar, deciden implementar una solución basada en IA generativa para acelerar el proceso.
La herramienta de IA analiza automáticamente cada documento y detecta todos los datos personales: identifica nombres propios, números de identificación, direcciones, teléfonos, etc., incluso cuando aparecen en contextos complejos o abreviados. A continuación, genera una versión anonimizada de cada texto: reemplaza los nombres por etiquetas genéricas (por ejemplo, «[NOMBRE]») o por iniciales, suprime números identificativos y oculta cualquier referencia que pueda revelar la identidad de una persona física. El formato y la estructura del documento se preservan, pero toda la información sensible queda neutralizada. Por ejemplo, un párrafo original como:
«Juan Pérez, con DNI 12345678X, director de Marketing de Acme S.A., suscribió el contrato de prestación de servicios…»
se transformaría en:
«[NOMBRE], con DNI [NIF], director de Marketing de [EMPRESA], suscribió el contrato…»
La IA mantiene el sentido del texto, indicando incluso el tipo de dato removido (nombre, DNI, empresa) sin exponer el dato real. En cuestión de minutos, el abogado recibe un lote de documentos listos para compartirse externamente, cumpliendo con la normativa de protección de datos. Luego, el equipo legal revisa rápidamente las versiones anonimizadas para verificar que todo esté en orden (por ejemplo, que no se haya omitido ningún dato identificativo importante ni distorsionado el contenido). En esencia, el caso ilustra cómo la IA actúa como un filtro inteligente que limpia documentos legales de datos personales, permitiendo su uso seguro y legal en contextos donde antes hubiera supuesto un arduo trabajo manual y un riesgo de incumplimiento.
Necesidad que cubre
Antes de esta solución, la tarea de anonimizar documentos jurídicos presentaba varios problemas tradicionales. En primer lugar, el proceso era extremadamente lento y costoso en recursos: un abogado (o un equipo) debía leer y editar cada página a mano, invirtiendo horas en algo mecánico en lugar de tareas de mayor valor. Esto ralentizaba proyectos y elevaba los costes. Además, existía un riesgo alto de error u omisión: por prisa, fatiga o simple descuido humano, era fácil pasar por alto un nombre en el texto, una nota al pie con información personal o incluso metadatos ocultos en el archivo. Estos deslices podían traducirse en violaciones de privacidad, con el consiguiente peligro de sanciones o mala imagen. Por último, la labor manual carecía de estandarización: cada persona podía aplicar criterios distintos (¿hasta qué punto se anonimiza una referencia? ¿Se sustituyen nombres por iniciales o por descripciones genéricas?), llevando a resultados incoherentes. Incluso se daban casos de falsa anonimización, donde por ejemplo se “tachaba” un texto en un PDF con un recuadro negro sin eliminar realmente el contenido, lo que permitía revelar el dato copipegando el texto – un error más común de lo que parece.
La IA generativa viene a solventar estas necesidades aportando rapidez, precisión y uniformidad en el tratamiento de datos personales.
Primero, acelera el proceso drásticamente: lo que antes tomaba horas, ahora se completa en minutos. Un modelo entrenado puede revisar un documento entero y borrar o enmascarar la información sensible casi al instante, permitiendo gestionar un volumen mucho mayor de documentos sin demoras.
Segundo, reduce los errores humanos: la IA no se “cansa” ni pierde concentración, de modo que inspecciona sistemáticamente todo el texto, incluso datos ocultos, minimizando la posibilidad de que se escape un nombre o detalle identificativo. Al estar programada con criterios uniformes, difícilmente olvidará anonimizar algo que deba ser anonimizado.
Tercero, mejora la consistencia y el cumplimiento: se pueden incorporar las políticas de privacidad de la firma (p. ej., qué tipos de datos se deben remover siempre, qué términos legales pueden dejarse si no son identificativos, etc.), y la IA aplicará esas reglas de forma homogénea en todos los documentos. Esto garantiza un criterio uniforme y alineado con la normativa. Además, esta herramienta democratiza la tarea en cierto modo: incluso un empleado con poca experiencia en protección de datos puede apoyarse en la IA para alcanzar un nivel alto de rigor, elevando el estándar base de cumplimiento en el despacho.
En suma, la IA libera al abogado de la carga mecánica de buscar y tapar datos, ganando en seguridad y en tiempo para dedicarlo a análisis jurídicos de más calado.
Datos sobre los que impacta
Los beneficios cuantitativos de aplicar IA generativa a la anonimización son tangibles. Por ejemplo, despachos que han incorporado estas soluciones reportan que han logrado reducir hasta un 80% el tiempo dedicado a anonimizar o revisar documentos, en comparación con los métodos manuales. Una tarea que antes podía llevar 4 horas por documento (revisando página por página) ahora podría completarse en menos de 1 hora – combinando el procesamiento automático y una rápida validación humana final. Esto se traduce en miles de horas de trabajo ahorradas al año, especialmente en organizaciones que manejan grandes volúmenes documentales. De hecho, un solo sistema de IA puede procesar decenas de documentos en paralelo, algo imposible para un equipo humano trabajando manualmente. Así, un departamento jurídico puede asumir una carga documental mucho mayor sin necesidad de aumentar plantilla, liberando recursos para otras actividades.
No solo hay ganancias de eficiencia; también se observa una mejora en la calidad y seguridad del resultado. Al eliminar el factor de error humano, disminuye drásticamente la probabilidad de que queden datos personales sin anonimizar. Algunas organizaciones que ya usan estas herramientas han notado menos incidencias post-entrega de información, evitando sustos como compartir sin querer datos privados que debieron omitirse. La IA además aplica técnicas rigurosas: por ejemplo, anonimiza garantizando la irreversibilidad del proceso, mientras que en muchos casos el método manual de simplemente tachar un dato puede ser insuficiente o reversible. Esto significa que los documentos tratados con IA quedan realmente fuera del alcance del RGPD, eliminando todo rastro identificativo, a diferencia de los documentos “seudonimizados” pobremente donde alguien con acceso a cierta información adicional podría reconstruir quién era la persona detrás del dato oculto.
En términos de impacto corporativo, la automatización de esta tarea crítica reduce riesgos legales y económicos significativos. Evitar una filtración de datos personales no es solo cumplir la ley: es evitar sanciones cuantiosas. Recordemos que el RGPD contempla multas de hasta 20 millones de euros o el 4% de la facturación anual por infracciones graves. Solo en España, la Agencia de Protección de Datos impuso 242 multas por más de 27 millones de euros en 2024 – y una buena parte de ellas derivaron de brechas de seguridad o tratamientos indebidos de información personal. El uso de IA para anonimizar ayuda a que ese tipo de fallos no ocurran, o a demostrar diligencia proactiva en protección de datos.
Por si fuera poco, al acelerar el proceso, se cumplen mejor los plazos (por ejemplo, ante una solicitud de acceso de un interesado bajo RGPD, los famosos 30 días para responder) evitando incurrir en incumplimientos por demoras. En resumen, las cifras apuntan a una ecuación ganadora: menos horas invertidas, menos errores y menos exposición a sanciones – un retorno inmediato para cualquier equipo legal. No es de extrañar que estudios recientes concluyan que los profesionales jurídicos dedican hasta un 70% de su tiempo a tareas documentales rutinarias; cualquier tecnología que les devuelva buena parte de ese tiempo mientras blinda la confidencialidad supone un cambio de juego en la productividad del sector.
Tecnología subyacente
¿Cómo logra la IA generativa esta magia de leer y borrar datos personales de forma fiable? Este caso de uso se apoya típicamente en modelos de lenguaje de última generación – similares a los que se usan en asistentes tipo ChatGPT – pero afinados al contexto legal. En concreto, suelen elegirse LLMs (Large Language Models) de gran capacidad y contexto, capaces de procesar documentos largos de un tirón (idealmente 20-50 páginas de texto plano). Modelos punteros como GPT-4 de OpenAI, con ventanas de hasta ~25.000 palabras, destacan por su comprensión del lenguaje jurídico y su habilidad para manejar textos extensos. Esto permite que la IA “lea” un contrato o informe completo y tenga en cuenta el contexto global a la hora de decidir qué eliminar.
Además del tamaño, la especialización es clave. A menudo el modelo general se complementa con fine-tuning o ajustes específicos: por ejemplo, entrenándolo con ejemplos de documentos legales en los que los datos personales ya están etiquetados o anonimizados, para que “aprenda” el criterio. También se integra un componente de reconocimiento de entidades (NER) afinado al dominio legal español: así la IA reconoce no solo nombres de persona, sino números de NIF/CIF, referencias catastrales, matrículas, números de procedimiento, etc. en diferentes formatos. Herramientas especializadas como Maite o Legora suelen incorporar de forma automática este tipo de funciones en su flujo, lo que facilita una integración segura y eficiente.
En cambio, los modelos de propósito general (como GPT-4 “puro” accedido directamente vía API) no realizan este tratamiento por sí solos. Por eso, si se usan modelos generalistas, es imprescindible contar con una capa intermedia o una preparación documental previa: por ejemplo, indicarle al modelo en el prompt qué buscar y ocultar, o combinarlo con un script que detecte ciertos patrones. Omitir este paso puede comprometer la calidad de la anonimización y, sobre todo, la protección de la información procesada, pudiendo generar responsabilidad por futuras filtraciones de datos personales.
La IA funciona, grosso modo, en dos fases: detección y reemplazo. En la fase de detección, el modelo identifica todas las cadenas de texto que corresponden a datos personales. Aquí brilla el uso de NLP avanzado: el sistema entiende por contexto qué es un nombre propio aunque no venga precedido de “Sr.”, o detecta una dirección aunque falte la palabra “calle”. Incluso es capaz de inferir referencias indirectas: por ejemplo, si un párrafo dice “el demandante, hermano del alcalde de Madrid”, sabrá que “hermano del alcalde de Madrid” es información identificativa sensible que conviene generalizar. Una vez marcada cada entidad, viene la fase de reemplazo: la IA genera una nueva versión del documento donde todos esos datos están eliminados o sustituidos.
Aquí es importante que la sustitución mantenga la coherencia del texto. Algunas soluciones optan por poner etiquetas descriptivas en lugar de simplemente borrar, para conservar el sentido. Por ejemplo, Vincent AI enmascara los datos sensibles de forma automática y les asigna etiquetas por tipo – de modo que el documento resultante indica qué tipo de información había allí sin revelar el dato concreto. Esto permite que el texto siga entendible: “[NOMBRE] con DNI [NIF] y domicilio en [DIRECCIÓN]” mantiene la estructura original, ayuda a comprender el documento, pero no compromete la privacidad. Vincent incluso aplica técnicas de enmascaramiento conforme a los estándares legales (RGPD y LOPD), eliminando los datos personales sin posibilidad de reversión.
La tecnología subyacente combina por tanto la fuerza bruta de modelos generativos enormes con la fineza de reglas y ajustes propios del ámbito legal. Empresas como Nymiz han desarrollado software específico que, mediante procesamiento de lenguaje natural, detecta datos personales por contexto y los anonimiza con un solo clic, permitiendo procesar lotes masivos de documentos de una vez. Estas herramientas ofrecen además opciones de personalización: por ejemplo, configurar whitelists/blacklists de términos que no se deben anonimizar o que siempre se deben anonimizar, según las necesidades de cada cliente.
Por último, se incorporan filtros de calidad y seguridad. Un ejemplo práctico: limitar las salidas del modelo para que no “alucine” datos nuevos. En anonimización, esto significa instruir a la IA para que no invente nombres falsos para sustituir los reales (lo cual podría introducir información ficticia), sino que use placeholders genéricos o simplemente suprima. Algunas plataformas fuerzan al modelo a devolver el mismo texto original salvo por los campos anonimizados, garantizando transparencia y cero alteración inadvertida del contenido jurídico. También se suelen ejecutar validaciones finales: por ejemplo, un algoritmo puede verificar que en el documento resultante no queden patrones típicos de datos personales (números de DNI con 8 dígitos + letra, direcciones con código postal, etc.). Si algo aparece, se marca para revisión humana. Toda esta arquitectura busca un resultado preciso y seguro.
Por supuesto, no podemos obviar el aspecto del entorno de despliegue: tratándose de información confidencial, muchas organizaciones optan por implementar estas soluciones en entornos controlados. En algunos casos, se usan nubes privadas o servicios cloud con garantías específicas (por ejemplo, Azure OpenAI, que asegura confidencialidad de los datos procesados). Otras firmas directamente instalan modelos locales on-premises, de forma que toda la operación de anonimización ocurre dentro de casa, sin que ningún dato sensible salga a servidores de terceros. Esta tendencia está muy ligada a cumplir con las exigencias de protección de datos (evitando transferencias internacionales indebidas) y al deber de secreto profesional. En definitiva, la tecnología hace posible lo que antes era titánico: leer cientos de páginas buscando minucias identificativas y borrarlas sin piedad pero con inteligencia. Y lo hace de forma personalizable y auditable, para que el abogado tenga el control del resultado.
Análisis jurídico (normativa aplicable)
Desde el punto de vista legal, el uso de IA generativa para anonimizar documentos debe enmarcarse en las obligaciones deontológicas y normativas vigentes en materia de privacidad y secreto profesional. Aunque hoy por hoy en España no existe una ley específica que regule el uso de IA por abogados (ni que prohíba expresamente apoyarse en estas herramientas), ello no exime de aplicar el marco jurídico existente en protección de datos y deberes profesionales. Es fundamental recordar que el abogado sigue siendo el responsable último de la información que maneja y presenta, haya usado o no IA en el proceso. El Tribunal Constitucional español ya ha dejado claro que, “fuera cual fuese la causa” (incluso si se usó inteligencia artificial en la preparación), el letrado debe revisar exhaustivamente todo escrito o informe presentado; no hacerlo y confiar ciegamente sería negligencia sancionable. Aplicado a nuestro caso: si la IA marcó o no marcó cierto dato personal y ello resulta problemático (por ejemplo, quedó sin anonimizar un dato sensible que se filtró a terceros), el abogado no podrá escudarse en “lo hizo la máquina” – su deber de diligencia le obliga a comprobar que realmente se han eliminado correctamente todos los datos que se debían eliminar. En resumen, el uso de IA no disminuye la responsabilidad legal del abogado; más bien impone la necesidad de supervisión humana adicional para garantizar la precisión y el cumplimiento normativo en cada documento tratado.
Entrando de lleno en la protección de datos, tenemos dos vertientes: el cumplimiento durante el proceso de anonimización en sí (es decir, el tratamiento de datos que implica usar IA) y el cumplimiento respecto al resultado (el documento anonimizado y su consideración legal). Al subir un contrato o sentencia a una plataforma de IA basada en la nube, hay una comunicación de datos personales a un tercero (el proveedor de IA), lo que activa de lleno la aplicación del RGPD. La empresa o despacho debe asegurarse de que ese proveedor ofrece garantías adecuadas: por ejemplo, que haya suscrito las cláusulas contractuales tipo de la UE o esté adherido a un marco reconocido internacionalmente. En la práctica, esto significa revisar las condiciones de servicios como OpenAI, Azure, etc., y posiblemente firmar acuerdos de encargo de tratamiento. Una alternativa para evitar riesgos es optar por instancias europeas o auto-alojadas de los modelos, de forma que no haya transferencia de datos fuera del Espacio Económico Europeo.
Un reciente análisis de PwC España advierte precisamente que usar IA en nubes públicas o fuentes abiertas conlleva riesgos de privacidad y confidencialidad, instando a crear entornos seguros y modelos especializados para tratar información jurídica sensible. En este sentido, soluciones como Maite.ai ponen el acento en la privacidad: por diseño, anonimizan todos los datos que sube el usuario a la plataforma y no los almacenan ni usan para entrenar modelos. También Legora, en su despliegue en firmas como Pérez-Llorca, ha sido elegida en buena medida por sus garantías de confidencialidad y su integración con sistemas internos, protegiendo que la información no salga del despacho. Estos ejemplos muestran cómo la industria está buscando cumplir con el RGPD desde el primer momento, incorporando privacy by design. En definitiva, cuando usamos un modelo de IA para anonimizar, debemos hacerlo de forma que no violemos el RGPD en el intento de cumplir el RGPD – una ironía que conviene tener siempre presente. La recomendación general: contar con las autorizaciones necesarias (por ejemplo, del cliente cuyos documentos vamos a procesar con IA) o utilizar soluciones donde la información no sea retenida indebidamente por el sistema.
Ahora bien, ¿qué estatus jurídico tiene un documento anonimizado? Aquí es crucial distinguir entre seudonimización y anonimización, términos que el RGPD define y que no son equivalentes. La seudonimización consiste en tratar los datos de modo que no se puedan atribuir a un individuo sin información adicional (por ejemplo, reemplazar nombres por códigos), pero esa información adicional existe por separado y permitiría revertir el proceso. Es, por tanto, un proceso reversible; los datos seudonimizados siguen siendo datos personales a efectos legales, porque con la “llave” adecuada podrían reidentificarse. La anonimización, en cambio, implica una ruptura total e irreversible del vínculo entre los datos y la persona. Si se implementa correctamente, el resultado ya no se considera dato personal y queda fuera del ámbito de aplicación del RGPD. Esto lo reconoce el propio Considerando 26 RGPD: la información anonimizada, donde el interesado no es identificable “por ningún medio razonable”, no está sujeta a la normativa de protección de datos.
Por tanto, un documento bien anonimizado (sin posibilidad de reaparecer nombres mediante ninguna técnica o cruce de datos razonable) puede compartirse libremente desde el punto de vista del RGPD, igual que se comparte jurisprudencia pública. Lograr esa anonimización efectiva no es trivial: requiere quitar todos los identificadores directos y también indirectos (por ejemplo, cargos o combinaciones de datos que podrían señalar a alguien). La IA generativa puede ser una gran aliada para conseguirlo, siempre que se configuren bien sus criterios. Si por el contrario solo se sustituyen nombres por iniciales manteniendo una “tabla de equivalencias” (p. ej., Cliente A = Juan Pérez, almacenada aparte), estaremos en realidad seudonimizando – lo cual mejora la seguridad pero no libera del todo las cargas del RGPD. En la práctica legal, a veces se discute si ciertos datos quedan suficientemente anonimizados; la AEPD recomienda analizar caso por caso el riesgo de reidentificación, porque con grandes datasets y técnicas avanzadas a veces combinar fuentes podría llegar a identificar a alguien incluso tras un proceso de anonimización. Por ello, se debe ser prudente y aplicar técnicas sólidas (supresión, generalización, aleatorización, etc.), documentando que, objetivamente, revertir la anonimización requeriría medios desproporcionados o prácticamente imposibles.
Un punto crítico vinculado es el deber de secreto profesional y la ética del abogado. Cuando manejamos documentos confidenciales de clientes, introducirlos en cualquier sistema (sea IA u otro software) debe hacerse con cautela. Muchas cartas de encargo y normativas colegiales exigen no revelar información del cliente sin consentimiento. ¿Subir un documento a ChatGPT u otro modelo podría considerarse una revelación indebida? Si la plataforma no garantiza privacidad absoluta, podría haberlo. Por eso, reiteramos la importancia de usar entornos controlados o autorizados para estas tareas. De hecho, algunos colegios profesionales ya han emitido guías instando a los abogados a no introducir datos protegidos en herramientas de IA genéricas sin las debidas precauciones.
Por último, miremos hacia el futuro próximo: el Reglamento Europeo de IA (RIA). La Propuesta de Reglamento (UE) 2024/1689 (conocida como AI Act) clasificará los sistemas de IA por niveles de riesgo. Ciertas aplicaciones legales de IA podrían encajar como alto riesgo si influyen significativamente en decisiones que afecten a derechos de personas – pensemos en una IA que recomendase sentencias o decisiones de un caso, por ejemplo. Sin embargo, la tarea de anonimizar documentos con asistencia de IA difícilmente entraría en esa categoría a priori: se trata de una tarea interna, con supervisión humana, que no determina automáticamente un derecho de un ciudadano. Es más una actividad de cumplimiento normativo que un acto decisorio. Por tanto, no parece que vaya a ser catalogada como “alto riesgo” en el sentido del AI Act, lo cual simplificaría las cosas (no estaría sujeta a requisitos estrictos más allá de los generales de transparencia). De todos modos, el AI Act sí pone el acento en principios que nos atañen: por ejemplo, impone la garantía de anonimización y minimización de datos en los sistemas de IA. Es decir, se espera que cualquier IA que procese datos personales incorpore desde diseño medidas para proteger esa información (pseudonimización, anonimización, etc.).
En este caso de uso, podríamos decir que estamos usando IA precisamente para lograr la anonimización, lo cual está alineado con la filosofía de privacidad del futuro reglamento. Aun así, conviene que las organizaciones desarrollen políticas de IA responsable, evaluando los riesgos éticos (transparencia, posibles sesgos, calidad de las salidas) y manteniendo supervisión humana en todo momento. Muchas firmas legales ya están elaborando guías internas para el uso de IA, donde se establece qué herramientas se pueden usar y bajo qué condiciones, asegurando que nunca se comprometa el secreto profesional ni otras obligaciones.
En resumen, desde la óptica jurídica: se puede (y diría se debe) usar la IA para estas tareas pro compliance, pero con las debidas garantías. El abogado debe seguir controlando el proceso, el RGPD debe cumplirse tanto en medios como en fines, y no hay que bajar la guardia creyendo que “la máquina lo hará todo bien” sin nuestra vigilancia. Si se actúa con diligencia, la recompensa es grande: celeridad, exactitud y tranquilidad de estar cumpliendo al 100% con la normativa de protección de datos, algo que en última instancia redunda en mejor servicio al cliente y menor riesgo legal para todos.
Comparativa entre LLMs
En el mercado actual, existen distintas alternativas de modelos de lenguaje y herramientas para encarar la anonimización con IA, cada una con sus pros y contras. La elección del modelo es clave, y no todas las opciones rinden igual en contexto jurídico. A día de hoy, GPT-4 de OpenAI destaca por su sobresaliente comprensión del lenguaje natural (incluido el jurídico) y por su amplio contexto de entrada, ideal para documentos extensos. En pruebas, GPT-4 demuestra identificar con precisión entidades personales incluso en textos complejos o con jerga legal, y entiende matices en español casi tan bien como en inglés. Sin embargo, al ser un modelo generalista, hay que configurarlo cuidadosamente: por sí solo no anonimiza, hay que indicarle qué hacer (por ejemplo, mediante un prompt estructurado). Además, usar GPT-4 conlleva consideraciones de privacidad (es un servicio externo): sería crucial utilizarlo vía alguna plataforma que garantice no almacenar los datos enviados, o mediante Azure OpenAI (que ofrece instancias privadas).
LLMs de código abierto, por otro lado, ofrecen más control sobre los datos. Modelos como Llama 2 de Meta (o variantes entrenadas específicamente en español jurídico) se pueden desplegar en servidores propios, evitando que ningún dato salga al exterior. Esto es ideal para despachos celosos de la confidencialidad. No obstante, estos modelos “open” suelen ser más pequeños (parámetros y contexto) y tienden a perder precisión en detalles complejos frente a un GPT-4. En la práctica, modelos locales pueden funcionar bien para documentos cortos o para detectar datos básicos, pero en un contrato muy técnico es posible que se les escape algo o incluso que produzcan alguna alucinación si se les pide explicación. Requieren generalmente un mayor esfuerzo de ajuste (fine-tuning) por parte del usuario para alcanzar un desempeño similar al de los modelos comerciales punteros.
Entre ambos extremos surgen las herramientas especializadas “jurídicas”. Aquí entrarían soluciones como Maite.ai, Legora, Vincent AI y otras desarrolladas específicamente para el sector legal en español. Estas suelen combinar lo mejor de ambos mundos: en su núcleo usan modelos potentes (varias de ellas están basadas en GPT-4 o equivalentes), pero ajustados con conocimiento legal y montados sobre infraestructuras que cuidan la privacidad. Por ejemplo, Legora integra múltiples capas de IA y fuentes jurídicas para dar respuestas contextualizadas y fiables, y se conecta con el gestor documental del despacho para asegurar la confidencialidad tanto interna como externa. De hecho, firmas como Pérez-Llorca han adoptado Legora justamente por las garantías de seguridad de datos que ofrece además de su funcionalidad. Maite, por su parte, no solo responde preguntas legales sino que incorpora funciones automatizadas como la anonimización de datos sensibles e indexación de documentos, todo dentro de un entorno controlado.
Un punto fuerte de estas herramientas es que ofrecen resultados más centrados en lo que el abogado necesita, con menos riesgo de desvaríos o información irrelevante, ya que han sido entrenadas con documentos legales y prompts típicos del mundo jurídico. Por ejemplo, Harvey (otro copiloto legal, en inglés) o Lexis Contract Advisor utilizan modelos GPT-4 pero afinados con conocimiento legal específico, logrando respuestas más pertinentes y con menor tendencia a errores que un modelo genérico. En el contexto de la anonimización, es de esperar que las herramientas especializadas sepan reconocer incluso referencias legales que no deben anonimizarse (como el nombre de una ley o de una institución pública) diferenciándolas de datos personales de alguien, reduciendo falsos positivos. También suelen lidiar mejor con el idioma local: un modelo entrenado mayoritariamente en inglés podría patinar en entender abreviaturas o expresiones legales españolas, mientras que uno diseñado para español jurídico las comprende al dedillo.
Por último, cabe mencionar las versiones freemium o menos avanzadas de LLMs, como GPT-3.5 (el motor detrás de ChatGPT básico). Estos modelos son accesibles y rápidos, pero su rendimiento en tareas finas de anonimización es más limitado. Tienden a cometer más despistes con los matices o a “inventar” sustituciones incorrectas, por lo que si se utilizan habría que extremar la supervisión. En cambio, un modelo de última generación bien afinado puede lograr que la intervención humana sea casi solo de validación. En resumen, para un despacho preocupado principalmente por la calidad y que maneje documentos largos, GPT-4 (directo o mediante un servicio legaltech) seguramente dará los mejores resultados técnicos; para uno cuya prioridad número uno sea la confidencialidad absoluta, optar por un modelo open source (ej. Llama2) desplegado internamente puede ser preferible, asumiendo el trabajo extra de ajuste; y las herramientas especializadas ofrecen un equilibrio, ya que vienen con la privacidad “de serie” y con funcionalidades hechas a medida del abogado, a costa de depender de un proveedor legaltech concreto. Evaluar el caso de uso, el presupuesto y el marco de cumplimiento de la firma será clave en la elección. Eso sí, cualquiera que sea la opción, conviene realizar pruebas piloto y medir la tasa de acierto en la detección de datos personales antes de confiar ciegamente en el sistema.
Tips para «promptear» esta tarea
Lograr una anonimización óptima con un modelo de IA generalista depende en gran medida de cómo le formulamos la petición. A continuación, algunos consejos prácticos de “legal prompting” para esta función:
- Especificar claramente el objetivo y el alcance: En lugar de pedir algo vago como “Anonimiza este documento”, conviene detallar la instrucción. Por ejemplo: “Analiza el siguiente documento legal y elimina o reemplaza todos los datos personales que encuentres (nombres de personas físicas, direcciones, teléfonos, correos, números de DNI/NIF, fechas de nacimiento, etc.), cumpliendo con el RGPD. Mantén el resto del contenido sin modificar, solo sustituyendo los datos sensibles por etiquetas entre corchetes (ej: [NOMBRE], [DIRECCIÓN]). Indica el tipo de dato en la etiqueta cuando sea posible.” De este modo, la IA sabe qué buscar exactamente y cómo formatear la salida. Cuanta más claridad y ejemplos le demos en el prompt, mejor será el resultado.
- Proporcionar contexto legal si es relevante: Si el documento pertenece a un ámbito específico (p. ej., una sentencia penal o un contrato laboral), podemos indicárselo al modelo. También podemos mencionar normativas aplicables: “…cumpliendo con las definiciones de dato personal del art. 4 RGPD”. Esto ayuda a la IA a entender el tono y la importancia de no fallar. Incluir términos jurídicos precisos (por ejemplo “razón social de empresa – no anonimizar”, “nombre completo de persona física – anonimizar”) puede reducir ambigüedades y alinearse con nuestro criterio interno.
- Dividir la tarea en pasos si el texto es muy extenso: Si tenemos un documento excepcionalmente largo (decenas de páginas), una estrategia es primero pedir un listado de los datos personales detectados. Por ejemplo: “Enumera todos los nombres de personas, direcciones u otros datos personales que encuentres en el texto, indicando página y contexto.” Con esa lista, podemos verificar rápidamente si la IA identificó todo. Luego, le pedimos ya la versión anonimizada final basándose en esa detección. Otra táctica es procesar por secciones (capítulos, artículos…) y luego recombinar. Esto evita que el modelo se pierda en detalles si supera su capacidad de contexto, y asegura que cubra sistemáticamente todo el documento.
- Indicar el formato deseado de salida: En anonimización, queremos idealmente que el documento conserve su estructura. Podemos instruir: “Devuelve el texto íntegro del documento con los datos personales reemplazados por [ETIQUETAS] y sin otra alteración. Respeta el formato original de párrafos, listas, títulos, etc.” Si el modelo entiende que debe ser una suerte de “editor” y no un redactor creativo, se limitará a cumplir esa tarea mecánica con mayor fiabilidad. También es útil aclarar cómo señalizar datos numéricos (por ej. “[TELÉFONO]” para un número de teléfono) para que no los confunda con otra cosa. Un output bien estructurado y etiquetado nos agiliza la revisión
- Revisar con preguntas de control: Una vez que la IA entregue el resultado, no está de más hacerle una pregunta de verificación. Por ejemplo: “¿Queda en el texto anonimizado algún dato personal o referencia que permita identificar a alguien? Si es así, señálalo.” O incluso indicarle: “Revisa si el texto cumple con el RGPD y menciona cualquier dato confidencial que se haya escapado.” Aunque la respuesta del modelo no sea perfecta, este segundo pase con otro enfoque puede destapar algo que inicialmente omitió. En ciertos casos, hemos visto que un LLM puede descubrir en una repregunta algún detalle que se le pasó en la primera iteración.
- Combinar con herramientas tradicionales: La IA es una aliada potente, pero el doble check final es mandatorio. Después de la anonimización automática, es buena práctica pasar el documento resultante por herramientas ya conocidas: por ejemplo, usar la función “buscar” para localizar nombres propios comunes o números de 8 dígitos (posibles DNIs), revisar metadatos del archivo (autor, etc.) y, si es posible, aplicar algún software de análisis de texto que ya tuviéramos (como un script de búsqueda de patrones de datos personales). También podemos comparar la versión original y la anonimizada para asegurarnos de que la única diferencia sean los campos eliminados. Esta verificación manual o semi-automática garantiza que no queden cabos sueltos. Al final del día, la IA es un asistente, pero la última palabra la tiene el abogado: un repaso final humano – por breve que sea – nos da la tranquilidad de que no se alteró el sentido jurídico del documento ni quedó información sensible sin cubrir.
Siguiendo estos tips de “prompting” y controles, cualquier profesional jurídico puede aprovechar IA generalista para anonimizaciones con bastante confianza. La clave es comunicarse claramente con la máquina y no abdicar de la supervisión. La IA se encargará del trabajo pesado repetitivo, y el abogado aportará el ojo crítico. Esta sinergia garantiza que la tarea de anonimizar documentos se beneficie al máximo de la tecnología sin comprometer la seguridad jurídica ni la privacidad.
David Tejedor