CamoText Pro: Software de Anonimización de Texto Sin Conexión

6 de marzo de 2025

CamoText Pro es una aplicación de escritorio liviana, con una interfaz de usuario sencilla y sin retención ni comunicación de datos—ideal para sanitizar texto antes de utilizarlo con inteligencia artificial generativa y modelos de lenguaje de gran escala (LLMs).

CamoText Pro: Software de Anonimización de Texto Sin Conexión

Antecedentes

CamoText nació de la experiencia directa de un abogado en ejercicio1 con los desafíos de mantener la confidencialidad del cliente mientras se aprovecha la IA generativa y los LLMs para el análisis de texto, la investigación y la generación de formularios. La redacción completamente manual era demasiado lenta, pero las soluciones de anonimización existentes basadas en la nube y que dependen de APIs presentaban extensos riesgos de privacidad y problemas de privilegio y cumplimiento—era necesaria una nueva herramienta para hacer la anonimización de texto rápida, intuitiva y segura.

Una investigación de mercado reveló que todas las herramientas o servicios de anonimización estaban alojados en servidores de terceros (introduciendo así riesgos de seguridad de datos, privacidad y privilegios) o solo eran utilizables mediante línea de comandos u otras interfaces técnicamente sofisticadas en hardware con suficiente rendimiento, en lugar de ser una aplicación sencilla de descargar y usar.

Por ello, CamoText fue diseñado para:

  • ser privado y compatible por diseño, con cero conectividad externa y cero datos de usuario retenidos
  • ser fácil de usar, con una interfaz sencilla y familiar
  • funcionar bien en una computadora portátil promedio
  • garantizar que sus anonimizaciones sean irreversibles por terceros, y
  • garantizar que el humano en el circuito pueda revisar y anonimizar texto después de la autodetección o revertir falsos positivos.2
  • Los Problemas de Privacidad de la IA Impiden la Adopción

    Sin instalaciones costosas y complejas de hardware local, todos los servicios de IA actuales—personales, empresariales, gubernamentales y profesionales—requieren que sus usuarios transmitan texto sin cifrar a servidores externos para su procesamiento.

    Este requisito de enviar texto y datos a ciegas genera comprensibles dudas sobre el uso de la IA en el entorno laboral. Para las agencias gubernamentales, esa vacilación puede deberse a la necesaria adhesión a las leyes de privacidad de datos, directrices de agencias y políticas de confidencialidad; para los abogados, la privacidad del cliente y el privilegio sobre materiales; para los profesionales de la salud, el cumplimiento de HIPAA; para las startups, la filtración de secretos comerciales y diseños de productos. La lista continúa.

    Esas dudas están bastante justificadas: la cantidad de información personal y confidencial que se entrega libremente a la IA, y la capacidad de la IA para extrapolar detalles y repetir texto enviado por usuarios, es alarmante:

    "Dado que los LLMs son propensos a la memorización y pueden reproducir datos de entrenamiento bajo ciertas condiciones, la presencia de tales divulgaciones sensibles en sus corpus de entrenamiento genera preocupaciones sobre la regurgitación de PII o temas sensibles en futuras respuestas."3

    En otras palabras, no solo es problemática la mera entrega de datos sensibles a terceros por los temores habituales de uso indebido por parte de los controladores de datos o violaciones de seguridad, los LLMs pueden regurgitar detalles exactos proporcionados por los usuarios a otros, tanto voluntariamente como en respuesta a una consulta o prompt específico que solicite dicha información.

    La Solución de CamoText

    Los flujos de trabajo seguros de IA deben involucrar un diseño consciente de arriba a abajo y el empoderamiento del humano en el circuito, pero el primer paso es evitar que la mayor cantidad posible de texto sensible salga de la fuente. CamoText garantiza que el proceso de anonimización se realice completamente en la computadora del usuario, permitiendo luego copiar y pegar el texto sanitizado donde se desee, como para indicarle al LLM de su elección (por ejemplo, ChatGPT o Claude) que analice el texto para un propósito específico o genere un formulario básico a partir del contexto.

    La aplicación no puede acceder a internet y se reinicia completamente al cerrarse.

    Actualmente, CamoText utiliza procesamiento de lenguaje natural4 y coincidencia de patrones personalizada para detectar y anonimizar numerosas categorías diferentes de texto que comúnmente se consideran PII (información de identificación personal) o de otro modo comercialmente sensibles:

  • PERSONA: nombres completos o parciales que podrían identificar a una persona. Ej.: Juan Pérez.
  • ORGANIZACION: organizaciones, asociaciones, instituciones y grupos. Ej.: Cruz Roja, Naciones Unidas.
  • EMAIL: direcciones de correo electrónico reconocidas. Ej.: persona@domain.es
  • NUMERO: números de teléfono y otros números/identificadores similares en varios formatos, incluido el internacional. Ej.: +1 202-555-0123, 555-123-4567.
  • ID_FISCAL: identificaciones fiscales.
  • DOCUMENTO_IDENTIDAD: documentos o números nacionales de identidad.
  • IMPORTE: cantidades monetarias con símbolo o referencia de moneda. Ej.: $1,250.00, 100 euros.
  • EMPRESA: nombres de empresas o entidades jurídicas. Ej.: CamoText S.A.
  • TARJETA: cadenas numéricas que coinciden con patrones comunes de tarjetas de crédito.
  • US_ITIN: Número de Identificación Personal del Contribuyente de EE. UU.
  • FECHA: fechas en varios formatos. Ej.: 01/01/2001, 1 de ene. de 2001, F.N. 1 de ene. de 2001.
  • DIRECCION: direcciones en general.
  • DIR_POSTAL: líneas de dirección postal, nombres de calles, números, etc.
  • UBICACION: ubicaciones geográficas generales.
  • CRIPTO: direcciones de criptomonedas. Ej.: Bitcoin, Ethereum/EVM, Solana.
  • URL: direcciones web o hipervínculos. Ej.: https://ejemplo.es.
  • CUENTA: identificadores de cuenta, PIN y nombres de usuario. Ej.: @CamoText1.
  • LICENCIA_MEDICA: cadenas que coinciden con patrones comunes de licencia médica.
  • SSN_USA: cadenas que coinciden con el patrón del número de seguro social de EE. UU.
  • PASAPORTE: cadenas que coinciden con el patrón de número de pasaporte de EE. UU.
  • LICENCIA_CONDUCIR: números de licencia de conducir.
  • DIRECCION_IP: direcciones IPv4 e IPv6. Ej.: 192.168.0.1.
  • CUENTA_BANCARIA: números de cuenta bancaria.
  • IBAN: códigos bancarios IBAN.
  • RUTA_BANCARIA: números de ruta bancaria.
  • UUID: identificadores UUID/GUID. Ej.: 123e4567-e89b-12d3-a456-426614174000.
  • ID_MEDICO_USA: Identificador de Beneficiario de Medicare (MBI).
  • ID_SALUD_RU: número de identificación del Servicio Nacional de Salud del Reino Unido.
  • VIN: números de identificación vehicular.
  • ARCHIVO: rutas o nombres de archivo comunes.
  • GPS: coordenadas GPS en formatos comunes. Ej.: 38°53'48.1"N 77°00'23.1"W.
  • GRUPO_IDENTITARIO: grupos identitarios o demográficos.
  • NACIONALIDAD: nacionalidades, afiliaciones políticas o religiosas.
  • MARCA_REGISTRADA: términos adyacentes a símbolos de marca registrada.
  • PRIORIDAD: cualquier texto ingresado por el usuario en la ventana "Prioridades" que no tenga una etiqueta personalizada.
  • RESALTADO: cualquier texto resaltado y anonimizado manualmente por el usuario.

  • CamoText no es perfecto en la detección y anonimización de texto sensible porque nada lo es—si un término o pasaje dado es confidencial es a menudo subjetivo y depende de las circunstancias y preferencias de cada usuario.

    Es imprescindible que los usuarios tengan una forma fácil de anonimizar manualmente el texto que la autodetección haya podido omitir o que consideren confidencial, privilegiado o sensible, incluyendo secciones o páginas completas. Por ello, CamoText cuenta con una función sencilla de resaltar y anonimizar para texto de cualquier longitud junto con los términos detectados.

    Funciones Principales

    Además de la detección automática, CamoText Pro ofrece un conjunto completo de herramientas diseñadas para adaptarse a diferentes flujos de trabajo profesionales:

    • Modo por Lotes: Procese múltiples archivos de una carpeta de una sola vez, agilizando la anonimización de grandes volúmenes de documentos.
    • Modo de Redacción: Reemplace todos los elementos detectados con marcadores [REDACTADO] en lugar de tokens con hash, ideal para presentaciones formales o documentos legales.
    • Des-Anonimización: Restaure los términos originales en documentos anonimizados utilizando la clave de anonimización guardada, permitiendo la reversibilidad interna cuando sea necesario.
    • Prioridades: Etiquete términos específicos con etiquetas personalizadas para referencia contextual (por ejemplo, CLIENTE, CONTRAPARTE), manteniendo la claridad del documento anonimizado.
    • Resaltar para Anonimizar: Seleccione manualmente cualquier texto para anonimizarlo con un clic, complementando la detección automática.
    • Preservación de Formato: Mantenga el formato del documento original en los archivos de salida, asegurando que los documentos anonimizados conserven su estructura profesional.
    • Eliminación de Metadatos: Elimine automáticamente todos los metadatos incrustados de los archivos de salida, evitando la filtración inadvertida de información del autor, fechas de edición y otros datos ocultos.

    Deje que el Código Haga el Trabajo

    CamoText Pro es una aplicación de escritorio para Windows y macOS, disponible para descargar ahora. Envíe un correo a contact@camotext.ai para patrones de reconocimiento personalizados, consultas de implementación, capacitación y otras opciones disponibles para empresas.

    Las futuras versiones seguirán priorizando los comentarios de los usuarios, mejores algoritmos de detección y categorías más amplias de PII, sin dejar de priorizar la usabilidad en computadoras básicas. Como se indica en el sitio web,5 los clientes reciben acceso gratuito a las actualizaciones durante el año siguiente a su compra, incluso si el precio aumenta para su versión.

    El rendimiento exacto depende de la máquina del usuario y otras aplicaciones abiertas, pero en una computadora portátil de seis años con 8 GB de RAM y un procesador i5, CamoText analizó 10,000 palabras (aproximadamente 25 páginas) en alrededor de 2 segundos.

    Lo que comenzó como una solución para un solo despacho jurídico ha evolucionado en una herramienta potente diseñada para profesionales de todas las industrias. CamoText es una herramienta que aumenta la productividad, diseñada para ayudar a las organizaciones a adoptar la innovación de IA manteniendo los más altos estándares de cumplimiento, partiendo desde una posición de seguridad y privacidad. El humano en el circuito tiene el control definitivo para determinar qué puede leer la IA.

    Visite nuestro sitio para ver un video de demostración, revisar las funciones y ponerse en contacto.

    camotext.ai/es


    Notas al Pie

    1. Varia Law
    2. CamoText: Funciones
    3. Trust No Bot: Discovering Personal Disclosures in Human-LLM Conversations in the Wild. Sección 5.1, p. 13.
    4. Incluyendo un modelo local integrado de SpaCy. Algunos lectores con conocimientos técnicos podrían preguntarse: ¿por qué no construyo esto yo mismo con mis propios patrones y Cursor/Windsurf/etc.? Pues bien, porque estas herramientas ya fueron aprovechadas en la construcción de CamoText, ¡y el refinamiento y las pruebas de las capacidades e interfaz del software aún tomaron meses!
    5. CamoText: Precios