Resumen ejecutivo del Informe Global sobre Amenazas 2026 de CrowdStrike: el informe definitivo sobre inteligencia de amenazas para la era de la IA Descargar

Introducción a datos semiestructurados

En la era del big data, la información se presenta en diversas formas y tamaños, y no toda se ajusta a las bases de datos estructuradas tradicionales. Los datos semiestructurados son un tipo de datos que está ganado cada vez más importancia. En este artículo, nos adentraremos en el mundo de los datos semiestructurados, conoceremos su definición y sus características, y veremos algunos ejemplos reales para ilustrar la importancia que tienen en el panorama de los datos.

¿Qué son los datos semiestructurados?

Los datos semiestructurados son una categoría de datos que no se ajusta a la estructura rígida de las bases de datos relacionales tradicionales, pero sí presenta un cierto nivel de estructura. A diferencia de los datos estructurados, que están perfectamente organizados en filas y columnas, los datos semiestructurados ofrecen más flexibilidad en cuanto al modelado de datos. Representan un equilibrio entre el caos desestructurado de los documentos de texto y el estricto esquema de las bases de datos estructuradas.

Informe Global sobre Amenazas 2025 de CrowdStrike

Informe Global sobre Amenazas 2025 de CrowdStrike

Consigue el informe sobre ciberseguridad imprescindible de este año.

Características de los datos semiestructurados

Para entender mejor los datos semiestructurados, es fundamental reconocer sus características clave:

  1. Flexibilidad: los datos semiestructurados destacan por su flexibilidad y adaptabilidad. A diferencia de los datos estructurados, que siguen un esquema predefinido con tablas y columnas rígidas, los datos semiestructurados se adaptan a variaciones en la estructura. Esta capacidad de adaptarse es inestimable en situaciones en las que los datos pueden evolucionar con el tiempo o cuando hay diversas fuentes de datos.

  2. Naturaleza autodescriptiva: un sello distintivo de los datos semiestructurados es su naturaleza autodescriptiva. Suelen incluir metadatos o etiquetas dentro de los propios datos, lo que proporciona un contexto fundamental sobre el contenido y la estructura. Estos elementos de metadatos, como las etiquetas XML o pares clave-valor JSON, ofrecen información valiosa para interpretar los datos.

  3. Estructura jerárquica: los datos semiestructurados suelen emplear estructuras jerárquicas para presentar relaciones complejas. Los formatos como JSON y XML utilizan estructuras anidadas, lo que permite organizar los datos en forma de árbol.

  4. Evolución del esquema: a diferencia de los datos estructurados, en los que realizar cambios en los esquemas puede ser engorroso, los datos semiestructurados admiten la evolución de los esquemas. A medida que los requisitos de datos evolucionan, los datos semiestructurados se adaptan a los cambios fácilmente sin causar interrupciones.

  5. Compatibilidad con elementos no estructurados: los datos semiestructurados pueden incorporar elementos de datos no estructurados, como campos de texto libre o contenido sin formato.

Datos estructurados y datos no estructurados

Los datos semiestructurados son más flexibles que los datos estructurados porque estos están organizados de una manera muy sistemática y predecible (p. ej., en tablas de bases de datos). Gracias a este nivel de flexibilidad, pueden representarse relaciones y tipos de datos complejos que no se capturan con facilidad en los esquemas de bases de datos tradicionales.

Por otro lado, los datos no estructurados (que incluyen formatos como documentos de texto, imágenes y vídeos) carecen de orden o estructura reconocible. Los datos semiestructurados se diferencian de los datos no estructurados en que cuentan con algunos elementos identificables que sugieren una estructura subyacente, lo que los hace más sencillos de procesar y analizar. A continuación, figuran algunos ejemplos comunes de formatos de datos semiestructurados:

  • XML (Lenguaje de Marcado Extensible): un formato de texto flexible que se utiliza con frecuencia para intercambiar datos en Internet. Los datos XML consisten en una serie de elementos delimitados por etiquetas. Estas etiquetas pueden anidarse para representar estructuras jerárquicas complejas. 
  • JSON (Notación de Objeto de JavaScript): un formato de intercambio de datos ligero que es fácil de leer y escribir para los humanos y fácil de analizar y generar para las máquinas. JSON suele utilizarse para transmitir datos en aplicaciones web. 
  • CSV (Valores Separados por Comas): un formato sencillo que se utiliza para almacenar datos tabulares, como hojas de cálculo o bases de datos. Cada línea de un archivo CSV corresponde a un registro de datos, con campos separados por comas. 

Al ofrecer un término medio, los datos semiestructurados proporcionan un formato versátil que puede adaptarse a distintas necesidades, lo que los convierte en un componente crucial en la gestión de la información digital.

Importancia de los datos semiestructurados

La flexibilidad de los datos semiestructurados y su facilidad de uso los convierten en una opción ideal para muchas aplicaciones modernas en las que los datos estructurados son demasiado limitantes y los no estructurados demasiado engorrosos para un análisis eficiente. La estructura inherente de los datos semiestructurados (como el uso de etiquetas en XML o pares clave-valor en JSON) facilita el análisis y la interpretación en comparación con los datos que no están estructurados en absoluto. Además, gracias a esta estructura, las herramientas y los sistemas de análisis de datos pueden asimilar con mayor facilidad los datos semiestructurados, lo que incrementa la eficiencia del procesamiento y el análisis.

Casos de uso de datos semiestructurados en distintos sectores

Los datos semiestructurados se utilizan en una variedad de sectores para diversas aplicaciones:

  • Comercio electrónico: los comercios minoristas por Internet utilizan habitualmente los formatos XML y JSON para gestionar el intercambio de datos basado en la web, incluidos catálogos de productos, reseñas de clientes y datos de transacciones.
  • Sector sanitario: los historiales médicos suelen combinar datos estructurados y no estructurados. Los formatos como HL7 (un conjunto de estándares internacionales para la transferencia de datos clínicos y administrativos), están semiestructurados y se utilizan ampliamente en los sistema de información sanitaria.
  • Banca y finanzas: las instituciones financieras utilizan datos semiestructurados para procesar transacciones, realizar análisis de riesgos y elaborar informes de cumplimientos normativo. Los formatos de datos como el protocolo FIX (Financial Information eXchange) son ejemplos de datos semiestructurados en este sector.
  • Redes sociales y marketing digital: las redes sociales y las plataformas de marketing digital almacenan y procesan grandes cantidades de datos de usuarios, siendo muchos datos semiestructurados. Esto incluye datos JSON de interacciones de usuarios, contenido con me gusta, contenido compartido y comentarios.

Retos que se presentan a la hora de proteger datos semiestructurados

Proteger los datos semiestructurados, especialmente cuando están en movimiento, presenta retos verdaderamente únicos. A medida que estos datos se mueven por las redes y entre las aplicaciones, se convierten en un blanco fácil para su interceptación, acceso no autorizado y manipulación. Las mismas características que hacen que los datos semiestructurados sean flexibles y fáciles de usar, como sus distintos formatos y la inclusión de metadatos, también los convierten en un objetivo complejo para los protocolos de seguridad.

Garantizar la integridad y confidencialidad de los datos cuando atraviesan varias capas de la red requiere mecanismos de cifrado sólido y medidas de seguridad dinámicas. Asimismo, el volumen y la velocidad de los datos semiestructurados en entornos como la computación en la nube y el análisis en tiempo real complican aún más su seguridad.

Los datos semiestructurados tienen algunas vulnerabilidades propias:

  • Formatos incoherentes: el hecho de no contar con un formato estándar puede dificultar la aplicación de medidas de seguridad uniformes en los diferentes tipos de datos semiestructurados.
  • Metadatos incrustados: estos datos suelen contener metadatos que pueden revelar información confidencial, lo que los convierte en un objetivo para las brechas de datos.
  • Complejos requisitos de análisis: la necesidad de contar con analizadores especializados para leer y escribir datos semiestructurados puede introducir vulnerabilidades de seguridad si estos analizadores no están diseñados teniendo en cuenta el aspecto de la seguridad.

Descripción general de las medidas de seguridad tradicionales y las limitaciones que conllevan

Aunque pueden resultar eficaces para los datos estructurados, las siguientes medidas de seguridad tradicionales suelen quedarse cortas cuando se aplican a datos semiestructurados:

  • Cifrado de datos: aunque es un mecanismo esencial, es posible que el cifrado por sí solo no sea suficiente. Como suele ser necesario descifrar los datos semiestructurados sobre la marcha para su procesamiento y análisis, pueden volverse vulnerables durante estas operaciones.
  • Controles de acceso: es posible que los mecanismos estándar de control de acceso no sean lo suficientemente detallados para manejar los matices de los datos semiestructurados, especialmente cuando se trata de datos con estructuras variables y complejas.
  • Enmascaramiento de los datos y tokenización: estas técnicas pueden proteger datos confidenciales, pero aplicarlas de manera uniforme a diversos formatos semiestructurados puede resultar complicado.

Para abordar todos estos retos, se necesita una estrategia de seguridad de los datos más avanzada y precisa, que reconozca las características específicas y los patrones de uso de los datos semiestructurados. Las empresas y organizaciones recurren cada vez más a este tipo de datos para operaciones críticas; por eso, es fundamental adoptar estrategias de seguridad sofisticadas y adaptables. En la siguiente sección, analizaremos cómo algunas innovaciones, especialmente en el ámbito de los modelos de lenguaje grande (LLM), están empezando a ofrecer soluciones prometedoras a estos retos de seguridad tan complejos.

Informe sobre Threat Hunting 2024

En el Informe sobre Threat Hunting 2024 de CrowdStrike, se desvelan las últimas tácticas de más de 245 adversarios modernos, y se muestra cómo sus ataques siguen evolucionando e imitando el comportamiento de usuarios legítimos. Accede aquí a información para evitar las brechas. 

Descargar ahora

Cómo los LLM mejoran la seguridad de los datos semiestructurados 

La integración de los LLM en la seguridad de los datos supone un avance muy importante para la protección de los datos semiestructurados. Los LLM, conocidos por su capacidad para procesar y entender el lenguaje humanos y basados en la IA, se están utilizando ahora para mejorar la seguridad de los datos. Los LLM son especialmente hábiles en el análisis y la interpretación de datos semiestructurados, y pueden tomar decisiones basadas en su contenido y contexto, por lo que aportan un enfoque más dinámico e inteligente a la protección de los datos. 

A continuación, enumeramos algunas formas en las que los LLM mejoran la seguridad de los datos semiestructurados:

  • Análisis en tiempo real y detección de anomalías: los LLM pueden monitorizar continuamente los flujos de datos en busca de patrones inusuales o posibles amenazas de seguridad, lo que suele ser especialmente útil para los datos en movimiento, ya que las medidas de seguridad tradicionales pueden no ser capaces de detectar anomalías con la suficiente rapidez.
  • Comprensión contextual para la protección de datos: estos modelos entienden el contexto y la semántica de los datos, lo que les permite identificar y proteger la información confidencial de forma más eficaz. Esta capacidad es fundamental para los datos semiestructurados, que pueden ser muy variados en cuanto al formato y el contenido.
  • Cumplimiento automatizado e implementación de directivas: como comprenden el contenido de los datos, los LLM pueden ayudar a garantizar que el tratamiento de los datos cumpla con las regulaciones y directivas organizativas pertinentes, al aplicar de manera automática los controles y las protecciones que sean necesarios.

La aplicación de los LLM en la seguridad de los datos representa un cambio de los sistemas de seguridad tradicionales, basados en reglas, a soluciones más inteligentes y adaptativas, capaces de comprender y responder a las complejidades de los datos semiestructurados. Esta evolución es fundamental en el contexto actual, en el que las brechas de datos son cada vez más sofisticadas y la cantidad de datos que se procesa sigue creciendo exponencialmente.

Ejemplos de LLM aplicados a la seguridad de los datos semiestructurados

Los LLM suponen un avance muy importante en la seguridad de los datos semiestructurados. Al alimentarse de conjuntos de datos muy amplios y diversos, estos modelos tienen la capacidad única de imitar la comprensión humana del texto. Esta funcionalidad no solo es útil para generar respuestas similares a las humanas, sino también para comprender e interpretar los datos semiestructurados.

Los LLM ofrecen una precisión sin precedentes en lo que respecta a la clasificación de datos, especialmente para formatos de datos no estructurados. Pueden identificar una amplia gama de tipos de datos con una precisión extraordinaria​​. Esto supone una mejora considerable con respecto a los algoritmos tradicionales de reconocimiento de entidades nombradas (NER), como la memoria larga a corto plazo (LSTM), que están limitados en cuanto al rango de clases de datos reconocibles y tienen dificultades para entender el contexto​​. 

Para la seguridad de los datos semiestructurados, los LLM pueden emplearse para la clasificación y el análisis de datos en tiempo real. Y es que estos modelos pueden discernir de forma inteligente los distintos formatos y estructuras dentro de los flujos de datos semiestructurados, e identificar datos confidenciales o críticos para tomar las medidas de seguridad adecuadas. Por ejemplo, un sistema de clasificación de datos basado en LLM puede detectar automáticamente datos de identificación personal en un archivo JSON y aplicar el cifrado o la redacción según sea necesario, incluso si el formato del archivo JSON cambia de un documento a otro.

La adaptabilidad y la comprensión del contexto de los LLM a la hora de gestionar la seguridad de datos semiestructurados es un avance importante, ya que abre la puerta a aplicaciones de seguridad más granulares y precisas, que adapten la protección a las necesidades concretas de cada instancia de datos y, por tanto, mejoren la seguridad general de los datos, así como el cumplimiento de los requisitos normativos.

Protege tus datos semiestructurados con CrowdStrike

Los datos semiestructurados ocupan una posición única en el panorama digital, ya que logran un equilibrio entre la rigidez de los datos estructurados y la flexibilidad de los datos no estructurados. Su versatilidad los convierte en un recurso de alto valor para diversos sectores, y ofrece ventajas en términos de adaptabilidad y facilidad de uso.

Sin embargo, la seguridad de los datos semiestructurados, en particular de los datos en movimiento, presenta una serie de retos concretos. Sus distintos formatos y su naturaleza dinámica les exponen a vulnerabilidades únicas que las medidas de seguridad tradicionales no suelen estar preparadas para abordar. Con la aparición de los LLM, las organizaciones tienen a su disposición soluciones que reconocen el contexto y que pueden gestionar de forma inteligente la variabilidad inherente de los datos semiestructurados, protegiéndolos tanto en reposo como en tránsito. 

Las capacidades de gestión de la posición de seguridad de los datos (DSPM) de CrowdStrike Falcon® Cloud Security aprovechan los LLM para mejorar la protección de los datos semiestructurados al permitir que se produzca una clasificación avanzada y un análisis contextual. Estos modelos pueden identificar con gran precisión datos confidenciales, incluida la información de identificación personal (PII) y propiedad intelectual, dentro de formatos semiestructurados, como logs o correos electrónicos. Asimismo, los LLM sirven de ayuda para entender los flujos de datos y las relaciones, lo que permite al sistema aplicar automáticamente las directivas de protección adecuadas. Al utilizar la información basada en LLM, las organizaciones pueden mejorar su posición de seguridad y reducir el riesgo de acceso no autorizado a datos esenciales.

Dana Raveh ocupa el puesto de Director of Product Marketing para la seguridad de datos y de la nube en CrowdStrike. Antes de unirse a CrowdStrike, Dana lideró equipos de marketing en startups de ciberseguridad como Seemplicity Security y Flow Security (adquirida por CrowdStrike), donde ocupó el cargo de vicepresidenta de marketing. También ha ocupado diversos puestos de marketing y gestión de productos en diferentes organizaciones globales, como Checkmarx. Obtuvo un doctorado en neurociencia cognitiva en el University College de Londres.