En el Big Data analizamos los siguientes tipos de datos:
Datos estructurados
Datos no estructurados
Datos semiestructurados
¿Qué son los datos estructurados?
Los datos estructurados están organizados y formateados de tal manera que se pueden buscar fácilmente en bases de datos relacionales.
Son archivos de tipo texto que se suelen mostrar en filas y columnas con títulos. Son datos que pueden ser ordenados y procesados fácilmente por todas las herramientas de minería de datos. Por ejemplo:
Los resultados de los cuestionarios de opción múltiple
Datos de ventas que se han recopilado de manera uniforme
Información de contacto del cliente (si se recopila de manera uniforme)
¿Qué son los datos no estructurados?
Los datos no estructurados no tienen un formato u organización predefinidos, lo que hace que sea mucho más difícil de recopilar, procesar y analizar.
Generalmente son datos binarios que no poseen una estructura interna. Se trata de un cúmulo de información que deben identificarse y almacenarse de forma organizada a través de una base de datos no relacional (NoSQL).
Algunos ejemplos de datos no estructurados son:
Datos de medios y entretenimiento, datos de vigilancia, audio, datos meteorológicos.
Facturas, registros, correos electrónicos.
Datos de sensores.
Aprendizaje automático, inteligencia artificial (IA)
¿Qué son los datos semiestructurados?
Es la información que no reside en una base de datos relacional ni en ninguna otra tabla de datos, pero que tiene algunas propiedades organizativas para facilitar su análisis, como las etiquetas semánticas.
Algunos ejemplos de datos semi-estructurados:
Lenguaje de marcado XML, cuya flexible estructura, basada en etiquetas, permite universalizar la estructura de datos, el almacenamiento y el transporte en la Web.
El estándar abierto JSON (JavaScript Object Notation), otro formato de intercambio de datos semi-estructurados que se utiliza mucho en la transmisión de datos entre aplicaciones web y servidores.
Las bases de datos NoSQL, que al no separar el esquema de los propios datos, son más flexibles. Permiten almacenar información que no se adapta bien al formato de registro/tabla, como por ejemplo, el texto de longitud variable. También facilitan el intercambio de datos entre distintas bases de datos.
Comentários