La inteligencia artificial necesita datos. Grandes cantidades de datos. En todas y cada una de sus fases; desde el desarrollo del modelo hasta su perfeccionamiento y control. Sin datos no hay machine learning. Hoy por hoy, las funciones de aprendizaje de la inteligencia artificial descansan en el machine learning como sistema de desarrollo.
Las herramientas de inteligencia artificial necesitan datos: fáciles de usar, fáciles de entender, estructurados y no estructurados. Así que una gran parte del problema del machine learning es capturar los datos correctos, encontrarlos, moldearlos, limpiarlos y prepararlos para que los algoritmos puedan procesarlos y aprender de ellos.
¿A qué datos nos referimos?
Una forma fácil de entenderlo es ver los datos como toda aquella información que se puede capturar en una hoja de papel. Existen las variables continuas, es decir, elementos que pueden medirse como números, tiempos, tamaños, pesos, temperaturas, colores; y las variables categóricas o categorías, un poco como un encabezado en una lista, las categorías pueden ser cosas como fijo / roto, aceptable / inaceptable, o el país de nacimiento.
Hay dos tipos de datos clave que se usan sistemáticamente en el desarrollo de inteligencia artificial:
- Características: son los aspectos de un acontecimiento, un objeto, una persona que nos interesan. Estas pueden ser variables continuas o categorías. Por ejemplo, las características de una persona pueden incluir su altura (variable continua) y su deporte favorito (variable categórica).
- Etiquetas: son clasificaciones en las que colocamos a los acontecimientos, objetos o personas. Por ejemplo, podríamos etiquetar una croqueta como “buena” o “mala”; etiquetar a una persona como “de izquierdas”, “de derechas”, o etiquetar una imagen específica como “que contiene un perro” o “que no contiene un perro”.
Datos estructurados y no estructurados
Desde la perspectiva de la forma, existe otra clasificación de datos esencial que afecta directamente al procesamiento y entrenamiento de las herramientas de inteligencia artificial. Se trata de la distinción entre structured data (datos estructurados) y unstrcutured data (datos no estructurados).
- Structured Data: los datos estructurados son datos organizados en bases de datos relacionales (RDBMS), es decir, bases de datos que permiten reconocer la relación entre la información contenida en ellas.
Los distintos campos pueden contener números de teléfono, número de pasaporte, código postal, direcciones, nombres. Las bases de datos relacionales con datos estructurados se utilizan de forma habitual en sistemas de reservas de vuelos, control de inventario, ventas o control de la actividad de los cajeros automáticos. Asimismo, Google también usa los datos estructurados que encuentra en cada página web para comprender el contenido de la página e identificar cómo mostrar en los resultados de una búsqueda.La gran ventaja de contar con datos estructurados es que las “etiquetas” describen sus características, sus atributos y relaciones con el resto de datos. Esta estructura facilita enormemente la tarea de búsqueda. Tanto si lo que se pretende es resolver la duda de una persona o la pregunta generada por un algoritmo.
Además, resulta indiferente si los datos contenidos han sido generados por una persona o por una máquina, siempre que sigan la estructura RDBMS.
- Unstructured Data: los datos no estructurados pueden definirse por eliminación. Son esencialmente todos aquellos datos que no pueden considerarse datos estructurados. Los datos no estructurados, no están organizados y etiquetados para identificar relaciones significativas entre ellos. Se puede tratar de textos, de imágenes, pueden estar generados por personas (archivos de texto, redes sociales, emails, etc.) o máquinas (imágenes de satélites, vigilancia digital, datos científicos, etc.).
Suscríbete a nuestro newsletter aquí.