Jun 17, 2022

Big data: ¿qué es y para qué sirve?

Big data es un término utilizado para definir un gran volumen de datos que se usan para analizar datos de comportamiento de usuarios, nuevas tendencias y nuevas tecnologías.

Introducción

La definición de big data es grandes cantidades de datos empleados para analizar comportamientos y tendencias que la mayoría de las máquinas y ordenadores no son capaces de procesar. Aquí te ayudaremos a entender qué es la big data, cuáles son los aspectos más importantes de ella y los casos de usos más relevantes.

Además, te ayudaremos a entender por qué las grandes empresas emplean esta herramienta y cuáles son los grandes retos de trabajar con este tipo de tecnología.

¿Qué es big data?

Se utiliza el término big data para referirnos a grandes cantidades de datos, tanto estructurados como no estructurados. Estos datos normalmente se almacenan en bases de datos que luego pueden ser empleados para múltiples tareas y proyectos. 

Más adelante, hablaremos exactamente de dónde proviene esta información y cómo la recopilan las empresas, sin embargo, estos datos suelen venir de múltiples fuentes de datos y, debido al volumen de datos que la conforman, hacen difícil su captura y manipulación.

Aunque el tamaño y las dimensiones de la big data no está completamente determinado, muchos expertos del área se refieren a esta cuando trabajan con datos que superan los 30-50 petabytes o se expresan en petabytes. Si no lo sabías, un terabyte representa 1000 gigabytes y un petabyte un millón de terabytes.

Algunas de las principales fuentes de información que proveen este tipo de datos son herramientas que utilizamos todos los días como las redes sociales, internet en general, nuestros smartphones, artículos que hay en internet de las cosas o IOT (Internet of Things) como parlantes inteligentes, marketing web, datos biométricos, etc.

Las tres V del big data

Como ya vimos, existen varios elementos característicos de la big bata, sin embargo, para poder entender completamente su complejidad existen tres conceptos básicos y muy importantes que debemos analizar: estos son las tres V de la big data:

  • Volumen: el volumen de los datos hace referencia a la gran cantidad de información que se genera y se recopila de manera constante. Algunas estimaciones del año 2020 indican que se generaron más de 40 millones de gigabytes durante ese año. ¡Una cantidad de información abismal!
    Es por esto que uno de los grandes retos de la big data es su almacenamiento y procesamiento. Debido a la gran cantidad de información que hay que manejar, se necesitan equipos avanzados y mucho más potentes que los sistemas tradicionales.
  • Velocidad: este aspecto es uno de los retos principales de las plataformas que trabajan con big data. A diario, se generan datos por muchas personas en todo el planeta, y estas plataformas deben ser capaces de poder acceder a dicha información, almacenarla y procesarla para que otras empresas puedan tomar mejores decisiones con ella. La velocidad se convierte en un aspecto demasiado importante cuando el tiempo de reacción tiene que ser casi a tiempo real, como en casos de detección de fraude, aeropuertos o entes gubernamentales.
  • Variedad: es muy importante entender que la big data no es homogénea. Con esto nos referimos a que no contienen el mismo tipo de datos. Como mencionamos con anterioridad, existen múltiples fuentes de información con diferentes tipos de formatos (fechas, timestamps, etc.).

Además, muchos de estos datos pueden estar estructurados como archivos XML, HTML, JSON, etc. Sin embargo, algunos pueden provenir de formatos como Word, PDF, entre otros, lo que hace que el proceso de unificación de datos sea muy complejo.

Suscríbete para recibir nuestros próximos artículos

¿De dónde provienen los datos?

Como has visto hasta ahora, hay muchos lugares de donde pueden provenir la información que conforman estos grandes clusters de datos. Para conformar estos grandes volúmenes de datos hace falta una gran cantidad de información y algunas de ellas provienen de actividades que hacemos en el día a día.

Mucha de esta información es recopilada por las grandes empresas de tecnología como Facebook, Google, Microsoft, Apple, Amazon, entre otras. Aquí veremos cuáles son algunas de las formas en que estas compañías recopilan nuestra información y cómo la utilizan.

Redes sociales

Como ya debes suponer, todo lo que hacemos dentro de las redes sociales son una fuente gigante de información para muchas empresas. Desde las publicaciones que hacemos por nuestros perfiles, hasta las publicaciones en las que nos detenemos a darles me gusta o compartir. 

Esta información les permite a empresas como Facebook saber qué tipo de contenido está teniendo más interacción y sobre la base de eso te harán recomendaciones para que pases más tiempo dentro de la plataforma.

Plataformas laborales como LinkedIn pueden saber cuánto tiempo duraste en un empleo y cuáles son tus principales habilidades. Esta información es extremadamente valiosa para empresas que se dedican a trabajar en la caza de talentos ejecutivos y reclutamiento. 

Máquinas a máquinas

Puede que cueste un poco imaginarlo, pero muchas de las máquinas que usamos en el día a día comparten información entre sí. Este tipo de intercambio también es conocido como M2M (machine to machine). 

Un ejemplo pueden ser los termómetros inteligentes, parquímetros y hasta los sistemas de riego de las ciudades, máquinas expendedoras de bebidas, el GPS en tu automóvil, contadores de electricidad, teléfonos móviles, etc.

Datos biométricos

Los datos biométricos son todos aquellos datos que son recopilados por artefactos como sensores de huellas dactilares, sensores de reconocimiento facial, escáneres de retina, reconocimiento de voz, lectores de ADN, etc. 

Este tipo de artefactos son más utilizados por empresas especializadas en seguridad de origen privado, corporativa, militar, servicios policiales o agencias de inteligencia.

Transacciones

Este tipo de información es recolectada cuando se realiza traspaso de dinero de un lugar a otro, cuándo reservar un boleto de avión, al agregar algún artículo a nuestro carrito de compras o comprar algún producto.

Marketing Web

No solo las redes sociales recopilan nuestros datos, cada interacción o movimiento que hagamos dentro de internet está sujeto a múltiples tipos de mediciones. Desde cuáles son los sitios que más visitamos, como interactuamos con ellos e inclusive cuáles son los espacios más vistos por los usuarios.

Muchos de estos datos son utilizados por científicos de datos para hacer «business intelligence», o inteligencia empresarial, para sus empresas o para ofrecerlo como servicios para otras empresas que quieran analizar el comportamiento de sus usuarios a gran escala.

¿Cómo se emplea el big data en las empresas?

Debido a que esta tecnología requiere de una gran cantidad de datos para poder ser considerada como big data, el almacenamiento de datos es uno de los pilares fundamentales para poder hacer uso de esta información de manera correcta.

Una de las principales herramientas usadas por los científicos de datos para analizar y procesar esta cantidad de información es crear sistemas que se encarguen de la extracción, transformación y carga de datos, mejor conocidos como ETL (extract, transform, load), según sus siglas en inglés.

Este tipo de sistemas son necesarios cuando se trabaja con grandes conjuntos de datos. Además, son muy útiles para depurar información proveniente de la minería de datos, en la integración de datos y en mejorar la calidad de los datos recolectados.

Como se trata de sistemas muy robustos, normalmente trabajan con un cluster de información a gran escala o de gran tamaño. Este paso es importante debido a que los datos pueden no contar con una estructura determinada. Existen tres tipos de formas en las que se pueden encontrar los datos:

Datos estructurados

Como bien lo dice su nombre, este tipo de datos son todos aquellos que ya cuentan con una estructura. En algunos casos, los datos estructurados pueden ser aquellos datos que nuestro sistema crea automáticamente o datos generados de nuestras acciones previas. A este tipo de datos se les llama creados y provocados, respectivamente.

Algunos datos estructurados pueden provenir de resúmenes de datos de empresas, servicios públicos como censos electorales, viviendas públicas, etc. 

Datos no estructurados

Este tipo de datos pueden ser recopilados de diferentes fuentes, pero no cuentan un orden específico o estructura, lo cual hace que su captura y procesamiento sea mucho más compleja

Algunos ejemplos pueden ser archivos sin un formato específico, por ejemplo documentos de texto en archivos de Word, PDF o correos electrónicos. Además, esta categoría también incluye contenido multimedia como audio, video o imágenes.

Datos semiestructurados

Estos datos obtienen esta clasificación debido a que a pesar de no contar con una estructura óptima, si cuentan con algún tipo de estructura flexible y con metadatos definidos que hacen que el procesamiento de los mismos sea mucho más eficiente.

Algunos de estos datos pueden venir en formatos como HTML, XML o JSON. Los cuales son los principales formatos utilizados por los exploradores para cargar sitios web. Además, aquí también se incluyen todos los documentos con formatos en CSV o en Excel.

Luego que todo el procesamiento de datos se hizo de forma efectiva, el siguiente paso es comenzar con el almacenamiento. Este paso es un proceso muy importante y el tipo de almacenamiento que se emplee dependerá de las necesidades de la empresa u organización.

Dentro de esta etapa existen múltiples opciones viables, sin embargo, una de las maneras más reconocidas es usar bases de datos relacionales, las cuales en su mayoría emplean un lenguaje de administración de datos llamado SQL. Este lenguaje es muy reconocido y uno de los más empleados en la industria. 

A pesar de que SQL es uno de los lenguajes más conocidos, existen muchas otras alternativas NoSQL como bases de datos en tiempo real o realtime databases. Estas bases de datos tienden a ser mucho más amigables de utilizar y en algunos casos pueden ser más efectivas para algunas tareas. Sin embargo, cuentan con problemas de escalabilidad.

Como hemos visto, el big data tiene múltiples usos y aplicaciones, sin embargo, algunos conjuntos de datos serán mucho más útiles para algunos sectores porque el tipo de datos importa. 

Vamos a ver algunos de los usos más conocidos e implementados por algunas empresas y cómo este análisis de datos puede ayudarlos en la toma de decisiones, generar nuevas oportunidades y nuevos productos:

  • Desarrollo de productos: Muchas empresas utilizan big data para prever la demanda de los clientes y, sobre la base de esta información, crear nuevos productos que se ajusten a las necesidades de sus audiencias.
  • Experiencia del cliente: Otras empresas emplean esta información para mejorar la experiencia de usuario en sus sitios web y aplicaciones. Al analizar grandes volúmenes de datos, estas empresas pueden ver cuáles son los elementos que pueden mejorar para maximizar la experiencia del usuario dentro de su sitio. Para esto emplean registros de llamadas, información de visitas a páginas web y otras fuentes para poder modificar estas imperfecciones y hacer que la sus plataformas sean lo más amigables posible para todos los usuarios.
  • Fraude y cumplimiento: El uso de big data ha probado ser muy útil durante los últimos años en la industria de la seguridad informática en la detección de piratas o hackers. También ha resultado una herramienta muy útil en la detección de fraude e incumplimiento de leyes. Muchas empresas utilizan big data para analizar documentos legales y encontrar patrones de fraude en ellos. Al mismo tiempo, esta información puede ser utilizada para generar nuevos patrones normativos y nuevas legislaciones.
  • Machine learning: El machine learning o aprendizaje automático es una de las áreas con más crecimiento de los últimos años y, en gran parte, es debido a la big data. Muchas empresas y organizaciones emplean esta tecnología para entrenar algoritmos que los ayuden a realizar tareas que de lo contrario tomarían mucho tiempo. Estas dos tecnologías combinan bien debido a que para poder crear modelos eficientes de machine learning hace falta mucha información. Es aquí donde la big data se convierte en una herramienta útil. Empresas que usan Big DataComo ya hemos visto, muchas empresas en la actualidad usan la big data para analizar el comportamiento de los usuarios y generar nuevos productos. Pero muchas organizaciones no se quedan ahí, algunas inclusive desarrollan nuevas tecnologías y utilizan machine learning para entrenar modelos de inteligencia artificial que les permitan tener una ventaja competitiva en su área

Ahora, vamos a ver algunas de las empresas más reconocidas en la industria y cómo utilizan la Big Data para mejorar sus servicios:

  • Netflix: Esta plataforma de streaming es uno de los más reconocidos en la industria por su extenso uso de la big data para la generación de contenido dentro de su plataforma. Esta empresa no solo utiliza esta información para sugerirte el contenido que se pueda relacionar más con tus intereses, también lo aplica en la creación y producción de sus contenidos. Uno de los casos más famosos fue la creación de la serie House of Cards, la cual fue creada sobre la base de información suministrada por los usuarios. Dicha información indicaba que había interés en series políticas con drama y, a su vez, había un pico de interés en el actor protagonista. La respuesta de Netflix fue esta serie y resultó un éxito rotundo al momento de su lanzamiento.
  • Amazon: el gigante del comercio electrónico es otra de las empresas que utiliza toda la data suministrada por sus usuarios para mejorar su oferta de servicios. Al igual que otras empresas, Amazon usa todos estos datos para ofrecer productos que puedan interesar a sus usuarios. No obstante, otro de los usos más interesantes que le da la plataforma a la big data es en la predicción de consumo de algunos artículos dentro de su sitio. Luego, sobre la base de esta información, se encargan de crear los productos dentro de su propia línea: AmazonBasics.

No olvides que si quieres conocer más temas interesantes como este puedes revisar nuestra sección de blog. Aquí encontrarás más información sobre el mundo de la tecnología, marketing y muchos más. 

Conclusiones

Bibliografía

Suscríbete a nuestro newsletter

Keep learning

Newsletter
Get great insight from our expert team.
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
By signing up you agree to our Terms & Conditions