Show logo

Explosión de los datos

  |  Command Line Heroes Team   Historia de la tecnología

Command Line Heroes • • Command Line Heroes: segunda temporada: La explosión de los datos

Command Line Heroes: segunda temporada: La explosión de los datos

About the episode

El big data nos ayudará a resolver grandes problemas: cómo cultivamos alimentos; cómo entregamos suministros a los necesitados; cómo curamos las enfermedades. Pero primero tenemos que aprender a manejarlo.

La vida moderna está llena de dispositivos conectados. Actualmente, en un solo día generamos más datos de los que habíamos recopilado en miles de años. Kenneth Cukier explica cómo ha cambiado la información, y cómo empieza a cambiarnos a nosotros. La Dra. Ellen Grant nos cuenta que el Hospital Infantil de Boston utiliza software de código abierto para transformar los grandes volúmenes de datos en tratamientos personalizados. Y Sage Weil explica que el almacenamiento escalable y resistente de Ceph en la nube nos ayuda a administrarlos.

Recopilar información es indispensable para poder entender el mundo que nos rodea. El big data nos ayuda a seguir con nuestros interminables descubrimientos.

Command Line Heroes Team Red Hat original show

Suscribir

Subscribe here:

Listen on Apple Podcasts Listen on Spotify Subscribe via RSS Feed

Transcripción

Si tomamos todos los datos humanos que se generaron desde el principio de los tiempos hasta 2003, tendríamos alrededor de cinco millones de gigabytes de datos. ¿Cuántos gigabytes de datos generamos ayer? ¡Uy! ¿Como 100.000? ¿Como cinco millones de gigabytes? ¿Cuántos gigabytes de datos generamos ayer, en un día? ¿10 millones de gigabytes? Yo diría, no sé, ¿tal vez dos millones? ¿Quizás un millón de gigabytes en un día? ¿La respuesta? Más de 2.500 millones. ¡Guau! ¿Dos mil quinientos millones? Ya superamos el récord mundial. Son muchos gigabytes. Son muchísimos datos. No puedo creerlo. En 2016, el tráfico de datos anual que generamos en línea por primera vez rebasó un zetabyte. Para darse una idea, son mil trillones de bytes. ¿Alcanzas a imaginarte ese número? Ahora triplícalo, porque esa es la cantidad de datos que tenemos en 2021. Ya sé, el cerebro no está hecho para pensar en zetabytes, pero acuérdate de este dato un segundo. Nuestro tráfico de IP se triplicará en cinco años. Es una inundación de datos, y nosotros estamos en medio. En este último minuto que pasó, la gente envió 16 millones de mensajes de texto, y en el tiempo que me llevó decir esta frase, Google procesó 200 000 búsquedas. Dentro de esa inundación de datos hay patrones, respuestas y secretos que pueden mejorar enormemente nuestras vidas, siempre y cuando podamos mantenernos de pie cuando llegue. Esto es Command Line Heroes en español, un podcast original de Red Hat. Ya se alcanzan a ver olas gigantescas en el horizonte. Este es el episodio 6 de la temporada 2: la inundación de datos. ¿Cómo manejamos cantidades tan enormes de datos? ¿Cómo haremos uso de ellos una vez capturados? El big data resolverá algunos de nuestros problemas más complicados. Cómo gestionamos el tráfico. Cómo cultivamos los alimentos. Cómo entregamos suministros a quienes los necesitan. Pero eso solo sucederá cuando entendamos cómo trabajar con todos esos datos, cómo procesarlos y a una velocidad vertiginosa. Al tener más datos, podemos profundizar en los subgrupos, las particularidades y los detalles como nunca antes. Kenneth Cukier es editor principal en The Economist y también es anfitrión de un podcast de tecnología que se llama Babbage. No es que antes no pudiéramos recopilar los datos. Podíamos hacerlo, pero era muy, muy costoso. La verdadera revolución es que podemos recopilar estos datos muy fácilmente. Es muy económico y el procesamiento es muy sencillo porque todo lo hace una computadora. Esto se ha convertido en la gran revolución de nuestra era, y probablemente sea el aspecto más determinante de la vida moderna, y lo será durante las próximas décadas, y tal vez durante el próximo siglo. Por eso el big data es tan importante. Para recordar lo radical que ha sido ese cambio, necesitamos hablar un poco de historia. Piénsalo, hace 4000 años, tallábamos todos nuestros datos en bloques de lodo seco. Los discos de arcilla eran pesados. Los datos que se imprimen en ellos ya no se pueden cambiar después de hornearlos. Todas las características de cómo se procesaba, almacenaba, transfería y generaba la información han cambiado, ¿no es así? Han cambiado, y mucho. Alrededor del año 1450, vemos la primera revolución de la información con la invención de la imprenta. Y en la actualidad tenemos nuestra propia revolución. Es liviana. Puede cambiarse con mucha facilidad porque podemos simplemente usar la tecla eliminar y cambiar la instancia de la información que tenemos. ya sea en la cinta magnética o en la transición de los transistores electrónicos y los procesadores que tenemos. Podemos transportarla a la velocidad de la luz, a diferencia de un disco de arcilla, que hay que cargar. La Imprenta aumentó nuestro nivel de comprensión de las cosas con la inundación de datos del siglo XV, que posteriormente llevó al Renacimiento. Y con el tiempo llegó la revolución científica. En las ciencias, podemos rastrear una línea muy directa desde más datos hasta el nivel de conocimiento y descubrimiento. Y como dice Kenneth, nuestros datos modernos están haciendo algo muy similar. Empezamos a ver las primeras aplicaciones de eso, ya sea en las ciencias de la vida, la medicina, las ciencias de los materiales... Tenemos una comprensión cada vez más profunda del mundo, lo que nos permite intervenir en la realidad de manera eficaz de maneras que hace unos años simplemente no eran posibles. Un ejemplo perfecto de esto está sucediendo en el Hospital Infantil de Boston. Están utilizando big data para ayudar a los niños que necesitan cirugía cerebral. Los niños que tienen epilepsia, por ejemplo. Soy Ellen Grant. Soy directora del Centro de ciencias de desarrollo y neuroimagenología fetal y neonatal del Hospital Infantil de Boston. También soy profesora adjunta de radiología de la Facultad de Medicina de Harvard. Ellen y su equipo han estado desarrollando algo llamado ChRIS, que significa Children's Research Integration System. Es una plataforma de código abierto que permite a los médicos analizar grandes cantidades de datos de imágenes médicas de manera mucho más eficiente. Tradicionalmente, cuando un niño necesita cirugía cerebral, tenemos que analizar manualmente miles de imágenes de resonancia magnética. Esto puede tomar días o incluso semanas, y el tiempo es crítico cuando se trata de epilepsia severa. Aquí es donde entra ChRIS. La plataforma puede procesar estas imágenes mucho más rápidamente, identificando patrones que podrían tomar semanas para que un humano los detecte. ChRIS nos permite procesar datos de imágenes médicas a una escala que simplemente no era posible antes. Podemos analizar no solo las imágenes de un paciente individual, sino compararlas con bases de datos masivas de casos similares. Pero lo que hace que ChRIS sea realmente especial es que es una plataforma de código abierto. Eso significa que médicos e investigadores de todo el mundo pueden contribuir y beneficiarse del trabajo. Soy Rudolph Pienaar, investigador de planta del Hospital Infantil de Boston e instructor de radiología de la Facultad de Medicina de Harvard. Trabajo con Ellen en el desarrollo de ChRIS. Una de las cosas más emocionantes sobre hacer ChRIS de código abierto es que permite colaboración a escala global. Un algoritmo desarrollado en Boston puede ser mejorado por un investigador en Tokio y luego utilizado por un médico en São Paulo. Esta colaboración global es crucial porque los datos médicos son increíblemente complejos y diversos. Cuantos más casos y perspectivas puedas incluir, mejores serán tus algoritmos. El código abierto nos permite aprovechar la inteligencia colectiva de la comunidad médica global. En lugar de que cada hospital desarrolle sus propias soluciones de manera aislada, podemos construir sobre el trabajo de otros. Y los resultados han sido impresionantes. ChRIS ha ayudado a reducir significativamente el tiempo necesario para planificar cirugías cerebrales complejas, lo que significa que más niños pueden recibir el tratamiento que necesitan más rápidamente. Hemos visto casos donde lo que solía tomar semanas de análisis manual ahora se puede hacer en horas. Para un niño con epilepsia severa, esa diferencia de tiempo puede ser literalmente la diferencia entre una vida normal y años de sufrimiento. Pero ChRIS es solo un ejemplo de cómo el big data está transformando la medicina. En todo el mundo, los investigadores están utilizando grandes conjuntos de datos para desarrollar tratamientos más personalizados y efectivos. Sin embargo, todo este progreso depende de nuestra capacidad para almacenar y procesar cantidades masivas de datos. Y ahí es donde entran los desafíos de infraestructura. Para entender mejor estos desafíos, hablé con Sage Weil, uno de los arquitectos detrás de Ceph, un sistema de almacenamiento distribuido de código abierto. Soy Sage Weil, cofundador y arquitecto principal de Ceph. Ceph es un sistema de almacenamiento distribuido que permite almacenar y acceder a cantidades masivas de datos de manera eficiente y confiable. Sage comenzó a trabajar en Ceph cuando era estudiante de doctorado, motivado por la frustración con los sistemas de almacenamiento existentes que no podían manejar las crecientes demandas de datos. Cuando empecé a trabajar en Ceph a mediados de los 2000, ya era claro que las cantidades de datos que estábamos generando iban a superar las capacidades de los sistemas de almacenamiento tradicionales. El problema con los sistemas tradicionales es que no están diseñados para manejar la escala masiva que requiere el big data moderno. Los sistemas de almacenamiento tradicionales tienen puntos únicos de falla. Si un componente se rompe, puedes perder acceso a todos tus datos. Con Ceph, distribuimos los datos a través de múltiples nodos, por lo que el sistema puede continuar funcionando incluso si algunos componentes fallan. Esta resiliencia es crucial cuando estás manejando datos críticos como registros médicos o datos financieros. No puedes permitirte perder esa información. Pero no se trata solo de confiabilidad. También se trata de escala. Ceph está diseñado para escalar desde unos pocos terabytes hasta exabytes de datos, todo dentro del mismo sistema. Un exabyte, por cierto, es un millón de terabytes. Para poner eso en perspectiva, todos los libros jamás escritos por humanos contienen aproximadamente 50 petabytes de información. Un exabyte es 20 veces eso. Pero Sage señala que la escala es solo parte del desafío. También está la complejidad de gestionar datos que pueden estar distribuidos por todo el mundo. Las organizaciones modernas necesitan poder almacenar datos en múltiples ubicaciones geográficas, ya sea por razones de rendimiento, cumplimiento regulatorio, o recuperación ante desastres. Ceph está diseñado para manejar estas complejidades automáticamente. Y aquí es donde el aspecto de código abierto de Ceph se vuelve realmente importante. El almacenamiento de datos es demasiado crítico para depender de una sola empresa. Con código abierto, las organizaciones tienen control total sobre sus sistemas de almacenamiento. Pueden modificarlos según sus necesidades específicas, y no están atrapados con un proveedor particular. Esta filosofía de código abierto ha permitido que Ceph se adopte ampliamente, desde startups hasta algunas de las organizaciones más grandes del mundo. Vemos a Ceph siendo utilizado por proveedores de servicios en la nube, organizaciones de investigación, instituciones financieras, y muchos otros. La diversidad de casos de uso nos ayuda a hacer el sistema más robusto y versátil. Pero even con sistemas como Ceph, el desafío de gestionar big data va más allá del almacenamiento. También necesitas ser capaz de procesar todos esos datos de manera eficiente. Y aquí es donde entran tecnologías como Hadoop, Spark, y otras herramientas de procesamiento distribuido, muchas de las cuales también son de código abierto. Kenneth Cukier ha observado cómo estas tecnologías están cambiando fundamentalmente la forma en que abordamos los problemas complejos. El big data nos permite hacer preguntas que simplemente no podíamos hacer antes. En lugar de probar hipótesis específicas, podemos dejar que los datos nos muestren patrones que ni siquiera sabíamos que existían. Esta aproximación basada en datos está transformando campos que van desde la medicina hasta la agricultura, desde las finanzas hasta el cambio climático. Por ejemplo, en agricultura, los sensores en los campos pueden recolectar datos sobre humedad del suelo, condiciones climáticas, crecimiento de los cultivos. Estos datos pueden alimentar algoritmos que optimizan el riego, la fertilización, y la cosecha para maximizar el rendimiento mientras minimizan el impacto ambiental. O en el transporte urbano, donde datos de GPS de millones de vehículos pueden ser analizados para optimizar el flujo de tráfico y reducir la congestión. La clave es que ahora podemos recolectar datos sobre casi cualquier cosa, procesarlos en tiempo real, y usar esos insights para tomar mejores decisiones. Pero Kenneth también advierte que el big data no es una panacea. Viene con sus propios desafíos y riesgos. Uno de los riesgos más grandes es la falsa correlación. Solo porque dos cosas parecen estar relacionadas en los datos no significa que una cause la otra. Los algoritmos pueden encontrar patrones que son estadísticamente significativos pero causalmente sin sentido. También están las preocupaciones sobre privacidad y seguridad. Cuantos más datos recolectamos sobre las personas, mayor es el riesgo si esos datos caen en las manos equivocadas. Es crucial que desarrollemos marcos éticos y regulatorios para el uso de big data. La tecnología está avanzando más rápido que nuestra comprensión de sus implicaciones sociales. Y aquí es donde la comunidad de código abierto puede jugar un papel importante. Al hacer que las tecnologías de big data sean transparentes y accesibles, el código abierto puede ayudar a democratizar tanto los beneficios como la supervisión de estas poderosas herramientas. De vuelta en el Hospital Infantil de Boston, Ellen Grant ha visto de primera mano cómo el código abierto puede acelerar el progreso médico. Una de las cosas más gratificantes sobre trabajar en código abierto es ver cómo nuestro trabajo puede tener impacto más allá de nuestro propio hospital. Cuando liberamos una nueva característica en ChRIS, puede beneficiar a niños en todo el mundo. Y esa colaboración global es especialmente importante en medicina, donde las enfermedades raras pueden requerir datos de múltiples instituciones para entender completamente. En medicina, ninguna institución tiene todos los datos que necesita. Al colaborar através de plataformas de código abierto, podemos crear conjuntos de datos mucho más grandes y diversos de los que cualquier hospital podría recolectar solo. Esta colaboración también acelera la innovación porque los investigadores pueden construir sobre el trabajo de otros en lugar de reinventar la rueda. En lugar de que cada institución desarrolle sus propios algoritmos de análisis de imágenes desde cero, podemos compartir y mejorar algoritmos existentes. Esto significa que podemos enfocar más tiempo en resolver nuevos problemas. Pero el impacto del big data va mucho más allá de la medicina. Está transformando la forma en que entendemos y respondemos a algunos de los desafíos más grandes de la humanidad. Desde predecir y mitigar desastres naturales hasta desarrollar ciudades más eficientes y sostenibles, el big data está proporcionando nuevas herramientas para abordar problemas complejos a escala global. Una de las tendencias más interesantes que estamos viendo es la federación de datos entre diferentes organizaciones e incluso diferentes nubes públicas. Sage explica que las organizaciones modernas a menudo necesitan gestionar datos que están distribuidos entre múltiples ubicaciones y proveedores. Tal vez hoy escribamos los datos en cierta ubicación pero con el pasar del tiempo los clasifiquemos en otro lado porque es más barato, o está más cerca o porque los datos son más antiguos, y necesitamos moverlos a un nivel de menor rendimiento y mayor capacidad por motivo de precios. Manejar cuestiones como el cumplimiento para que cuando se almacenen datos en una... en Europa, se mantengan dentro de ciertos límites políticos para cumplir con la ley. En ciertas industrias, hay cosas como la Ley de Portabilidad y Responsabilidad de Seguros Médicos en los Estados Unidos, que restringe la forma en que se transfieren los datos. Creo que a medida que las organizaciones de TI modernas se expanden cada vez más en muchos centros de datos diferentes, en muchas nubes públicas y en su propia infraestructura de nube privada, el poder administrar todos estos datos y automatizar su administración se vuelve cada vez más importante. Si piensas en cómo vamos a gestionar, almacenar y procesar datos en el futuro, ¿qué papel tiene el código abierto? Mencionaste que querías crear una solución de código abierto por tu filosofía personal y tus convicciones sobre el software libre y abierto. ¿Cómo crees que el código abierto afecte otras soluciones en el futuro? Creo que sobre todo en el espacio de la infraestructura, las soluciones se dirigen hacia el código abierto. Creo que el motivo es que hay presiones por los altos costos en el espacio de la infraestructura, sobre todo para las personas que crean software como servicio o servicios en la nube, es importante que mantengan su infraestructura a costos muy bajos, y el código abierto es claramente una muy buena manera de hacerlo desde su perspectiva. Creo que la segunda razón es más una razón social, porque es un campo tan veloz en que tenemos nuevas herramientas, nuevos marcos, nuevos protocolos, nuevas formas de pensar en los datos... y hay tanta innovación y tanto cambio en ese espacio y... tantos productos y proyectos diferentes que interactúan, que es muy difícil hacerlo con el modelo tradicional, donde hay diferentes empresas que tienen acuerdos de asociación y desarrollo conjunto o cosas así. El código abierto elimina todos esos problemas. Sage Weil es ingeniero consultor principal en Red Hat, y es director del proyecto Ceph. Vamos de vuelta con Kenneth Cukier de The Economist, para abrir la perspectiva. ¿Recuerdan esa visión que tenía sobre nuestra relación con los datos y cómo hemos progresado de las tabletas de arcilla a la imprenta, y a las maravillas de la nube como la que construyó Sage? Se trata del progreso humano y de cómo podemos comprender el mundo y la evidencia empírica para mejorarlo. Es la misma misión de progreso que siempre hemos tenido. Esa misión nunca termina. Pero, mientras tanto, aprender a procesar los datos que hemos recopilado y aprovechar esa inundación es una misión de código abierto para toda una generación. Vamos a terminar nuestro viaje de datos con una parada rápida en el Laboratorio Nacional Oak Ridge en Tennessee, Estados Unidos. Es el hogar de Summit, la supercomputadora más rápida del mundo o, al menos, la más rápida a partir de 2018. Esta máquina procesa 200 000 billones de cálculos por segundo. Si quieres llevar la cuenta, son 200 petaflops. Una velocidad de procesamiento como esta no es práctica para hospitales ni bancos, ni para las miles de organizaciones que se benefician de la computación de alto rendimiento en la actualidad. Las supercomputadoras como Summit se reservan más para el campo del Colisionador de Hadrones. Pero, una vez más, en algún momento registrábamos solo cien bytes de información en tabletas de arcilla. La historia del almacenamiento y procesamiento de datos es una historia donde las hazañas extraordinarias siguen convirtiéndose en la nueva normalidad. Algún día, todos podríamos tener supercomputadoras del tamaño de Summit en nuestros bolsillos. Imagínate las respuestas que podremos buscar entonces. En el próximo episodio, vamos hacia la informática sin servidores. ¿O no? El Episodio 7 se trata de nuestra cambiante relación con el desarrollo basado en la nube. Averiguaremos cuánto de nuestro trabajo podemos resumir y a qué probablemente necesitemos renunciar en el proceso. Mientras tanto, si deseas profundizar en la historia de ChRIS, visita RedHat.com/ChRIS para obtener más información sobre cómo se construyó y cómo puedes contribuir al proyecto. Command Line Heroes en español es un podcast original de Red Hat. Escúchalo gratis en Spotify, Apple Podcasts, Google Podcasts o donde quieras. Hasta la próxima. Sigan programando.

Sobre el podcast

Command Line Heroes

During its run from 2018 to 2022, Command Line Heroes shared the epic true stories of developers, programmers, hackers, geeks, and open source rebels, and how they revolutionized the technology landscape. Relive our journey through tech history, and use #CommandLinePod to share your favorite episodes.