Mucha data

Mucha data

Por Esteban Magnani

A partir de la evolución de la tecnología, las sociedades producen cada vez mayor cantidad de datos e información. La capacidad para procesarla permite no sólo la predicción de comportamientos sino también la implementación de campañas de todo tipo a medida. Se hace evidente entonces la necesidad de regulación para garantizar la privacidad de las personas.

Basado en un fragmento del libro: Magnani, Esteban. TensiĂłn en la red: libertad y control en la era digital – 1ÂȘ ed. – CABA: Autoria Sherpa, 2014. ISBN 978-987-45920-1-9.

 
Periodista, escritor y docente en Cs. de la Comunicación, Facultad de Cs. Sociales  de la Universidad Nacional de Buenos Aires (UBA)


-A A +A

ÂżPodemos prever el resultado que arrojarĂĄ un dado al lanzarlo sobre una mesa? La respuesta es, obviamente, que no, que es imposible. Las estadĂ­sticas indican que un dado tiende a equilibrar la cantidad de veces que saldrĂĄ cada nĂșmero. Es decir que se podrĂĄ prever un promedio en muestras amplias, pero no se podrĂĄ prever en ningĂșn caso el prĂłximo nĂșmero que saldrĂĄ. Esto Ășltimo depende del azar. Pero, ÂżquĂ© es el azar? En el caso de los dados podrĂ­amos decir que llamamos azar a la imposibilidad de determinar el resultado de la interacciĂłn de las innumerables variables involucradas en que determinada cara quede en la parte superior del cubo luego de lanzarlo. Pero, supongamos que podemos conocer el efecto que tendrĂĄ en el dado la posiciĂłn inicial de la mano del lanzador, la intensidad del movimiento, el movimiento de la muñeca, la flexibilidad y rebote del material con el que estĂĄ hecho, las rugosidad o irregularidad de la superficie sobre la que se lo lanza, etcĂ©tera. Si alguien pudiera medir todas esas variables que afectan al resultado final, podrĂ­a determinarlo antes de que ocurra, de la misma manera que podemos determinar el tiempo de caĂ­da de un cuerpo en el vacĂ­o gracias a la Ley de Gravedad Universal. Pero en esta Ășltima intervienen pocas variables: la fuerza de gravedad, la masa de los cuerpos y la distancia entre ellos. En cambio, en el ejemplo del dado son innumerables, por lo que decimos que es imposible conocerlas a todas y que depende del azar. Pero, ÂżquĂ© pasarĂ­a si pudiĂ©ramos medirlas y procesarlas? PodrĂ­amos prever el resultado de una manera muy precisa.

La cantidad de acciones individuales que lleva adelante una persona cotidianamente resultan difĂ­ciles, si no imposibles, de explicar. Parecen producto del azar, es decir, de tantas variables que no se pueden conocer y combinar. Pero cuando esos mismos comportamientos se analizan a escala, se pueden encontrar patrones que les dan cierta previsibilidad. Esto ha comenzado a ser posible gracias a la cantidad de acciones individuales que se digitalizan y suman a bases de datos de forma simple. Son cada vez mĂĄs los rastros de nuestra vida digital que dejamos en el camino: posts en las redes sociales, compras por Internet, compras con tarjeta que indican nuestros gustos, celulares con geolocalizaciĂłn, fotos de otros en las que estamos “tagueados”, etcĂ©tera.

Las variables medidas pueden no tener relaciones causales entre sĂ­, pero la ley de los grandes nĂșmeros permite establecer predicciones entre ellas. El vicepresidente de IBM, Dave Turek, calculĂł que la humanidad produjo cinco exabytes (cada exabyte representa mil millones de gigabytes, un nĂșmero que ya no dice nada, sĂłlo da un poco de vĂ©rtigo, pero que es realmente mucho) de informaciĂłn desde los comienzos de la humanidad hasta el año 2003, y que en 2011 la humanidad, a travĂ©s de la digitalizaciĂłn constante de su vida producĂ­a esa misma cantidad... cada dos dĂ­as. La llegada de los celulares inteligentes, entre otras cosas le permitiĂł calcular que para el 2013 la humanidad producirĂ­a cinco exabytes cada diez minutos. Hace dos mil años un puñado de filĂłsofos era capaz de generar trabajosamente textos que hoy se pueden almacenar en unos pocos kilobytes. En la actualidad cualquier persona comĂșn y corriente que saca una foto produce cientos de veces esa cantidad con un clic.

Es mĂĄs: con solo andar por la calle con un telĂ©fono inteligente encendido estamos generando informaciĂłn. Malte Spitz, un polĂ­tico del Partido Verde alemĂĄn, pidiĂł a su empresa telefĂłnica, Deutsche Telekom, todos los archivos que tuviera sobre su lĂ­nea de telĂ©fono. Tuvo que presentar varias demandas hasta que finalmente le entregaron un CD con la informaciĂłn. Al cruzar la base de datos con un mapa pudo ver todos los lugares en los que estuvo durante los Ășltimos seis meses. Ni Ă©l mismo recordaba todo su itinerario.

Al procesar la informaciĂłn acumulada en bases de datos pueden obtenerse conclusiones sorprendentes. Por ejemplo, el cientĂ­fico informĂĄtico Jon Kleinberg, de la Universidad de Cornell, y Lars Backstrom, ingeniero de FB, publicaron una investigaciĂłn acerca de cĂłmo la informaciĂłn que se sube a esta red social permite saber quĂ© parejas estĂĄn por separarse. Para llegar a esa conclusiĂłn buscaron usuarios con mĂĄs de veinte años de edad, que tuvieran entre 50 y 2.000 amigos y que indicaran estar en pareja. Una vez que tuvieron la lista recortaron la muestra a “sĂłlo” 1,3 millones de usuarios elegidos al azar. Luego cruzaron las conexiones sociales entre ellos, que sumaron cerca de 8.600 millones. La clave que encontraron fue que el nĂșmero total de amigos de ambos miembros de la pareja es un pobre indicador de las relaciones sentimentales, mientras que sĂ­ lo es el nivel de dispersiĂłn de esos amigos, es decir, si los amigos de ambos estĂĄn conectados entre sĂ­ o no. Una de las conclusiones fue que si los amigos de ambos estaban muy conectados, es decir que tenĂ­an una baja dispersiĂłn, la pareja tenĂ­a mĂĄs probabilidades de romper su vĂ­nculo en los siguientes dos meses. Lo que no permiten determinar estas estadĂ­sticas es si hay una relaciĂłn causal directa entre las variables, pero la fuerza bruta de una enorme cantidad de datos permite predecir cosas aunque no sepamos por quĂ© ocurren. Evidentemente llegar a estos nĂșmeros por medio de encuestas confiables habrĂ­a sido imposible.

Este es un ejemplo de “Big Data”, de lo que ocurre cuando hay mucha informaciĂłn disponible y estĂĄ la capacidad de procesamiento para ordenarla, cruzarla y obtener nuevos datos de ella. El ejemplo clĂĄsico que se daba para comprender la dificultad para cruzar grandes cantidades de datos y conocer los resultados de sus interacciones es el pronĂłstico del tiempo. La cantidad de variables involucradas en el clima es tan grande y cambiante que resulta muy difĂ­cil determinar el peso de cada una de ellas y, por lo tanto, cuĂĄl va a ser el resultado de su interacciĂłn. Sin embargo, hace dos dĂ©cadas se podĂ­an hacer pronĂłsticos confiables con un mĂĄximo de anticipaciĂłn de tres dĂ­as. Gracias a la mejora en la capacidad de recolecciĂłn y procesamiento de datos que brinda la informĂĄtica, en la actualidad son posibles pronĂłsticos confiables para los cinco dĂ­as subsiguientes.
Las relaciones estĂĄn ahĂ­; luego hay que tener los datos, el poder informĂĄtico y empezar a buscar. El espionaje masivo de los servicios de inteligencia de los Estados Unidos es sĂłlo un ejemplo del poder de los datos que hace unos años habrĂ­an resultado inmanejables. El concepto “Big Data” se refiere, por un lado, a grandes cantidades de informaciĂłn, tan grandes que no pueden funcionar en una sola computadora sino que requiere “clusters”, es decir, redes de computadoras funcionando simultĂĄneamente. Pero el tamaño no lo es todo. A esta caracterĂ­stica hay que sumarle la velocidad, porque las redes sociales no descansan y es necesario recopilar, por ejemplo, los millones de tweets que se lanzan a cada segundo, ademĂĄs de interpretarlos para poder detectar una tendencia. Y por Ășltimo hay que tener en cuenta la necesidad de estructurar esa informaciĂłn en bases de datos para darle sentido. Cantidad, velocidad y estructura, mĂĄs capacidad tecnolĂłgica y el software adecuado, permiten encontrar la respuesta que se estaba buscando. La herramienta es muy poderosa y ya se usa en las ĂĄreas mĂĄs disĂ­miles no sĂłlo para vender productos o detectar precozmente el hit del verano. Por ejemplo, quien sepa aprovecharla podrĂĄ inclinar la balanza a su favor para ser presidente del paĂ­s mĂĄs poderoso del mundo.

Obama, gripe y cine

El presidente de los Estados Unidos, Barack Obama, y su equipo de campaña aprovecharon fuertemente la potencia de los datos. En el gran paĂ­s del norte no sĂłlo es optativo votar sino que tambiĂ©n es necesario empadronarse para hacerlo, lo que explica en parte los altos niveles de ausentismo en las elecciones de este paĂ­s. Por eso la campaña, ademĂĄs de incentivar al voto por el partido propio, debe lograr que los votantes hagan los trĂĄmites para quedar habilitados. Este Ășltimo aspecto es fundamental, por lo que durante las elecciones presidenciales de 2008 el equipo de Obama clasificĂł a los usuarios de las redes sociales de acuerdo con las posiciones polĂ­ticas que revelaban sus amigos. AsĂ­ los especialistas reconocieron a 3,5 millones de potenciales votantes de Obama no empadronados. Luego se dedicaron a conocer sus intereses especĂ­ficos sistematizando las publicaciones que hacĂ­an en las redes sociales. Una vez determinado el perfil de los votantes-objetivo, por asĂ­ llamarlos, se pudo dirigir hacia ellos sĂłlo aquellas propuestas del candidato que podĂ­an persuadirlos: leyes de gĂ©nero para las feministas, propuestas verdes para los ecologistas, propuestas de salida de AfganistĂĄn para los pacifistas y asĂ­. El nivel de precisiĂłn de esta campaña resultĂł muy superior al de afiches con candidatos sonrientes que no pueden decir nada por el riesgo de espantar a quien piense distinto. En vez de un “catch all” (“toma todo”), como se llama a los candidatos que no quieren espantar a nadie, lo que hizo Obama fue mĂĄs bien un “catch each” (“tomar a cada uno”). Finalmente, el equipo de Obama pudo determinar que al menos un millĂłn de los individuos a los que apuntaron se registrĂł para votar aunque es muy difĂ­cil medir el mĂ©rito que tuvo la campaña ni a quiĂ©n votaron finalmente. Lo cierto es que Obama ganĂł por menos de cinco millones de votos en todo el paĂ­s y en estados como Florida, clave para la victoria, gracias al particular sistema electoral estadounidense, la diferencia con su oponente fue de menos de setenta mil.

La misma lógica puede aplicarse para diseccionar otros campos y encontrar las variables que expliquen fenómenos complejos, siempre y cuando existan los datos. Lo que antes requería hordas de estudiantes munidos de encuestas trajinando las calles, ahora ocupa a un puñado de programadores desmontando la información que proveen las redes sociales a partir de una serie de criterios que les indican los clientes. FB es la plataforma ideal para testear, por ejemplo, un afiche entre miles de usuarios antes de decidirse cuål se utilizarå.

Y hay mĂĄs: el sitio google.org/flutrends/ predice el avance de la gripe sobre una determinada ĂĄrea.

Las tendencias las calcula en base a la cantidad de bĂșsqueda de palabras clave como “dolor de garganta”, “remedios para la gripe”, “estornudos”, etcĂ©tera, y los ubica espacialmente por geolocalizaciĂłn. Una vez reunidos los primeros datos se pudo afinar la relaciĂłn estadĂ­stica aprovechando la cantidad de casos efectivamente atendidos luego por los sistemas de salud. De esta manera se pudo llegar a un algoritmo (una fĂłrmula matemĂĄtica que relacionara a todas las variables) confiable. Gracias a esta informaciĂłn indirecta se puede detectar el inicio de una oleada de la enfermedad antes de que lo haga cualquier otro sistema, incluidos los equipos de prevenciĂłn de los hospitales.

Otro ejemplo, tambiĂ©n desarrollado por Google, permite prever los Ă©xitos de taquilla. SegĂșn pudieron establecer estadĂ­sticamente, cada persona consulta la pelĂ­cula que le interesa unas trece veces en Internet antes de ir a verla. O sea que si el buscador encuentra cierto nĂșmero de visitas a trailers, crĂ­ticas, horarios de cine y demĂĄs puede estimar la futura recaudaciĂłn del film. Es como si tuviera una bola de cristal digital capaz de adivinar el futuro.

La informaciĂłn de este tipo puede ser muy Ăștil para las empresas de numerosas maneras: prever demanda, construir una imagen, presentar sus productos al pĂșblico potencial, saber quĂ© piensan de ellos, etcĂ©tera. A eso se dedican empresas como Globant, nacida en la Argentina, pero actualmente devenida transnacional con filiales en Estados Unidos, Brasil, Uruguay, Colombia y Reino Unido.

Su directora tecnolĂłgica, Sabina Schneider, quien empezĂł a trabajar allĂ­ en 2004, un año despuĂ©s del lanzamiento de la compañía, me explicaba durante una entrevista que le realicĂ© en 2013: “Trabajamos con datos que se publican en Internet en tiempo real, en grandes cantidades y los tomamos en crudo, para poder encontrar algunas respuestas a las preguntas de nuestros clientes.

Esto implica ademĂĄs un diseño de arquitectura complejo”. Entre sus clientes se cuenta una entidad bancaria española que les pasa informaciĂłn estadĂ­stica sobre sus clientes para analizar el consumo en distintas ciudades y en distintos momentos del año y asĂ­ planificar el turismo, ofertas o prĂ©stamos. La informaciĂłn puede cruzarse, por ejemplo, hasta con datos del clima para ver si este tiene alguna influencia sobre las conductas de los clientes.

SegĂșn Schneider, una vez que los datos estĂĄn almacenados, se puede hasta prever el surgimiento de una estrella, aunque no inventarla: “PensĂĄ en Justin Bieber y la cantidad de ‘likes’ que tuvo en YouTube cuando la mamĂĄ lo filmaba en su casa y cĂłmo eso se empezĂł a viralizar. AhĂ­ podĂ©s ir viendo tendencias que luego usĂĄs para prever lo que puede pasar con otros, cruzarlos con datos de las redes sociales y encontrar patrones que te permitan prever algunas tendencias”. A pesar de trabajar en este campo, Schneider cree que “tiene que haber regulaciones que aseguren que no se produzcan abusos. La tecnologĂ­a va por delante de las leyes. Por ejemplo, con lo que se puede hacer en reconocimiento facial se podrĂ­a aprovechar las cĂĄmaras de seguridad que estĂĄn en Buenos Aires para registrar dĂłnde estuvo una persona o comportamientos sospechosos. La legislaciĂłn no lo prohĂ­be explĂ­citamente”.

<
>


DESCARGAR - VER
NÂș 58: Deporte y Sociedad


DESCARGAR - VER
NÂș 57: ÁFRICA


DESCARGAR - VER
NÂș 56: ASIA


DESCARGAR - VER
NÂș 55: EconomĂ­a Internacional


DESCARGAR - VER
NÂș 54: Homenaje a Aldo Ferrer


DESCARGAR - VER
NÂș 53: NÂș 53


DESCARGAR - VER
NÂș 52: Las deudas de la Democracia I


DESCARGAR - VER
NÂș 51: Juventud


DESCARGAR - VER
NÂș 50: Un mundo en Guerra


DESCARGAR - VER
NÂș 49: Libertad de expresiĂłn


DESCARGAR - VER
NÂș 48: FUERZAS ARMADAS Y DEMOCRACIA


DESCARGAR - VER
NÂș 47: Problemas Urbanos


DESCARGAR - VER
NÂș 46: CyMAT


DESCARGAR - VER
NÂș 45: Sexualidades


DESCARGAR - VER
NÂș 44: EE.UU. y AmĂ©rica Latina


DESCARGAR - VER
NÂș 43: Desarrollo y Medio Ambiente


DESCARGAR - VER
NÂș 42: DROGAS


DESCARGAR - VER
NÂș 41: Salud


DESCARGAR - VER
NÂș 40: Internet y Nuevas TecnologĂ­as


DESCARGAR - VER
NÂș 39: Internet y Nuevas TecnologĂ­as


DESCARGAR - VER
NÂș 38: EconomĂŹa Social y Solidaria


DESCARGAR - VER
NÂș 37: economĂ­a social


DESCARGAR - VER
NÂș 36: Tercera edad


DESCARGAR - VER
NÂș 35: CĂłrdoba


DESCARGAR - VER
NÂș 34: Control Social


DESCARGAR - VER
NÂș 33: EducaciĂłn Superior


DESCARGAR - VER
NÂș 32: GĂ©nero


DESCARGAR - VER
NÂș 31: 30 años de democracia


DESCARGAR - VER
NÂș 30: Justicia


DESCARGAR - VER
NÂș 29: DesafĂ­os culturales


DESCARGAR - VER
NÂș 28: EconomĂ­as Regionales


DESCARGAR - VER
NÂș 27: EconomĂ­as Regionales


DESCARGAR - VER
NÂș 26: NÂș 26


DESCARGAR - VER
NÂș 25: pueblos indĂ­genas


DESCARGAR - VER
NÂș 24: Ciencia y Poder


DESCARGAR - VER
NÂș 23: pobreza II


DESCARGAR - VER
NÂș 22: Pobreza


DESCARGAR - VER
NÂș 21: Migraciones


DESCARGAR - VER
NÂș 20: AGUA


DESCARGAR - VER
NÂș 19: IntegraciĂłn Regional


DESCARGAR - VER
NÂș 18: Estado II


DESCARGAR - VER
NÂș 17: Estado I


DESCARGAR - VER
NÂș 16: Industria


DESCARGAR - VER
NÂș 15: Seguridad democrĂĄtica


DESCARGAR - VER
NÂș 14: Reforma fiscal II


DESCARGAR - VER
NÂș 13: Reforma fiscal I


DESCARGAR - VER
NÂș 12: AgroganaderĂ­a


DESCARGAR - VER
NÂș 11: Crisis financiera internacional


DESCARGAR - VER
NÂș 10: EnergĂ­a


DESCARGAR - VER
NÂș 9: Transporte


DESCARGAR - VER
NÂș 8: Ciencia y tecnologĂ­a


DESCARGAR - VER
NÂș 7: Salud


DESCARGAR - VER
NÂș 6: Empleo


DESCARGAR - VER
NÂș 5: HĂĄbitat y vivienda


DESCARGAR - VER
NÂș 4: Argentina en el mundo


DESCARGAR - VER
NÂș 3: EducaciĂłn


DESCARGAR - VER
NÂș 2: Medio ambiente


DESCARGAR - VER
NÂș 1: Argentina hoy

Voces en el Fénix NÂș 39
MATRIX

Internet y Nuevas TecnologĂ­as

ArtĂ­culos de este nĂșmero

Gimena Perret
Reflexiones antropolĂłgicas en la era digital. ÂżLa empatĂ­a amenazada?
Giancarlo Morales Sandoval
Todos aquĂ­ todo el tiempo: posiciones a favor y en contra de la irrupciĂłn de Internet en nuestras vidas
Eben Moglen
El manifiesto puntoComunista
Guadalupe LĂłpez
Internet, redes sociales, movilidad y después. La reinvención de la comunicación
MarĂ­a Sol Tischik
ÂżGobierno Abierto o Estado Abierto? El desafĂ­o que plantea el nuevo paradigma digital
MarĂ­a Celeste Gigli Box
De hackers cĂ­vicos y datos. Y democracia
Elena Brizuela
El poder de los datos para fortalecer el periodismo
Martiniano Nemirovsci
Un mundo vigilado: la (falta de) privacidad en la era digital
Eduardo E. Estévez
Inteligencia a partir del uso de Internet y nuevas tecnologĂ­as
Bitcoin Argentina
Bitcoin: un sistema monetario a la altura de estos tiempos
María José Greloni y Carolina Barada
El potencial de la nube para fortalecer el compromiso social
Gabriela Sued
Software es cultura. Una mirada a la nueva escena de las humanidades digitales
Esteban Magnani
Mucha data

Newsletter