Big o small data: el debate sobre si, para analizar la realidad, "más es mejor"
¿Cuán grande es una pizza grande? Una rápida consulta a Google dice que una pizza grande debe medir como mínimo 35 centímetros de diámetro. ¿Cuál es el máximo tiempo tolerable para llegar tarde a una boda? "Media hora", responde con idéntica vehemencia la misma fuente. ¿Cuán grande es una base de datos para que sea considerada "de big data"? Y aquí el icónico buscador hace agua. "Si no entra en Excel, es big data", respondió hace poco en las redes sociales un reconocido programador. Una frase que muchos interpretaron en forma peligrosamente literal.
Big data es un término difuso, que refiere al fenómeno de datos masivos provenientes de interactuar con tecnologías interconectadas, como celulares, tarjetas de créditos, redes sociales, etcétera. El volumen es lo primero que salta a la vista de la revolución de datos, pero la naturaleza disruptiva del fenómeno va mucho más allá del tamaño, al punto tal que new data o right data tal vez sean caracterizaciones más felices.
Pero aun cuando la auténtica innovación de big data proviniese de la masividad, cabe cuestionarse si realmente más es mejor y en qué sentido. En una encuesta o experimento científicamente diseñado, más es mejor porque, diseño riguroso mediante, más datos es más de lo mismo, de la misma fuente de información. Por ejemplo, tirar una moneda repetidas veces permite aprender cada vez con más precisión que las chances de que salga cara son 50%. "Más de lo mismo" significa que se tira siempre la misma moneda y que no se la aprende a tirar en los sucesivos tiros, de modo que cada uno de los lanzamientos agrega el mismo tipo de información que la de cualquier tiro, anterior o posterior.
Pero uno de los secretos mejor escondidos de esta lógica es que la tasa a la que la precisión aumenta cae abruptamente con la cantidad de datos. Es decir, la precisión siempre mejora, pero esta ganancia es cada vez más pequeña; una suerte de versión estadística de la "ley de rendimientos marginales decrecientes" de la economía.
Por ejemplo, en una encuesta correctamente diseñada, si con 1000 encuestados el margen de error es de más/menos 3,16%, para duplicar la precisión (léase, bajar el error a la mitad) es necesario cuadruplicar la cantidad de datos. Entonces, desde esta perspectiva, si la promesa de big data es de una lluvia de datos, es como si la cantidad adicional de información se desplomase abruptamente luego del primer chaparrón, aun cuando continúe diluviando datos eternamente. Sí, más es mejor, pero cada vez menos, mucho menos.
Para peor, el paradigma espontáneo de big data es casi la negación del ejercicio de lanzar una moneda, o, si vamos al caso, de una encuesta o experimento científico. En la analogía de la moneda, big data es como si dispusiésemos de millones de lanzamientos de monedas distintas (y posiblemente cargadas) y en donde varios lanzadores han aprendido a favorecer un resultado. Es decir, los datos de big data no son "más de lo mismo". Una encuesta en Twitter puede recoger muchas más respuestas que un sondeo tradicional, pero estos datos están "mediados" por la decisión de seguir o no a alguien en esa red social y de acceder a responder o no la encuesta, además de que los que siguen a alguien posiblemente tengan muchos elementos en común: todo esto en las antípodas del "más de lo mismo" detrás de las ventajas de una encuesta o experimento científico.
Y esto explica por qué una buena parte de la práctica científica de la economía todavía descansa en bases de datos que, en lo numérico, suenan irrisorias en comparación con los millones de datos de big data. A modo de ejemplo, consideremos el trabajo de Raj Chetty, Nathaniel Hendren y Lawrence Katz, posiblemente el más citado de los últimos 20 años, y publicado en el AmericanEconomic Review, para muchos la revista más prestigiosa de la profesión.
El estudio analiza el efecto causal del barrio en el cual los niños crecen. Comparar la performance de una persona que creció en un barrio marginal con otra que lo hizo en una zona más favorecida es una comparación de peras con manzanas: a quien creció en un barrio más pudiente posiblemente le vaya mejor por razones que van más allá de las relacionadas estrictamente con el barrio en el que creció. Tampoco funciona la estrategia de comparar "antes y después", es decir, cómo le fue a un joven luego de que se mudase de un barrio marginal a uno más rico, porque, nuevamente, se mezclan los efectos de mudarse de barrio con los de cualquier otro factor que haya ocurrido simultáneamente (haber conseguido un trabajo, haber ganado la lotería, etcétera).
A fines de aislar el canal puro del entorno en el que los niños crecen, los autores recurrieron a una base de datos proveniente de un experimento que asigna lugares de vivienda a través de un mecanismo aleatorio, similar al que se usa en los protocolos de la biología o la agronomía para asignar pacientes o no a un tratamiento. Así, la muestra analizada se conformó con tan solo 13.213 personas, que suenan a nada en comparación con la cantidad de seguidores en Twitter que hoy tiene cualquier celebrity menor. Unos pocos datos, de una fuente confiable y adecuados a la pregunta de interés (como los del contundente estudio de Chetty y sus coautores), pueden contener mucha más información que la proveniente de la anarquía de big data.
Consecuentemente, la contribución de big data no necesariamente viene de la masividad, sino de la disponibilidad de nuevos datos, antes inexistentes, independientemente de que sean muchos o pocos. A modo de ejemplo, un trabajo reciente de Liran Einav, Dan Knoepfle y Johnathan Levin utiliza datos de la empresa Ebay para aislar el efecto de los impuestos a las ventas. Este trabajo aprovecha la secuencia de acciones (clics) conducentes a comprar un artículo online. El potencial comprador se enfrenta a diferentes precios de un artículo de interés, y luego de haber atravesado algunas etapas, se le es revelado el impuesto a las ventas, dependiendo de su locación geográfica y de la del vendedor.
Este "experimento natural" aporta información antes inexistente sobre el efecto de los impuestos sobre las ventas. Los datos utilizados para el análisis son en realidad un subconjunto muy pequeño de todas las interacciones en Ebay, pero lo suficientemente grandes como para aislar apropiadamente el canal a través del cual los impuestos influyen en las ventas. Es decir, el aporte de big data en este caso no es simplemente de "muchos datos" sino de datos no disponibles a través de fuentes tradicionales como encuestas o registros administrativos.
Como en tantos órdenes de la vida, en materia de análisis de datos el tamaño importa poco en comparación con su calidad. Para peor, cuando big data no es "más de lo mismo" la masividad solo aporta un mecanismo peligroso para cometer peores errores y más rápido. El verdadero aporte de big data en la ciencia social tiene que ver con la promesa de que el océano de datos sea capaz de aislar datos que sirvan a los fines de las preguntas relevantes, sean pocos o muchos.
¿Y cuántos datos son suficientes como para decir que una base de datos es "de big data"? Basta recordar que, en 1806, el enorme Carl Friedrich Gauss dio con el famosísimo método de mínimos cuadrados aplicándolo a una muestra de tan solo 4 observaciones planetarias.
Temas
Otras noticias de Big Data
- 1
Primero en el mundo: un orégano con alta concentración de aceites esenciales quedó a un paso de un sello único
- 2
Milei y Sturzenegger se aprestan a darle un fuerte golpe al “club de la obra pública”
- 3
La historia de Despegar: la incómoda fila que provocó una idea de US$1700 millones
- 4
Se vende: un fiscal detectó irregularidades en la inminente subasta de un edificio del INTA y pide evitar “posibles hechos de corrupción administrativa”