Cómo es la tecnología que usa Facebook para filtrar contenido inapropiado
En el segundo día de F8 2018 , la reunión anual para desarrolladores de Facebook , el jefe de tecnología de la compañía, Mike Schroepfer, ofreció un atisbo de lo que está haciendo la compañía para aplicar tecnología de avanzada en el análisis de las publicaciones de los usuarios, en un intento por frenar el contenido inapropiado que se publica en la red social: noticias falsas, spam, cyberbulling, etcétera, y que ha sido su principal dolor de cabeza en los últimos años.
Schroepfer mostró los avances que está logrando Facebook en el análisis de textos, de audio y, sobre todo, de imágenes y videos, un punto clave cuando desde la compañía estiman que el año próximo habrá más publicaciones en formato historias (típicas de Instagram, y que definió Snapchat), superando a las publicaciones tradicionales con una imagen, un texto y, tal vez, un link. Las herramientas de Facebook no analizan cada cosa por separado, sino que tratan de cruzar la evaluación de cada elemento para entender el contexto en situaciones donde una frase puede tener un sentido positivo o negativo, no explicar una foto violenta, etcétera.
Schroepfer explicó que dejaron de usar los sets de imágenes estándar (clasificados a mano) para aprovechar 3500 millones de fotos etiquetadas y publicadas por los usuarios de las diversas plataformas de Facebook, lo que les dio una masividad enorme, gran diversidad y, de paso, no tuvieron que pagarle a nadie para que ordene esos datos: dejaron que los usuarios los ayuden. También mostró cómo los sistemas de reconocimiento pueden identificar personas y objetos en fotos y videos, y hasta reconocer de qué se trata (si es una planta, qué especie; si es un perro, qué raza), logros que hasta ahora parecían ser exclusivos de los algoritmos de Google.
Dos ejemplos de cómo la IA de Facebook detecta personas, y el nivel de detalle que es capaz de detectar. En ambos casos, en video (es decir, en movimiento) pic.twitter.com/MyAaPBQzxo&— Ricardo Sametband (@rsametband) 2 de mayo de 2018
Los sistemas de Facebook hacen un cruce de todos esos datos para filtrar contenido. A veces con resultados erróneos (bloquea fotos de desnudos de una pintura, o una imagen histórica), en otros casos con afirmaciones incomprobables: Schroepfer dice que borraron cerca de dos millones de cuentas falsas que buscan promover a Al Qaeda en Estados Unidos. También, que fueron capaces de identificar, en más de mil casos desde marzo, publicaciones en sus redes sociales de gente que estaba evaluando suicidarse (en ese caso aparece una pantalla que ofrece ayuda). Todo a la velocidad de la luz: Facebook dice que sus sistemas hacen 200 billones de predicciones cada día.
Las predicciones del sistema
¿Predicciones? Sí: es uno de los puntales del sistema, le explicó a LA NACION Greg Marra, uno de los encargados de categorizar el contenido de la vista inicial de Facebook (las Noticias, que en inglés se llama Newsfeed).
Facebook tiene un ranking con el que evalúa todas las publicaciones que podría llegar a ver un usuario; como no hay manera de que las vea todas, les otorga un puntaje; intenta determinar qué es lo que te va a parecer relevante. "Medimos qué te cosas te harán interactuar con tus amigos, que les pongas Me gusta y les dejes un comentario. Buscamos señales: algún atributo del posteo que tomamos en consideración, como de quién es, si tendés a megustar publicaciones de esa persona; si es una foto; si tendés a megustear fotos, y cosas así -detalla Marra-. Y miramos cómo otra gente interactuó con esta publicación: ¿hay mucha gente que lo mira, o que lo ignora? Y tomamos todas esas muchas señales y hacemos predicciones sobre la publicación: qué probabilidades hay de que comentes, entres al link publicado, o lo compartas. También si es una publicación con relevancia geográfica a donde estás, si es clickbait, si podría ser una noticia falsa. Analizamos la calidad positiva o negativa de una publicación y le damos lo que llamamos un puntaje de relevancia. También sabemos que hay situaciones en las que la gente se siente obligada a poner Me Gusta, o que lo que les gusta a tus amigos puede no interesante a vos; todo eso se tiene en cuenta. Lo que tiene más puntaje es lo que vas a ver primero."
"Pero además tenemos lo que llamamos problemas, superficies y acciones. Un problema es una publicación que es spam, cyberbulling, o una noticia falsa. No las queremos, pero aparecen en las diversas superficies que tenemos (Facebook, Messenger, Instagram, etcétera) -agrega-. Los problemas se organizan en función de si buscan dinero, si es un ataque a alguien, si buscan tener más distribución. Y las acciones pueden ir desde borrar el contenido a reducir su exposición o poner un cartel de aviso."
Facebook incluso tiene un grupo de gente a la que le paga para que califique las historias que aparecen en su lista de Noticias, y diga cuánto las entretiene, o conecta con sus amigos, o por qué les parece importante. Una suerte de grupo de control humano para comparar con el funcionamiento del algoritmo (que está creado por humanos, así que sigue también algunos de sus patrones de pensamiento).
En Facebook borran un millón de cuentas falsas por día (en forma automática), pero no pueden hacer algo así con las publicaciones, no pueden chequear todo lo que dicen 2200 millones de personas.
"Llo que sí hacemos es buscar ciertos patrones de conducta y actuamos para neutralizar sus acciones -dice Tessa Lyons-Laing, gerente de producto en Facebook.- Por ejemplo, a las cuentas que consideramos que difunden contenido falso les quitamos la posibilidad de monetizar esas páginas, o de poner avisos para aumentar su alcance; el dinero suele ser su motivación principal. También investigamos los dominios que publican cosas falsas en forma reiterada, vemos quiénes son los administradores, si son perfiles falsos o no, etcétera. Si tenés un historial de publicar cosas nocivas o racistas o falsas, podemos despublicar tu página. Las páginas de spam, clickbait o con noticias falsas suelen seguir un patrón de circulación de contenido, que detectamos y neutralizamos. Pero también le bajamos le puntaje a lo que publican, para que no lo veas en tu perfil: no lo borramos, pero le damos un puntaje muy bajo, que nos parece un equilibrio razonable entre la libertad de expresión y promover el contenido auténtico. Eso dificulta la posibilidad de ganar dinero con noticias falsas, es un desincentivo. Reducimos en un 80 por ciento la probabilidad de que esas notas sean vistas. También tenemos chequeadores de datos en una docena de países, y tratamos de valorar la fuente."
La ejecutiva no lo dijo, pero su jefe sí: en una reunión con varios medios estadounidenses, Mark Zuckerberg deslizó que estaban evaluando una suerte de ranking de credibilidad de sitios de noticias para ayudar en la valoración del contenido basado en las respuestas de los usuarios sobre la percepción y la confianza que tiene con un medio en particular.
"Ingresamos estos datos en el sistema para que funcionen como un promotor o inhibidor de las publicaciones. Creemos que tenemos una responsabilidad para ir más allá de la polarización para encontrar un punto intermedio", dijo Zuckerberg, sobre el método que permitirá identificar qué tipo de publicaciones son confiables o no.
Más allá de si tiene éxito o no, en esta conferencia la compañía dejó bien el mensaje que quiere transmitir: en todas las presentaciones se habló de privacidad, de protección de los datos de los usuarios, de frenar la proliferación de contenido falso, de su afán por conectar gente, en un evento de dos días que estuvo, también, marcado por tres noticias: la partida de Jan Koum, el fundador de Whatsapp, en teoría por disidencias sobre si era correcto cruzar datos de los usuarios de Facebook y de Whatsapp; el cierre de Cambridge Analytica, la compañía acusada de usar los datos de los usuarios de Facebook para crear perfiles a los que enviarles propaganda; y la admisión del propio Zuckerberg de que no tiene tan claro cómo es que su compañía hace dinero, y que según le dijo a Steven Levy en Wired, le tomará unos dos años más "arreglar Facebook".