Wikipedia es uno de los sitios web más visitados de Internet, con medio billón de páginas vistas al año, y constituye una de las fuentes de conocimiento más importantes en la actualidad. Como tal, es fundamental que cualquier conocimiento obtenido de esta sea verificable: los usuarios deberían poder buscar y confirmar las afirmaciones hechas utilizando fuentes externas confiables. Para ello, Wikipedia cuenta con una serie de políticas y procesos bien definidos para garantizar la confiabilidad de su contenido. Estas directrices incluyen una estricta política que exige que todas las afirmaciones estén respaldadas por fuentes confiables y accesibles. Asimismo, se enfatiza el uso adecuado de citas y referencias provenientes de fuentes reconocidas, como publicaciones académicas revisadas por pares, libros y sitios web de renombre. Además, la comunidad de editores y colaboradores, el corazón mismo de Wikipedia, participa en una revisión continua del contenido, supervisando la precisión y la calidad de la información presentada en la plataforma. Este enfoque colaborativo y riguroso contribuye a mantener altos estándares de integridad en el extenso repositorio de conocimiento que ofrece.
Sin embargo, como se sabe, este gigante de la información en línea, se enfrenta a desafíos significativos en términos de verificación de su contenido. A menudo, las citas existentes pueden no respaldar adecuadamente las afirmaciones hechas en los artículos, lo que plantea interrogantes sobre la autenticidad y precisión de la información. La vandalización, correcciones sesgadas o información falsa contribuyen a desvirtuar su contenido, y ocurren constantemente.
En un esfuerzo por abordar este problema, un equipo de investigadores ha creado un innovador sistema de verificación de citas para Wikipedia, denominado SIDE, que utiliza inteligencia artificial (IA) para identificar y recomendar fuentes más sólidas para respaldar las afirmaciones presentadas en la plataforma.
¿En qué consiste este sistema?
El experimento, detallado en un reciente paper científico, revela que el sistema SIDE, alimentado por un modelo de lenguaje y un sistema de recuperación de información, puede identificar aquellas citas en Wikipedia que probablemente no respalden sus afirmaciones. El modelo, entrenado utilizando un extenso corpus de referencias de la misma Wikipedia llamado Sphere, demuestra una precisión sorprendente en la identificación de citas problemáticas y en la sugerencia de fuentes más confiables disponibles en la web.
El proceso de desarrollo de SIDE involucró el entrenamiento de un componente de recuperación que convierte las afirmaciones y su contexto en consultas de búsqueda, optimizadas para encontrar posibles citas en Sphere. Un verificador humano que quiera encontrar documentos que respalden una afirmación en Wikipedia que ha sido marcada como ‘verificación fallida‘ realizaría dos acciones: (1) sintetizar una consulta de búsqueda basada en el contexto de la afirmación y (2) ejecutar esta consulta en un motor de búsqueda. SIDE, en esencia, aprende a hacer lo mismo utilizando subsistemas de recuperación; el contexto de la afirmación se representa utilizando las oraciones anteriores a la cita, así como el título de la sección y el título del artículo de Wikipedia que la contiene. Utiliza el corpus e infraestructura de búsqueda a gran escala para datos web de Sphere, como fuente de páginas web candidatas.
¿Que resultados obtuvieron?
En primer lugar, se descubrió que SIDE logró recuperar la fuente exacta utilizada en Wikipedia en casi el 50% de los casos evaluados, lo que subraya su capacidad para identificar y respaldar las referencias ya presentes en la plataforma. Además, en un estudio de usuarios, se encontró que más del 60% de las veces los usuarios preferían las citas propuestas por SIDE en comparación con las que existían previamente en Wikipedia. Esta preferencia aumentó a más del 80% cuando SIDE asignó una puntuación de verificación muy baja a la cita original de Wikipedia.
El impacto potencial de SIDE en el ecosistema de Wikipedia es significativo. Al facilitar la identificación de fuentes más sólidas y confiables para respaldar las afirmaciones, el sistema puede ayudar a mejorar la integridad y la calidad del contenido en general. Al trabajar en colaboración con editores humanos, SIDE tiene el potencial de agilizar y mejorar significativamente el proceso de verificación de citas, aliviando la carga cognitiva y temporal asociada con la búsqueda manual de fuentes externas.
El equipo de investigación espera que el desarrollo continuo de sistemas de IA como SIDE pueda marcar un hito en la mejora de la verificabilidad y la confiabilidad de la información en Wikipedia, fortaleciendo aún más su posición como una fuente crucial de conocimiento globalmente accesible y verificable. Con esta innovación, el futuro de la verificación de citas en la plataforma parece más prometedor que nunca.
Esto también plantea la posibilidad de que SIDE o algoritmos similares pudieran tener, con sus debidos matices, una aplicación futura para otros portales de información o verificadores de fuentes noticiosas.
El artículo Mejorando la verificabilidad de Wikipedia con IA, encabezado por los doctores Fabio Petroni y Samuel Broscheit, de la empresa privada estadounidense Samaya AI, fue publicada por la revista de revisión por pares Nature Machine Intelligence el 19 de octubre de 2023.
Con información de: samaya.ai y nature.com
Por: Gerardo Sifuentes
Foto: UNAM
Recuerda suscribirte a nuestro boletín