Un estudio reciente ha revelado que más de la mitad del contenido de internet está traducido automáticamente, principalmente del inglés.
Los investigadores del laboratorio de inteligencia artificial de Amazon Web Services descubrieron este contenido es de baja calidad.
El estudio analizó un corpus de 6,38 mil millones de oraciones extraídas de la web, se observaron patrones de conjuntos de oraciones que son traducciones directas entre sí en tres o más idiomas.
Se descubrió que la mayor parte de internet está traducida, ya que el 57,1% de las oraciones del corpus eran paralelas en varios sentidos en al menos tres idiomas.
Además, el estudio encontró que el contenido traducido se compone mayormente de oraciones más cortas y «más predecibles» de entre 5 y 10 palabras.
Los investigadores argumentaron que este sesgo de selección se debía a que el contenido de baja calidad se traducía a través de Inteligencia Artificial en masa. Los investigadores concluyeron que esta situación plantea interrogantes para el desarrollo de grandes modelos lingüísticos en idiomas de menores recursos.
Estos modelos requieren un gran corpus de datos de alta calidad para entrenarse, y el contenido traducido automáticamente de baja calidad puede sesgar su aprendizaje.
Fuente: arXiv
Recuerda suscribirte a nuestro boletín
📲 https://bit.ly/3tgVlS0
💬 https://t.me/ciudadanomx
📰 elciudadano.com