Un nuevo trabajo de la Asociación Estadounidense para el Avance de la Ciencia (AAAS) coordinador por investigadores de la Universidad de Nueva York (Estados Unidos) y publicado en 'Science' relata cómo un nuevo modelo de aprendizaje automático, entrenado con vídeo y audio grabado desde la perspectiva en primera persona de un niño pequeño durante más de un año, ha proporcionado nuevos conocimientos sobre la adquisición temprana del lenguaje.
Los hallazgos no solo ofrecen un marco valioso para comprender cómo los niños aprenden palabras y conceptos, sino que también podrían ser fundamentales para desarrollar sistemas de inteligencia artificial (IA) que puedan aprender el lenguaje de maneras más parecidas a las humanas.
Cabe tener en cuenta que, alrededor de los 6 a 9 meses de edad, los niños comienzan a adquirir sus primeras palabras, conectando las palabras habladas con objetos y conceptos del mundo real. Cuando tienen entre 1,5 y 2 años de edad, la mayoría de los niños pueden comprender un promedio de 300 palabras. Sin embargo, no se comprende bien cómo los niños adquieren sus primeras palabras y cómo estas palabras se arraigan en sus contrapartes visuales.
Aunque este tema es ampliamente debatido y se han propuesto varias hipótesis, la adquisición temprana del lenguaje se ha examinado tradicionalmente en entornos de laboratorio con hallazgos que carecen de generalización a entornos del mundo real. Comprender mejor este proceso en los niños podría informar a los sistemas de inteligencia artificial multimodal de próxima generación que desarrollen vínculos entre palabras y representaciones visuales.
Grabaciones en primera persona
En este trabajo, Wai Keen Vong y su equipo abordan estas preguntas utilizando un enfoque novedoso. Introducen el modelo Child's View for Contrastive Learning (CVCL). Utilizando grabaciones longitudinales de cámaras montadas en la cabeza de la experiencia en primera persona de un solo niño durante un período de 1,5 años (de 6 a 25 meses de edad), el quipo entrenó el CVCL, una red neuronal relativamente genérica, en cuadros de video (que representan lo que el niño estaba viendo) que ocurrían simultáneamente con expresiones lingüísticas dirigidas por el niño (lo que el niño estaba escuchando).
A través de esto, los autores muestran que el modelo podría aprender asignaciones de referencias de palabras presentes en la experiencia cotidiana del niño. Aunque el modelo fue entrenado en un subconjunto estricto de experiencias naturalistas reales, fue capaz de generalizar más allá de los objetos visuales específicos vistos en el entorno del niño durante el entrenamiento y alinear sus representaciones visuales y lingüísticas de ellos.
Según los investigadores, el modelo, con información sensorial limitada y mecanismos de aprendizaje relativamente genéricos, proporciona una base computacional para investigar cómo los niños adquieren sus primeras palabras y cómo esas palabras pueden conectarse al mundo visual.
A pesar de las conclusiones del estudio, los autores destacan varias limitaciones de su modelo a la hora de llenar completamente los vacíos en la comprensión del aprendizaje de palabras en los niños.