Emergent tool... Ejemplo de inteligencias entrenadas por refuerzo

Aplicación de Open AI sin ningún uso práctico. Resulta un ejemplo muy claro de cómo funcionan las inteligencias artificiales que aprenden mediante ensayo y error, aprendizaje por refuerzo. Para ello pusieron en un mismo espacio a dos inteligencias artificiales para que jugasen al escondite. Ambas inteligencias no tenían ningún conocimiento de qué iban a hacer allí ni de las reglas del escondite.

A la AI roja la recompensaban cuando encontraba en su campo de visión un personaje azul. A la AI azul la castigaba cuando era vista por un monigote rojo. Al cabo de millones de partidas, las inteligencias comenzaron a tener estrategias de juego claras que se pueden observar en este vídeo:

🌍 Web 🌍

TAGS: Online, teoría, aprendizaje, refuerzo

Buscar este blog

Emergent tool... Ejemplo de inteligencias entrenadas por refuerzo

Comentarios

Publicar un comentario