A.Inception: Cuando la IA aprende sola y ya no necesita humanos para mejorar 😱

Hola, volví a escribir, salieron nuevas noticias -bueno, siempre- y estas son muy, MUY emocionantes, tanto así que tuve que volver a escribir!

Hoy quería comentar el A.Inception ¿vieron la película de Di Caprio, donde entraba en los sueños y en los sueños de los sueños y en los sueños de los sueños de los sueños?
Google está trabajando en algo «similar»(ok, no) con sus algoritmo de Machine y Deep Learning, llamado AutoML «Machine Learning Automático» o en palabras simples una máquina que aprende sola, este podría ser el comienzo del fin 😱😱! Finalmente la computadora puede aprender sola o contra sí misma y además por si sola, ya que no requiere el ingreso de información de éxito (si gana o pierde) de un humano.

WHAAAATTTTTT?!

Recuerdan que les hablé de cómo AlphaGo la inteligencia artificial de google, venció al mejor (y a los mejores) jugadores de Go del mundo? Bueno, ahora lo mejoraron y crearon AlphaGo Zero, una IA mejorada para que compitiera contra su propia AlphaGo Master (llámese a la versión ganadora). Lo interesante acá es que el AGZ sólo se le enseñaron las reglas del juego y la pusieron a jugar contra sí mismo, se imaginan lo que es apenas saber jugar y tratar de vencerse una y otra vez? millones de veces? bueno, esto fue lo que ocurrió:

agz_unformatted_nature — Gráfico del *elo* de AlphaGo Zero y cómo va mejorando en función de los días. A los 3, 21 y 35-40 días se pueden apreciar los puntos más importantes.

3 horas más tarde: AGZ juega como un jugador promedio, no piensa a largo plazo en la partida, y su juego se basa en ganar más piedras.
19 horas más tarde: AGZ aprende las estrategias más complejas del juego, el concepto de la vida y muerte, las influencias y del territorio(en el juego go, se puede tener una buena porción del tablero en disputa, pero aún sin un claro «dueño» y al mismo tiempo pueden haber varias de estas porciones que se pelean simultáneamente.
70 horas más tarde (3 días): AGZ ya juega a un nivel Super Humano, le gana a AlphaGo Lee por 100 a 0, juega de manera disciplinada, y compite por varios territorios del tablero al mismo tiempo con estrategias complejas.
21 días más tarde: AGZ iguala el elo de AGMaster y lo vence por primera vez, con toda su experiencia, juegos y datos históricos, por tanto ya supera el nivel de todos los jugadores de GO del mundo.
40 días más tarde: AGZ vence sólidamente (89-11) a AGM y le supera por 327 puntos de elo (5185 vs 4858), para que se hagan una idea una diferencia de 200 pts de elo equivale a tener un 75% probabilidades de ganarle al contrincante. Con todo esto, AGZ se vuelve una máquina excepcional en su capacidad de jugar Go, y lo más sorprendente de esto es que no utiliza datos históricos ni necesitó de ayuda humana para aprender a jugar.

EloRatings.width-1500 — Mejora del Elo de las diferentes «máquinas» de Google.

Y eso no es todo! ustedes creen que usaron un computador más grande y nuevo para hacer a AlphaGoZero? jajaja, NO. Mejoraron los algoritmos y la matemática.
Sólo como datos de referencia:

AGLee usaba 48 TPU’s ubicado en varios computadores. (TPU: Tensor Procesor Unit, en palabras humanas, un procesador diseñado por google especialmente para tareas de Machine Learning, un TPU puede procesar más de 100 millones de fotos al día.)

AGMaster usaba una máquina y sólo 4 TPU v.2, dos redes neuronales y un árbol de montecarlo (AdM: realiza búsquedas y predicciones tomando datos al azar, ponderando sus posibilidades y eligiendo las mejores de este azar, recuerden que las posibilidades de juego son casi infinitas, por lo que sólo puede procesar una pequeña parte), AlphaGo Master fue entrenada por humanos «aprendizaje supervisado», viendo miles de sus juegos, jugando contra humanos indicándole cuando un juego es victorioso y cuando no.

AGZero con una máquina y 4 TPU, se entrenó solo, jugando contra sí mismo, aprendió más rápido, usó sólo una red neuronal y fue más eficiente en el uso de recursos (uso menos procesador) y se basó en el «aprendizaje sin supervisión», que lo mencioné en el primer post.

«en 1997, los científicos creían que el humano tardaría 100 o más años en poder hacer una IA que venciera al hombre en el juego GO, 20 años después…»

Les dejo un video mientras reflexionan… (no he terminado)

Wait, entendieron algo? les hizo click ? les dió miedo? 100-0. No tenemos oportunidad contra las máquinas.

Estos algoritmos de aprendizaje automático, pueden ser programados para resolver problemas humanos y tener soluciones que jamás habríamos imaginado.
A esto sumarle más y mejores procesadores, más redes neuronales, mejores algoritmos.
Imaginen si se mezcla con ciencia dura (física, química, matemática) y que resuelva los problemas de ingeniería que tenemos, mezclarlo con diseño, máquinas y materiales y nos ayude en la construcción de motores óptimos, soportes o estructuras ideales, de seguro el algoritmo lo hará muchas veces mejor que el humano.

Imagino problemas complejos, como la administración de recursos y el desarrollo de un país o del mundo, las máquinas podrían ayudarnos y hacer ese trabajo mejor que nosotros ! Oh! wait…

Mi mente explota en este instante.

«Qué momento de la humanidad para estar vivos»

Dar las gracias si leíste hasta acá! ¿Cómo te sientes ahora? avasallado espero, ahora por favor cuéntame si no entiendes algo para poder entrar en detalle, explicarlo y hacer esto un poco más accesible al conocimiento público.

FUENTES:
Alpha Go Master: https://deepmind.com/research/alphago/match-archive/master/
https://deepmind.com/blog/alphago-zero-learning-scratch/
https://research.googleblog.com/2017/05/using-machine-learning-to-explore.html

Videos referencias:
2minutes papers: https://www.youtube.com/watch?v=9xlSy9F5WtE
Siraj Raval: https://www.youtube.com/watch?v=vC66XFoN4DE

Paper de AlphaGo Zero:
pdf: https://deepmind.com/documents/119/agz_unformatted_nature.pdf