In this work, published in Science (Open Access version), we introduce the Generative Query Network (GQN), a framework within which machines learn to perceive their surroundings by training only on data obtained by themselves as they move around scenes. Much like infants and animals, the GQN learns by trying to make sense of its observations of the world around it. In doing so, the GQN learns about plausible scenes and their geometrical properties, without any human labelling of the contents of scenes. The GQN model is composed of two parts: a representation network and a generation network. The representation network takes the agent's observations as its input and produces a representation (a vector) which describes the underlying scene. The generation network then predicts (‘imagines’) the scene from a previously unobserved viewpoint. (Google DeepMind)
Como ya es costumbre, Google DeepMind acaba de dar otro paso (o pasito si peca uno de escéptico y quiere ser conservador) hacia una inteligencia artificial general mediante un paper publicado en la revista Science...y la prensa apenas se hizo eco :(.
¿Qué pensarías si te digo que Google ha logrado un sistema formado por tres subredes neuronales interconectadas capaz de generalizar a partir de un entorno y sin ayuda de supervisión humana alguna, el número y tipo de objetos que hay en una escena, sus propiedades y la manera en que estos objetos se relacionan unos con otros? Pues es lo que han logrado.
DeepMind ha conseguido este hito como digo mediante la interconexión de tres subredes neuronales que trabajan juntas (la salida de una es la entrada de otra, etc.). Así pues, una primera red neuronal compuesta principalmente de capas convolucionales (como las que tenemos nosotros en el córtex visual) "codifica" una representación del mundo (de la escena), y luego otras dos subredes neuronales (que utilizan fundamentalmente redes recurrentes LSTM) se encargan de tomar esta representación interna del "mundo" e interpretar y extrapolar qué hay y que se puede esperar del mismo en el tiempo.
De este modo el modelo neuronal completo es capaz de observar por ejemplo una escena (nunca vista antes), detectar cuántos objetos hay y de qué tipo son (qué propiedades tienen y cual es el modo normal en que se suelen comportar en el tiempo cada uno de estos tipos de objeto), de manera que la red neuronal finalmente puede recrear y predecir con mucho éxito futuros estados de la escena sin ninguna otra ayuda. Es capaz, por ejemplo, de observar una escena cualquiera y dar respuesta a preguntas sobre qué podemos esperar que ocurra después dadas las circunstancias. Algo similar a que nosotros veamos un vaso volando por el aire y automáticamente sepamos (e imaginemos mentalmente) que en pocos segundos el vaso habrá chocado con el suelo y se habrá roto. De hecho, hay que notar que la manera en que este modelo neuronal aprende es bastante similar al modo en que lo hacen los bebés humanos conforme van creciendo y desarrollándose cognitivamente poco a poco.
Pero no sólo este novedoso modelo de red neuronal de Google es capaz de generalizar asombrosamente lo que ve, ¡sino que incluso es capaz de mantener cierto razonamiento algebraico (más detalles en el paper)!
Como colofón sólo mencionar que Google DeepMind reconoce que uno de los principales impedimentos que encontró para utilizar esta misma técnica en entornos más realistas (como nuestro mundo) es simplemente que no disponen de momento del hardware necesario (no tienen ni de lejos un poder de cómputo capaz de igual al de nuestro cerebro).
Por lo tanto, y a modo de resumen, remarcar el siguiente hecho: dado que al imitar el modo neuronal en que funciona, aprende, y se desarrolla nuestro cerebro se consiguen resultados tan similares a nuestra representación interna del mundo, junto con la afirmación de que el impedimento más importante encontrado para mejorar aún más el proceso sea que no se dispone de la suficiente potencia de cálculo; casi (casi) nos demuestra ya con poco margen para la duda de que lo único necesario para que TODAS nuestras habilidades cognitivas sean simuladas artificialmente es...¡más potencia! (http://quevidaesta2010.blogspot.com/2017/12/mas-potencia.html)
Fuente principal: https://deepmind.com/blog/neural-scene-representation-and-rendering/