Índice
¿Por qué son necesarias las Redes Neuronales Recurrentes?
En las redes neuronales regulares y convolucionales, la información circula en una sola dirección desde la capa de entrada a la salida.
Esta arquitectura es útil por ejemplo si queremos clasificar imágenes como en el caso de las redes neuronales convolucionales.
Para analizar la imágen de una camiseta, y clasificarla como «camiseta» no es necesario saber que imágenes clasificó anteriormente.
Es intrascendente si antes clasificó un bolso o unos zapatos.
Para generar la salida solo tienen en cuenta la entrada actual (imagen de una camiseta) , no las entradas pasadas (bolso, zapatillas, etc.)
Pero hay aplicaciones donde esta característica de no tener en cuenta solo la entrada es un inconveniente.
Si queremos procesar por ejemplo el lenguaje de una conversación, es muy importante tener en cuenta la palabras anteriores.
Las dos siguiente frases:
- Estoy Muy bien.
- Estoy Nada bien.
Tienen significados opuestos, a la hora de procesar la palabra «bien», debemos tener en cuenta la palabra previa para entender el sentido de la frase.
Para enteneder la frase la Red Neuronal Recurrente tiene en cuenta no solo la palabra «bien» sino la palabra «muy» previa, para procesar la información.
Las Redes Neuronales Recurrentes tienen «memoria» en este caso la palabra anterior.
¿Cómo funciona un Red Neuronal Recurrente?
Las entradas son el dato actual X(t) y la activación anterior A(t-1)) y las salidas son la salida o predicción actual Y(t)) y la activación actual A(t).
Esta activación también recibe el nombre de Memoria a corto plazo, hidden state, o estado oculto.
La salida activación actual A(t) será entrada en el procesamiento del dato siguiente.
Veamos un ejemplo de funcionamiento de una Red Neuronal Recurrente
Las redes neuronales Recurrentes,conocidas tambien como recursivas o retroalimentadas se especializan en resolver problemas que son secuencias, como el reconocimiento de conversaciones y video.
Para una secuencia, un instante es un número entero que define la posición de cada elemento dentro de la secuencia.
Por ejemplo en el caso de procesamiento de lenguaje de la frase «Estoy muy bien» los instantes son:
1.- «Estoy»
2.- «muy»
3.- «bien»
En cada instante la red neuronal recurrente tiene dos entradas: el dato actual, y la activación anterior:
Dato actual: «bien»
Activación anterior: «muy»
Y dos salidas: la salida actual, y la activación actual (hidden state), que es almacenada y recordada para ser usada en el instante de tiempo posterior.
Para el cálculo tanto de la salida actual como de la activación actual, se utilizan los coeficientes, estos se calculan en la fase de entrenamiento, y permanecen constantes en la fase de predicción.
Conclusiones:
Las redes regulares y convolucionales no permite analizar datos en en secuencia.
Las redes neuronales recurrentes si pueden, y para ello usan dos entradas que son: el dato actual y el estado anterior, y generan: la salida actual y el estado actual que será la entrada del próximo estado.