Comment faire L'initialisation Xavier sur TensorFlow

Je porte mon réseau Caffe sur TensorFlow mais il ne semble pas avoir d'initialisation xavier. J'utilise truncated_normal mais cela semble rendre la formation beaucoup plus difficile.

69
demandé sur Hooked 2015-11-11 01:07:54

8 réponses

Depuis la version 0.8, il y a un initialiseur Xavier, voir ici pour les docs .

Vous pouvez utiliser quelque chose comme ceci:

W = tf.get_variable("W", shape=[784, 256],
           initializer=tf.contrib.layers.xavier_initializer())
106
répondu Sung Kim 2016-12-01 16:32:30

Juste pour ajouter un autre exemple sur la façon de définir un tf.Variable initialisé en utilisant la méthode de Xavier et Yoshua:

graph = tf.Graph()
with graph.as_default():
    ...
    initializer = tf.contrib.layers.xavier_initializer()
    w1 = tf.Variable(initializer(w1_shape))
    b1 = tf.Variable(initializer(b1_shape))
    ...

Cela m'a empêché d'avoir des valeurs nan sur ma fonction de perte en raison d'instabilités numériques lors de l'utilisation de plusieurs couches avec RELUs.

23
répondu Saullo G. P. Castro 2018-07-07 17:41:57

@ Aleph7, L'initialisation Xavier/Glorot dépend du nombre de connexions entrantes (fan_in), du nombre de connexions sortantes (fan_out) et du type de fonction d'activation (sigmoïde ou tanh) du neurone. Voir ceci: http://jmlr.org/proceedings/papers/v9/glorot10a/glorot10a.pdf

Alors maintenant, à votre question. Voici comment je le ferais dans TensorFlow:

(fan_in, fan_out) = ...
    low = -4*np.sqrt(6.0/(fan_in + fan_out)) # use 4 for sigmoid, 1 for tanh activation 
    high = 4*np.sqrt(6.0/(fan_in + fan_out))
    return tf.Variable(tf.random_uniform(shape, minval=low, maxval=high, dtype=tf.float32))

Notez que nous devrions échantillonner à partir d'une distribution uniforme, et non de la distribution normale comme suggéré dans l'autre réponse.

Incidemment, j'ai écrit un post hier pour quelque chose de différent en utilisant TensorFlow qui utilise également L'initialisation Xavier. Si vous êtes intéressé, il y a aussi un bloc-notes python avec un exemple de bout en bout: https://github.com/delip/blog-stuff/blob/master/tensorflow_ufp.ipynb

12
répondu Delip 2015-11-14 17:43:35

Une belle enveloppe autour de tensorflow appelée prettytensor donne une implémentation dans le code source (copié directement à partir de ici):

def xavier_init(n_inputs, n_outputs, uniform=True):
  """Set the parameter initialization using the method described.
  This method is designed to keep the scale of the gradients roughly the same
  in all layers.
  Xavier Glorot and Yoshua Bengio (2010):
           Understanding the difficulty of training deep feedforward neural
           networks. International conference on artificial intelligence and
           statistics.
  Args:
    n_inputs: The number of input nodes into each output.
    n_outputs: The number of output nodes for each input.
    uniform: If true use a uniform distribution, otherwise use a normal.
  Returns:
    An initializer.
  """
  if uniform:
    # 6 was used in the paper.
    init_range = math.sqrt(6.0 / (n_inputs + n_outputs))
    return tf.random_uniform_initializer(-init_range, init_range)
  else:
    # 3 gives us approximately the same limits as above since this repicks
    # values greater than 2 standard deviations from the mean.
    stddev = math.sqrt(3.0 / (n_inputs + n_outputs))
    return tf.truncated_normal_initializer(stddev=stddev)
6
répondu Hooked 2015-12-19 22:25:34

TF-contrib a xavier_initializer. Voici un exemple comment l'utiliser:

import tensorflow as tf
a = tf.get_variable("a", shape=[4, 4], initializer=tf.contrib.layers.xavier_initializer())
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    print sess.run(a)

En plus de cela, tensorflow a d'autres initialiseurs:

6
répondu Salvador Dali 2017-05-01 04:00:37

J'ai regardé et je n'ai rien trouvé construit. Cependant, selon ceci:

Http://andyljones.tumblr.com/post/110998971763/an-explanation-of-xavier-initialization

L'initialisation de Xavier consiste simplement à échantillonner une distribution (généralement gaussienne) où la variance est fonction du nombre de neurones. tf.random_normal peut le faire pour vous, il vous suffit de calculer le stddev (c'est-à-dire le nombre de neurones représentés par la matrice de poids que vous essayez de initialiser).

3
répondu Vince Gatto 2015-11-12 19:23:24

Via le paramètre kernel_initializer vers tf.layers.conv2d, tf.layers.conv2d_transpose, tf.layers.Dense etc

Par exemple

layer = tf.layers.conv2d(
     input, 128, 5, strides=2,padding='SAME',
     kernel_initializer=tf.contrib.layers.xavier_initializer())

Https://www.tensorflow.org/api_docs/python/tf/layers/conv2d

Https://www.tensorflow.org/api_docs/python/tf/layers/conv2d_transpose

Https://www.tensorflow.org/api_docs/python/tf/layers/Dense

2
répondu xilef 2018-04-12 13:57:18

Juste au cas où vous souhaitez utiliser une ligne comme vous le faites avec:

W = tf.Variable(tf.truncated_normal((n_prev, n), stddev=0.1))

Vous pouvez faire:

W = tf.Variable(tf.contrib.layers.xavier_initializer()((n_prev, n)))
2
répondu Tony Power 2018-05-08 19:19:54