Valeur moyenne et écart-type d'un très grand ensemble de données
je me demandais si il existe un algorithme qui calcule la valeur moyenne et l'écart-type d'une unbound ensemble de données.
par exemple, je surveille une valeur de mesure, comme le courant électrique. Je voudrais avoir la valeur moyenne de toutes les données historiques. Chaque fois qu'une nouvelle valeur vient, mettre à jour la moyenne et stdev? Parce que les données sont trop grandes pour stocker, j'espère qu'il peut simplement mettre à jour la moyenne et stdev à la volée sans stocker les données.
même les données sont stockées, le de manière standard (d1+...+dn) / n, ne fonctionne pas, la somme va souffler la représentation de données.
I à environ la somme(d1 / n + d2 / n + ... d3/n), si n est hugh, l'erreur est trop grande et le cumul des. De plus, n n'est pas lié dans ce cas.
le nombre de données est définitivement non lié, chaque fois qu'il vient, il nécessite de mettre à jour la valeur.
est ce que quelqu'un sait si il existe un algorithme pour elle?
4 réponses
[la question n'a changer? peut-être que je n'ai lu que le début. j'ai mis à jour/modifiés afin de donner une meilleure réponse:]
il n'y a pas de solution parfaite (en mémoire constante) que je connaisse, mais je peux donner différentes approches.
tout d'abord, pour le calcul de base vous avez seulement besoin de la somme de toutes les valeurs (sum_x
), la somme de leurs carrés (