Analyse cepstrale pour la détection de pitch
je cherche à extraire des sons d'un signal sonore.
Quelqu'un sur IRC vient de m'expliquer comment prendre un double FFT permet d'atteindre cet objectif. Plus précisément:
- prendre FFT
- prendre le log du carré de la valeur absolue (peut être fait avec la table de recherche)
- prendre un autre FFT
- prendre valeur absolue
je tente ceci en utilisant vDSP
Je ne comprends pas comment je n'ai pas rencontré cette technique plus tôt. J'ai fait beaucoup de chasse et de poser des questions; plusieurs semaines de valeur. Plus au point, je ne comprends pas pourquoi je n'avais pas pensé à ça.
j'essaie d'atteindre cet objectif avec la bibliothèque vDSP. Il semble qu'il ait des fonctions pour s'occuper de toutes ces tâches.
cependant, je m'interroge sur la précision du résultat final.
j'ai précédemment utilisé une technique qui parcourt les bacs de fréquence d'un seul FFT pour les maxima locaux. Quand il en rencontre un, il utilise une technique astucieuse (le changement de phase depuis le dernier FFT) pour placer plus précisément le pic réel dans le bac.
je crains que cette précision ne soit perdue avec cette technique que je présente ici.
je suppose que la technique pourrait être utilisée après le deuxième FFT pour obtenir le fondamental avec précision. Mais ce genre de ressemble à l'information est perdue dans l'étape 2.
comme c'est un processus potentiellement délicat, quelqu'un avec une certaine expérience pourrait-il juste regarder ce que je fais et vérifier s'il est sain d'esprit?
aussi, j'ai entendu dire qu'il y a une technique alternative impliquant l'installation d'un quadratique sur les bacs voisins. Est-ce d'une précision comparable? Si c'est le cas, j'y serais favorable, car cela n'implique pas de se souvenir des phases de bin.
Donc, des questions:
- cette approche a-t-elle un sens? Peut-il être amélioré?
- je suis un peu inquiet au sujet du composant" log square"; il semble y avoir une fonction vDSP pour faire exactement cela: vDSP_vdbcon. Cependant, il n'y a aucune indication qu'il précalcule un log-table -- je suppose que ce n'est pas le cas, car la fonction FFT nécessite une fonction de pré-calcul explicite pour être appelée et passée en elle. Et pas cette fonction.
- Est-il un danger de les harmoniques d'être pris?
- y a-t-il un moyen astucieux de faire sortir vDSP des maxima, les plus grands d'abord?
-
est-ce que quelqu'un peut m'orienter vers des recherches ou de la littérature sur cette technique?
-
la question principale: est-elle suffisamment précise? Peut l'exactitude être améliorée? Un expert vient de me dire que la précision n'est pas suffisante. Est-ce la fin de la ligne?
Pi
PS je suis tellement ennuyé quand je veux créer des tags, mais ne peut pas. :| Je l'ai suggéré aux responsables qui, AFIN de garder une trace de tentative de balises, mais je suis sûr que j'ai été ignoré. Nous avons besoin de tags pour vDSP, accelerate framework, cepstral analysis
5 réponses
d'accord, passons un par un:
je cherche à extraire des sons d'un signal sonore.
même si Je ne suis pas un expert et que je n'ai reçu qu'une formation formelle minimale, je pense que je connais la meilleure réponse à ce problème. J'ai fait un lot de recherche, de lecture, et d'expérimentation au cours des dernières années. Mon consensus est que la méthode d'autocorrélation est de loin le meilleur détecteur de tangage en termes de compromis entre la précision, la complexité, la robustesse du bruit et la vitesse. À moins que vous n'ayez des circonstances très particulières, je recommande presque toujours l'autocorrélation. Pour en savoir plus, laissez-moi répondre à vos autres questions.
Ce que vous décrivez est "cepstral analyse" qui est une méthode principalement utilisée pour l'extraction du pitch de discours . L'analyse de Cepstral repose entièrement sur le modèle 151970920" abondance et force des harmoniques de votre signal. Si par exemple, vous deviez passer une onde sinusoïdale pure à travers une analyse cepstrale, vous obtiendriez des résultats terribles. Cependant, pour la parole, qui est un signal complexe, il y a un grand nombre d'harmoniques. (les harmoniques, soit dit en passant, sont des éléments du signal qui oscillent à multiples de la fréquence fondamentale, c'est-à-dire le pas que nous percevons). L'analyse statistique peut être robuste dans la détection de la parole avec un fréquence fondamentale manquante . C'est-à-dire, supposons que vous avez tracé la fonction sin(4x)+sin(6x)+sin(8x)+sin(10x) . Si vous regardez cela, il est clair qu'il a la même fréquence que la fonction sin(2x). Cependant, si vous appliquez l'analyse de fourier à cette fonction, la bin correspondant à sin(2x) aura zéro magnitude. Ce signal est donc considéré comme ayant un " manque fondamental la fréquence", parce qu'elle ne contient pas le sinusoïde de la fréquence que nous la considérons. Ainsi, le simple fait de choisir le plus grand pic sur la Transformée de fourier ne fonctionnera pas sur ce signal.
j'ai déjà utilisé une technique qui frotte les bacs de fréquence de un seul TNI pour les maxima locaux. quand il en rencontre un, il utilise un technique astucieuse (le changement de phase depuis le dernier FFT) à plus placez avec précision le pic réel dans le bac.
ce que vous décrivez est la technique du vocodeur de phase pour mesurer plus précisément la fréquence d'un partiel . Cependant, la technique de base de choisir le plus grand bin va vous causer des problèmes si vous utilisez un signal avec une composante de fréquence fondamentale manquante ou faible.
je crains que cette précision ne soit perdue avec cette technique que je présente ici.
tout d'abord, rappelez-vous que la technique du vocodeur de phase ne mesure que plus précisément la fréquence d'une seule partie. Il ignore les informations contenues dans les partiels supérieurs sur la fréquence fondamentale. Deuxièmement, étant donné une taille de FFT décent, vous pouvez obtenir très bon précision en utilisant l'interpolation de crête. Quelqu'un d'autre ici vous a pointé vers l'interpolation parabolique. Je voudrais aussi suggérer.
si vous interpoler parabolique le FFT d'un bloc de données 4098 à 44100 Hz, avec un pas d'environ 440 hz, ce qui signifie qu'il se situera entre le 40e (430,66 Hz) et le 41e (441.430664064) bin. En supposant que ce papier est approximativement correct dans le cas général, il dit que l'interpolation parabolique augmente la résolution de plus d'un ordre de grandeur. Cela laisse une résolution d'au moins 1 Hz, qui est le seuil de l'audition humaine. En fait, si vous utilisez un idéal Fenêtre gaussienne, interpolation parabolique est exact aux sommets (c'est exact, exact. rappelez-vous, cependant, que vous ne pouvez jamais utiliser une vraie fenêtre gaussienne, parce qu'elle s'étend pour toujours dans les deux sens.) Si vous êtes encore soucieux d'obtenir une plus grande précision, vous pouvez toujours pad le FFT. Cela signifie qu'il faut ajouter des zéros à la fin du TNI avant la transformation. Il fonctionne c'est l'équivalent de "interpolation sinc", qui est l'idéal fonction d'interpolation pour les signaux à fréquence limitée.
je suppose que la technique pourrait être utilisée après le deuxième FFT pour obtenir le fondamental avec précision. Mais on dirait que l'information est perdue à l'étape 2.
c'est exact. La technique du vocodeur de phase repose sur le fait que les cadres séquentiels sont connectés et ont une relation de phase spécifique. Toutefois, l'amplitude logarithmique du FFT des cadres séquentiels ne pas montrent la même relation en termes de phase, il serait donc inutile d'utiliser cette transformation pour le deuxième FFT.
- cette approche a-t-elle un sens? Peut-il être amélioré?
Oui et oui, je vais développer sur l'amélioration de mon bit sur l'autocorrélation à la fin.
- je suis un peu inquiet et le journal composante carrée; il semble y avoir une fonction vDSP pour faire exactement cela: vDSP_vdbcon cependant, il n'y a aucune indication qu'elle précalcule une table de log -- je suppose que non, car la fonction FFT nécessite une fonction de pré-calcul explicite à appeler et à y passer. et pas cette fonction.
Je ne connais pas les détails de la bibliothèque vDSP, désolé.
- Est-il un danger de les harmoniques d'être pris?
dans votre phase originale-vocoder picking technique? oui. Avec la méthode cepstral? non, pas vraiment, le fait est qu'il considère toutes les harmoniques pour obtenir son estimation de fréquence. Par exemple, disons que notre Fréquence est de 1. Nos harmoniques sont 2,3,4,5,6,7,8,9, etc nous devrions enlever toutes les harmoniques impaires, i.e. laisser 2,4,6,8, etc, et supprimer la fréquence fondamentale avant il commencerait à être confondu avec un de ses harmoniques.
- y a-t-il un moyen astucieux de faire sortir vDSP des maxima, les plus grands d'abord?
ne sait pas vDSP, mais dans le cas général, vous itérez juste sur chacun d'eux et garder la trace de la plus grande.
- est-ce que quelqu'un peut m'orienter vers des recherches ou de la littérature sur ce technique?
le lien P. je vous ai donné dans un commentaire semblait comme un bon.
aussi, ce site offre une explication incroyablement approfondie et merveilleusement large des sujets de DSP, y compris toutes sortes d'extraction de pitch, manipulation, etc, à la fois d'une manière théorique et pratique. ( ce est un lien plus général vers un index sur le site). Je me retrouve toujours en revenant à elle. Parfois, il peut être un peu écrasante si vous sautez dans le milieu de celui-ci, mais vous pouvez toujours suivre chaque explication retour aux éléments de base de la construction.
pour autocorrélation. Fondamentalement, la technique est la suivante: vous prenez votre signal (fenêtré) et le retard de temps il différentes quantités. Trouver le montant qui correspond le mieux à votre signal original. C'est la période fondamentale. Il fait beaucoup de sens théorique. Vous êtes à la chasse pour la parties répétitives de votre signal.
en pratique, prendre la corrélation avec toutes ces copies retardées du signal est lent. Il est généralement mis en œuvre de cette manière à la place (ce qui est mathématiquement équivalent):
Zéro de la tablette à double de sa longueur d'origine.Prendre la FFT. Ensuite, remplacez tous les coefficients par leur grandeur carrée, sauf le premier, que vous réglez à 0. Maintenant, prends la IFFT. Diviser chaque élément par la première. Ce vous donne l'autocorrélation. Mathématiquement, vous utilisez le théorème de la convolution circulaire( cherchez-le), et en utilisant zero-padding pour convertir un problème de convolution linéaire en un problème de convolution circulaire, qui peut être résolu efficacement.
cependant, faites attention au pic. Pour de très petits délais, le signal sera très bien aligné sur lui-même, simplement parce qu'il est continu. (Je veux dire, si vous le retardez à zéro, il correspond parfaitement à lui-même) à la place, choisir le plus grand pic après le premier zéro-croisement. Vous pouvez interpoler parabolique la fonction d'autocorrélation aussi bien qu'avec d'autres techniques pour obtenir des valeurs beaucoup plus précises.
cela en soi vous donnera une très bonne détection de tangage par tous les critères, cependant, vous pourriez parfois rencontrer un problème avec la réduction de moitié de tangage et le doublement de tangage. Fondamentalement, le problème est que si un signal est répétitif toutes les 1 seconde, il est aussi répétitif chaque deux secondes. De même, s'il a une très forte tonalité, vous pourriez obtenir le pitch halving . Donc le plus grand pic pourrait ne pas toujours être celui que vous voulez. Une solution à ce problème est l'algorithme MPM de Phillip McLeod. L'idée est la suivante:
au lieu de choisir le plus grand pic, vous voulez choisir le premier pic qui est assez grand pour être considéré. Comment déterminer si un pic est assez grand pour être pris en compte? Si elle est au moins aussi haute que A*le plus grand pic, où A est une certaine constante. Phillip suggère une valeur d'environ 0,9. En fait, le programme Qu'il a écrit, Tartini, vous permet de comparer plusieurs algorithmes différents de détection de pitch en temps réel. Je suggère fortement téléchargement it et l'essayer (il met en œuvre Cepstrum, autocorrélation droite, et MPM): (si vous avez des problèmes de construction, essayez les instructions ici .
une dernière chose à noter est le fenêtrage. En général, n'importe quelle fenêtre lisse fera l'affaire. Fenêtre de branchement, fenêtre de martelage,etc. Nous espérons que vous devez savoir comment la fenêtre. Je suggère aussi de faire des fenêtres superposées si vous voulez des mesures temporelles plus précises.
soit dit en passant, une propriété cool de l'autocorrélation est que si la fréquence change linéairement à travers la section fenêtrée que vous mesurez, elle vous donnera la bonne fréquence au centre de la fenêtre.
encore une chose: ce que j'ai décrit est appelé biaisé fonction d'autocorrélation. Cela est dû au fait que pour les décalages plus importants, le chevauchement entre le signal original et la version décalée dans le temps devient de moins en moins important. Par exemple, si vous regardez une fenêtre de taille N qui a été retardée échantillons N-1, vous voyez qu'un seul échantillon se chevauche. Donc la corrélation à ce retard est clairement l'information, comme toujours, google est votre ami. Bons termes de recherche: autocorrélation, détection de pitch, suivi de pitch, extraction de pitch, estimation de pitch, cepstrum, etc.
il s'agit d'une brève analyse du Cepstrum utilisé pour la détermination du pitch.
examinons D'abord un signal synthétique.
le graphique ci-dessous montre le cèpe d'une note synthétique à l'état stationnaire E2, synthétisée à l'aide d'une composante quasi-DC typique, d'une fondamentale à 82,4 Hz et de 8 harmoniques à des multiples entiers de 82,4 Hz. Le sinusoïde synthétique a été programmé pour générer 4096 échantillons.
Observez le pic Non-DC proéminent à 12.36. La largeur du Cepstrum est de 1024 (la sortie du second FFT), donc le pic correspond à 1024/12.36 = 82,8 Hz ce qui est très proche de 82,4 Hz la vraie fréquence fondamentale.
examinons maintenant un signal acoustique réel.
le graphe ci-dessous montre le sillon D'une vraie note E2 de guitare acoustique. Le signal n'a pas été coupé avant le premier ft. Observez le pic Non-DC proéminent au 542.9. La largeur du Cepstrum est de 32768 (la sortie du second FFT), donc le pic correspond à 32768/542.9 = 60,4 Hz, ce qui est assez éloigné de 82,4 Hz de la vraie fréquence fondamentale.
le graphe ci-dessous montre le Cepstrum de la même vraie note E2 de guitare acoustique, mais cette fois le signal était Hann windowed avant le premier FFT. Observez le pic proéminent Non-DC à 268,46. La largeur du Cepstrum est de 32768 (la le pic correspond donc à 32768/268.46 = 122,1 Hz ce qui est encore plus éloigné de 82,4 Hz de la vraie fréquence fondamentale.
la note E2 de la guitare acoustique utilisée pour cette analyse a été échantillonnée à 44,1 KHz avec un microphone de haute qualité dans des conditions de studio, elle contient essentiellement zéro bruit de fond, aucun autre instrument ou voix, et aucun traitement de post.
Ceci illustre le défi important de l'utilisation de L'analyse Cepstral pour la détermination du pas dans les signaux acoustiques réels.
, les Références:
Real audio du signal de données, synthèse de génération de signal, les intrigues, la FFT, et Cepstral analyse ont été fait ici: instrument de Musique cepstre
Qu'est-ce qui ne va pas avec votre technique existante que vous êtes intéressé par une nouvelle? Je ne pense pas qu'un cepstre va vous donner plus de précision la hauteur, si c'est le but. Il vous aidera, cependant, avec supprimé fondamentaux . Je suppose que vous pourriez utiliser le cepstrum pour vous rapprocher, puis revenir à la première FFT (que je garderais dans sa forme originale) et ensuite appliquer votre technique astucieuse à la poubelle que le cepstrum vous guide.
quant à l'ajustement quadratique, il est mentionné dans ce papier par Ted Knowlton, qui est venu dans une autre question ainsi récemment, mais je ne l'ai jamais utilisé.
je dois ajouter que la technique d'ajustement quadratique, au moins telle que décrite dans la référence de Knowlton, dépend de l'utilisation d'une fenêtre rectangulaire sur le premier FFT. Comme Paul R expliqué dans une autre de vos questions, si vous faites le traitement audio, vous devriez utiliser une fenêtre Hann ou Hamming sur le premier FFT. Donc je suppose qu'un algorithme global pourrait ressembler à:
- Prendre le temps de domaine tampon
x
, une fenêtre "copie de 151910920" . -
Sx = FFT(x)
,Sw = FFT(w)
-
c = Log of square magnitude of Sw
-
Cx = FFT(c)
- Estimation fondamentaux (et peut-être les harmoniques) à l'aide de
Cx
- Utiliser
Sw
à faire ruse de phase astucieuse sur bin (s) fondamental(ou harmonique supérieur) - et / ou utiliser
Sx
pour faire l'ajustement de bin quadratique autour de fondamentale (ou harmonique plus élevé)
la note (or higher harmonic)
s'applique si vous avez effectivement supprimé les fondamentaux.
et je l'ai mentionné dans votre autre question, mais qu'est-ce qui vous fait penser que le journal nécessite une table de recherche? Pourquoi ne pas simplement appeler la fonction log? J'imagine que le temps pris par deux FFTs (o (n*logn)), il éclipse tout autre traitement que vous pouvez faire.
Cepstrum analysis est une forme de traitement homomorphe, expliqué dans le livre "Discrete-Time Signal Processing" par Oppenheim & Schafer. Il a été considéré par le passé utile pour séparer la fréquence d'excitation d'une enveloppe de forment (peut-être est encore, Je ne sais pas). Il semble fonctionner mieux lorsque l'on dispose d'une fenêtre assez longue de données stationnaires.
mais L'analyse de Cepstral n'est pas destinée à l'exactitude de l'estimation de fréquence. C'est en fait une perte d'analyse. Mais il pourrait être utile pour trouver la fréquence fondamentale à partir d'un train d'harmoniques où la composante spectrale de fréquence fondamentale pourrait être comparativement faible ou même manquante.
L'analyse de vocoder de Phase (pas aussi astucieux, comme la technique a été autour de peut-être un demi-siècle) est meilleure à l'estimation de fréquence pour un pic donné, en supposant que vous choisissez le pic correct (pas nécessairement le plus fort), le spectre de pic est stationnaire à travers les deux cadres fft, et le fondamental n'est pas totalement absent du spectre.
interpolation quadratique ou parabolique pourrait être un bon ajustement si la transformation de votre fonction de fenêtre ressemble à une parabole. L'interpolation Sinc fonctionne mieux avec les fenêtres rectangulaires.
cette réponse est destinée à être lue en complément du billet de Jeremy Salwen, et aussi pour répondre à la question concernant les littératures.
tout d'abord, il est important de considérer quelle est la périodicité du signal. Si le signal est plus proche d'un signal périodique pour une fenêtre d'analyse.
se référer ici pour une explication détaillée du terme et des mathématiques https://en.wikipedia.org/wiki/Almost_periodic_function#Quasiperiodic_signals_in_audio_and_music_synthesis
la réponse courte est que si pour une fenêtre d'analyse donnée un signal est entièrement périodique, ou si le signal est quasi périodique et la fenêtre d'analyse est suffisamment petite pour que la périodicité soit atteinte alors autocorrélation est suffisant pour la tâche. Voici des exemples de signaux qui remplissent ces conditions:
- ton sinusoïdal pur
- Instruments À Cordes avec des appuis longs et un pas stable (pas de vibrato), particulièrement vrai sur la partie de maintien, pas si vrai sur les transitoires.
- Instruments À Vent soufflés assez longtemps.
exemples de signaux qui ne remplissent pas ces conditions:
- sons Percussifs
- Instruments À Cordes ou à trappe à vent qui sont joués avec chaque note tenu seulement très court, ou changeant en peu de temps
- musique complexe, ou essentiellement combinaison de plusieurs instruments qui sont joués avec des hauteurs différentes.
Pour la détection de hauteur à l'aide d'autocorrélation il y a un tutoriel sur comment il est mis en œuvre dans Praat:
- http://www.pinguinorodriguez.cl/blog/pitch-in-praat / Pitch in Praat Une brève explication du discours de Praat l'algorithme de détection. Ceci décrit l'algorithme nommé 'ac'.
- www.fon.hum.uva.nl/paul/praat.html analyse précise à court terme de la fréquence fondamentale et du rapport harmoniques / bruit d'un son échantillonné. Paul Boersma. IFA Proceedings 17: 97-110.
l'article décrit en détail l'utilisation de l'autocorrélation non biaisée (le terme utilisé par Jeremy Salwen) pour la détection de pitch, il montre également qu'il est supérieur à biaisé autocorrélation pour la détection de hauteur. Bien qu'il note que les résultats de l'autocorrélation sont seulement significatifs jusqu'à la moitié de la taille de la fenêtre, vous ne devez pas calculer la seconde moitié.
une autocorrélation biaisée est faite en fenêtrant les signaux à l'aide d'une fenêtre effilée et en faisant ensuite l'autocorrélation. Cela réduit les effets de la modulation de basse fréquence (changement d'amplitude à une échelle de temps lente) qui est préjudiciable à la détection de pas, car autrement les pièces avec une plus grande amplitude donnera un plus grand coefficient d'autocorrélation qui sera préféré.
L'algorithme utilisé dans L'article de Boersma peut être décrit en 5 étapes:
- Supprimer DC du signal qui va être fenêtré (x - x_avg)
- fenêtre le signal en utilisant une fonction de défilement (il fait valoir que Hann fenêtre, ou mieux, fenêtre gaussienne est utilisé pour elle)
- Autocorrelates le signal
- Diviser la fonction d'autocorrélation avec l'autocorrélation de la fenêtre utilisée.
- Pic-picking (similaire aux algorithmes précédents)
il est important de noter que la fenêtre va vers zéro aux deux extrémités, et l'autocorrélation de la fenêtre va également vers zéro. C'est pourquoi la deuxième moitié de l'impartialité de l'autocorrélation est inutile, c'est une division par zéro vers la fin de la fenêtre.
le suivant est YIN: - De Cheveigné, Alain, et Hideki Kawahara. "YIN, un estimateur de la fréquence fondamentale de la parole et de la musique."The Journal of the Acoustical Society of America 111.4 (2002): 1917-1930.
d'après ce que j'ai compris, le papier YIN prouve également que l'utilisation d'une fenêtre conique a des effets néfastes sur la précision de la détection de pitch. Et il est intéressant de noter qu'il préfère ne pas utiliser de fonction de fenêtre effilée (il dit quelque chose à l'effet que la fenêtre effilée ne apporter des améliorations aux résultats et au contraire les complique.)
Dernière est Philippe McLeod nouvelle activité et WSNAC (déjà lié par Jeremy Salwen):
- Philippe McLeod, Rapide, Précis de Détection de Hauteur d'Outils pour l'Analyse de la Musique, thèse de Doctorat, Département d'Informatique, Université d'Otago, 2008.
- McLeod. P, Wyvill. G, "Une Façon plus Intelligente pour Trouver Terrain", Proc. Conférence Internationale De Musique Informatique, Barcelone, Espagne, Septembre 5-9, 2005, pp. 138-141.
- McLeod. P, Wyvill. G, "Visualisation de la Hauteur Musicale", Proc. Computer Graphics International, Tokyo, Japon, 9-11 juillet 2003, pp 300-303.
ils peuvent être trouvés sur miracle.otago.ac.nz/tartini/papers.html
Je n'ai pas lu trop loin dans elle, mais il y a une mention d'elle comme une méthode pour réduire les effets préjudiciables de la fenêtre s'amenuisant de l'autocorrélation biaisée qui est différente comparé à la méthode utilisée par Boersma. (notez que je n'ai rien trouvé à propos de MPM donc je ne peux rien dire à ce sujet)
une dernière suggestion est que si vous faites un accordeur d'instrument, la méthode qui serait plus facile et aura un peu meilleur résultat par rapport à l'autocorrélation est en utilisant la corrélation croisée avec un signal sinusoïdal pur avec une fréquence prédéterminée.
Jeremy Salwen:
That supposons par exemple que vous avez tracé la fonction sin(4x)+sin(6x)+sin(8x)+sin(10x). Si vous regardez cela, il est clair qu'il a la même fréquence que la fonction sin(2x). Cependant, si vous appliquez l'analyse de fourier à cette fonction, la bin correspondant à sin(2x) aura une magnitude zéro. Ainsi ce signal est considéré comme ayant une "fréquence fondamentale manquante", parce qu'il ne contient pas le sinusoïde de la fréquence que nous considérons qu'il est.
je voudrais argumenter bien que le signal donné soit périodique à \omega=2, ce n'est pas la même chose que d'avoir la même fréquence que la fonction sin(2x). Comme l'analyse de fourier montrera que la composante sin(2x) a magnitude zéro. Ceci est lié au fait qu'il existe une relation entre le pas, la fréquence et la fréquence fondamentale d'un signal, mais elles sont différentes et non interchangeables. Il est important de se rappeler que le pitch est une mesure subjective, qu'il dépend de l'humain comme un qui perçoit il. On dirait qu'il a la même fréquence que sin(2x), c'est comme ça que nous le percevons visuellement. Le même effet se produit également de la même manière sur la perception sonore et de hauteur. l'exemple qui est venu immédiatement à l'esprit est Beats, c'est-à-dire la tonalité perçue qui est entendue lorsqu'il y a deux sinusoïdales avec des fréquences proches mais différentes.