Qu'est-ce qu'un accès à faible latence des données?
Que voulez-vous dire par faible latence d'accès aux données?
je suis vraiment confus au sujet de la définition du terme " latence".
quelqu'un Peut-il préciser le terme de "Latence".
2 réponses
- latence - le temps qu'il faut pour accéder aux données.
- bande passante - combien de données vous pouvez obtenir.
un exemple:
un wagon rempli de bandes de sauvegarde est une latence élevée, une large bande passante. Il y a beaucoup d'informations dans ces bandes de sauvegarde, mais il faut beaucoup de temps pour qu'un chariot puisse aller quelque part.
les réseaux à faible latence sont importants pour les services de diffusion en continu. Le streaming vocal a besoin d'une bande passante très basse (4 kbps pour la qualité du téléphone) AFAIR) mais a besoin des paquets pour arriver rapidement. Un appel vocal sur un réseau à latence élevée entraîne un décalage dans le temps entre les haut-parleurs, même s'il y a suffisamment de bande passante.
autres applications où la latence est importante:
- certains types de jeux en ligne (FPS, RTS, etc.)
- commerce algorithmique
LATENCY -
un montant de pour obtenir la réponse[us]
BANDWIDTH -
une quantité de volume de flux de données par unité de temps[GB
/s
]'
les journaux de Marketing sont fabuleux dans les mystifications avec LATENCY
chiffres
un terme de latence pourrait être confondu, si on ne le prend pas avec soin tout le contexte de la transaction le cycle de vie: participer ligne-segments { amplification | resynchronisation | commutation | MUX/CARTE-ing | routage | EnDec de traitement (pas de parler de la cryptographie ) | statistique-la(dé)compression }, flux de données, la durée et le cadrage / ligne-code de protection add-ons / ( opt. procotol, s'il est présent, encapsulation et reformulation) frais généraux supplémentaires, qui ne cessent d'augmenter latence mais augmentation de la données-VOLUME
.
Juste comme exemple, prendre n'importe quel GPU-marketing de moteur. les énormes nombres qui sont présentés à propos des gigaoctets de DDR5
et GHz
le timing de celle-ci est silencieusement communiqué en gras, ce qu'ils omettent de vous dire est, qu'avec tous ces zillions de choses, chacune de vos SIMT
plusieurs cœurs, Oui, tous les cœurs, doivent payer un cruel latence -peine et attendre pour plus de +400-800
[GPU-clk]
s juste pour recevoir le premier byte de GPU-over-hyped-GigaHertz-Fast-DDRx-ECC-Banque de mémoire protégée.
Oui, votre Super-Moteur GFLOPs/TFLOPs
attendre! ... a cause de (caché) LATENCY
Et vous attendez avec tous les parallèle-cirque ... en raison de LATENCY
( ... et n'importe quelle cloche de marketing ou sifflet ne peut pas aider, croire ou pas ( Oubliez les promesses de cache trop, ceux-ci ne savent pas, ce qu'il y aurait l'enfer là-bas / la fin / la cellule de mémoire éloignée, donc ne peut pas vous nourrir un seul bit copie d'une telle latence - "loin" enigma de leurs poches locales peu profondes)
LATENCY
( et les bénéfices ) ne peut pas être évitée
fortement professionnel HPC
-modèles uniquement aide à payer moins pénalité, tandis que ne peut pas toujours éviter LATENCY
(sous forme de taxes)peine au-delà de certaines ré-arrangements principes.
CUDA Device:0_ has <_compute capability_> == 2.0.
CUDA Device:0_ has [ Tesla M2050] .name
CUDA Device:0_ has [ 14] .multiProcessorCount [ Number of multiprocessors on device ]
CUDA Device:0_ has [ 2817982464] .totalGlobalMem [ __global__ memory available on device in Bytes [B] ]
CUDA Device:0_ has [ 65536] .totalConstMem [ __constant__ memory available on device in Bytes [B] ]
CUDA Device:0_ has [ 1147000] .clockRate [ GPU_CLK frequency in kilohertz [kHz] ]
CUDA Device:0_ has [ 32] .warpSize [ GPU WARP size in threads ]
CUDA Device:0_ has [ 1546000] .memoryClockRate [ GPU_DDR Peak memory clock frequency in kilohertz [kHz] ]
CUDA Device:0_ has [ 384] .memoryBusWidth [ GPU_DDR Global memory bus width in bits [b] ]
CUDA Device:0_ has [ 1024] .maxThreadsPerBlock [ MAX Threads per Block ]
CUDA Device:0_ has [ 32768] .regsPerBlock [ MAX number of 32-bit Registers available per Block ]
CUDA Device:0_ has [ 1536] .maxThreadsPerMultiProcessor [ MAX resident Threads per multiprocessor ]
CUDA Device:0_ has [ 786432] .l2CacheSize
CUDA Device:0_ has [ 49152] .sharedMemPerBlock [ __shared__ memory available per Block in Bytes [B] ]
CUDA Device:0_ has [ 2] .asyncEngineCount [ a number of asynchronous engines ]
Oui, le téléphone!
Pourquoi pas?
Un point cool pour rappeler
8 khz 8 bits d'échantillonnage sur un 64 ko circuit de commutation
utilisé à l'intérieur D'un TELCO E1 / T1 hiérarchie
POTS
le service téléphonique était basé sur un synchronefix -latency
commutation (fin des années 70-s ont fusionné des réseaux mondiaux, autrement in-synchronise-capable de la hiérarchie numérique Plesiochronous entre les Japonais -PDH
- standard, Continental -PDH
-E3
inter-porteur de normes et de NOUS-PDH
-T3
les services de transport, qui ont finalement évité de nombreux maux de tête avec international carrier services de gigue / glissement / (re)-synchronisation des tempêtes et des drop-outs )
SDH
/SONET-STM1 / 4 / 16
, continued on 155 / 622 / 2488 [Mb/s]
BANDWIDTH
SyncMUX-circuits.
L'idée cool sur SDH
était la structure de fixation appliquée à l'échelle mondiale du cadrage aligné sur le temps, qui était à la fois déterministe et stable.
cela permet simplement la mémoire-map (Cross-connect switch) conteneur d'ordre inférieur-flux de données composants à copier à partir de STMx entrants sur des charges stmx sortantes/PDHy sur les connections SDH (rappelez-vous, c'était aussi profond qu'à la fin des années 70-s donc les performances CPU et Dram étaient des décennies avant de manipuler GHz
et unique ns
). Une telle cartographie de la charge utile box-inside-a-box-inside-a-box a fourni à la fois de faibles frais généraux de commutation sur le matériel et des moyens de réalignement dans le domaine du temps ( il y avait des intervalles de bits entre les limites de box-in-box, de manière à fournir une certaine élasticité, bien en dessous d'un standard donné asymétrie maximale dans le temps )
bien qu'il puisse être difficile d'expliquer la beauté de ce concept en quelques mots, AT&T et d'autres grands opérateurs mondiaux ont beaucoup apprécié la synchronie SDH et la beauté du réseau mondial synchrone SDH et des mappages D'Add-Drop-MUX côté local.
ceci dit,
latence conception contrôlée
occuper de:
- ACCESS-LATENCY :
combien de temps faut-il pour arrivée pour le premier bit : [s]
- TRANSPORT-BANDWIDTH :
combien de bits il peut transférer/livrer à chaque unité de temps: [b/s]
- VOLUME OF DATA :
combien de bits de données y a-t-il au total à transporter : [b]
- TRANSPORT DURATION :
combien d'unités de temps cela prend-il
- ___________________ :
/livrer entier VOLUME OF DATA
qui a demandé: [s]
Épilogue:
Une très belle illustration des principaux indépendance d'un débit ( bande passante
[GB/s]
)latence[ns]
Fig.4 dans un joli[GPU-clk]
ArXiv paper on Amélioration De La Latence D'Ericsson, testant comment l'architecture MANYCORE RISC-procesor Epiphany-64 D'Adapteva peut aider à stimuler la latence dans le traitement du signal.
Comprendre Fig.4, étendu dans le noyau de dimension,
peut aussi montrer les scénarios possibles
- comment augmenter de bande passante[GB/s]
par Plus-core (s) impliqué (s) dans accelerated / TDMux-ed[Stage-C]
traitement ( entrelacé dans le temps )
et
-temps de LATENCE[ns]
ne peut jamais être plus courte qu'une somme de principalSEQ
-processus-les durées== [Stage-A]
+[Stage-B]
+[Stage-C]
, indépendamment du nombre de disponibles ( simple/beaucoup )-cœurs, l'architecture permet d'utiliser.
Merci beaucoup à Andreas Olofsson et aux gars D'Ericsson. CONTINUEZ À MARCHER, BRAVES HOMMES!