Nombre d'occurrences de caractères donnés par cellule

Question

par exemple si je voulais compter le nombre de N s dans une colonne de chaînes de caractères Comment puis-je faire cela dans les tableurs Google à une base par cellule (c.-à-d. une formule qui pointe à une cellule à la fois que je peux traîner vers le bas)?

String/Count table

Background

je dois décider d'un seuil -min-overlap <integer> pour un programme appelé TOMTOM * * qui compare la similarité entre PWMs* * * de petits motifs D'ADN****,N est une expression régulière pour toute combinaison linéaire des lettres A, C, G et T. Ce serait bien si je pouvais avoir une idée de la distribution des longueurs non-N de mes motifs ADN pour m'aider à m'informer d'un -min-overlap <integer> valeur pour TOMTOM.

Et voici quelques exemples:

enter image description here

* * TOMTOM est un outil pour comparer un motif D'ADN à une base de données de motifs connus. Voir ici pour en savoir plus info.

*** PWM signifie position Weight Matrix:

  • selon Wiki: une matrice de poids de position (PMM), également connue sous le nom de matrice de poids spécifique à la position (PSWM) ou matrice de notation spécifique à la position (PSSM), est une représentation couramment utilisée des motifs (patterns) dans les séquences biologiques.
  • Selon ce document, il pourrait être défini comme suit:

matrice de poids de Position (PWM) ou Les modèles de type PWM sont largement utilisés pour représenter les préférences de liaison des protéines à L'ADN (Stormo, 2000). Dans ces modèles, une matrice est utilisée pour représenter le site de liaison TF (TFBS), avec chaque élément représentant la contribution à la l'affinité d'un nucléotide à la position correspondante. Inhérents à la l'hypothèse des modèles traditionnels de GTP est l'indépendance par rapport à la position; est, la contribution des différents nucléotides des positions à l'intérieur d'un TFBS l'affinité de liaison globale est supposé être additifs. Bien cette approximation est largement valable, mais elle ne tient pas pour plusieurs protéines (Man et Stormo, 2001; Bulyk et al, 2002). De amélioration de la modélisation quantitative, les modèles PWM ont été étendus pour inclure des paramètres supplémentaires, comme les caractéristiques K‐mer, pour tenir compte les dépendances de position au sein des TFB (Zhao et al, 2012; Mathelier & Wasserman, 2013; Mordelet et al, 2013; Weirauch et al, 2013; Riley et al, 2015). Interdépendances entre les nucléotides les postes ont un origine structurelle. Par exemple, l'empilage des interactions entre les les paires de bases forment la structure tridimensionnelle locale de l'ADN. TFs ont préférences pour la conformation de l'ADN dépendante de la séquence, que nous appelons ADN lecture shape (Rohs et coll., 2009, 2010).

OU, plus contemporaine:

selon cette justification, une autre approche pour augmenter les modèles PWM traditionnels sont l'inclusion de l'ADN structural caractéristique. Modèles de spécificité de liaison TF-ADN incorporant ces formes D'ADN performances obtenues niveaux de performance comparables aux modèles intégrant des caractéristiques k-mer d'ordre supérieur, tout en exigeant une plus petit nombre de paramètres (Zhou et al, 2015). Nous avons déjà a révélé l'importance de la forme de l'ADN lire pour les membres de la base helix-loop-helix (bHLH) et les familles homeodomain TF (Dror et al, 2014); Yang et al., 2014; Zhou et al., 2015). Nous avons également pu, pour Hox TFs, de identifier les régions dans les Bft qui ont utilisé l'affichage de la forme de L'ADN, démontrer la puissance de l'approche pour révéler des aperçus mécanistes dans la reconnaissance TF-ADN (Abe et al, 2015). Cette fonctionnalité a été abondamment montré que pour deux familles de protéines, en raison de l'absence de données de haute qualité sur la fixation de L'ADN‐TF à grande échelle. Avec la récente l'abondance des mesures à haut débit de la liaison protéine-ADN, il est maintenant possible de disséquer le rôle de la forme de l'ADN lecture pour de nombreux TF famille.

**** * motif ADN:wiki: en génétique, un motif de séquence est un motif de séquence de nucléotides ou d'acides aminés qui est répandu et qui a, ou est supposé avoir, une signification biologique. Pour les protéines, un motif de séquence est distingué d'un motif structural, un motif formé par l'arrangement tridimensionnel des acides aminés, qui peuvent ne pas être adjacentes.

25
demandé sur Jeeped 2014-11-26 19:53:55
la source

3 ответов

=len(A2)-len(SUBSTITUTE(A2,"N",""))

cela fonctionne, mais si vous voulez trouver tous les numéros correspondent à un modèle spécifique, disons, 3. Alors:

=len(A2)-len(SUBSTITUTE(A2,"3",""))

Est ce que vous avez besoin.

2
répondu X.Ma 2018-10-06 20:25:05
la source

Une alternative pour une cellule à un moment (formule à copier vers le bas):

=len(A2)-len(SUBSTITUTE(A2,"N",""))
39
répondu pnuts 2014-11-27 03:39:40
la source

Je ne sais pas si cela va aider, mais disons que vous avez ces chaînes dans la gamme A2:A6 et vous entrez

=ArrayFormula(LEN(REGEXREPLACE(A2:A6, "[^N]", "")))

dans B2, cela devrait produire le nombre N pour toute la gamme.

11
répondu JPV 2014-11-26 22:51:36
la source