Ensembles de données pour L'exécution D'analyses statistiques sur [clos]

Quels sont les ensembles de données disponibles sur internet sur lesquels je peux effectuer une analyse statistique?

38
demandé sur Tal Galili 2010-02-12 16:46:56

17 réponses

le paquet datasets est inclus avec la base R. exécutez cette commande pour voir la liste complète:

library(help="datasets")

au-delà de cela, il y a beaucoup de paquets qui peuvent extraire des données, et beaucoup d'autres qui contiennent des données importantes. Parmi ceux-ci, vous pouvez vouloir commencer par regarder le HistData paquet, qui" fournit une collection de petits ensembles de données qui sont intéressants et importants dans l'histoire des statistiques et des données visualisation."

Pour les données financières, le quantmod package fournit une interface commune pour extraire des données de séries chronologiques à partir de google, yahoo, FRED et les autres:

library(quantmod)
getSymbols("YHOO",src="google") # from google finance 
getSymbols("GOOG",src="yahoo") # from yahoo finance 
getSymbols("DEXUSJP",src="FRED") # FX rates from FRED 

FRED ( la Réserve Fédérale de Saint-Louis ) est vraiment une mine de Données économiques libres.

de nombreux paquets R sont fournis avec des données qui sont spécifiques à leur but. Donc si vous êtes intéressé par génétique, modèles multiniveaux, etc., les paquets concernés ont souvent l'exemple canonique pour cette analyse. Aussi, le livre paquets sont généralement livrées avec les données nécessaires pour reproduire tous les exemples.

voici quelques exemples de colis pertinents:

  • alr3 : inclut des données pour accompagner la régression linéaire appliquée ( http://www.stat.umn.edu/alr )
  • arm : inclut certaines des données de Gelman "analyse des données en utilisant la régression et les modèles multiniveaux/hiérarchiques" (le reste des données et du code est sur le site Web du livre )
  • BaM : comprend les données de "Bayésien Méthodes: Sciences Sociales et du comportement de l'Approche"
  • BayesDA : inclut les données de L'analyse des données bayésiennes de Gelman"
  • cat : comprend des données pour l'analyse des ensembles de données à variables catégoriques
  • cimis : à partir de la récupération de données à partir de CIMIS, la Californie, la Gestion de l'Irrigation Système d'Information
  • cshapes : comprend les limites des données du SIG et les données
  • ecdat : ensembles de données pour l'économétrie
  • ElemStatLearn : inclut les données des "éléments D'apprentissage statistique, D'exploration de données, D'inférence et de prédiction"
  • emdbook : données de "modèles et Données écologiques "
  • Fahrmeir : données de l'ouvrage "multivariate Statistical Modelling Based on Generalized Linear Models "
  • fEcoFin : "Données économiques et financières Ensembles "for Rmetrics
  • fds : ensembles de données fonctionnelles
  • FMA : ensembles de données de "Forecasting: methods and applications "
  • gamair : données pour "modèles additifs généralisés: Une Introduction Avec R "
  • geomapdata : les données de la topographie et Cartographie Géologique
  • résumé : contient toutes les données de la "R en un Mot" livre
  • nytR : donne accès aux données du vote au congrès par le biais de L'API NY Times
  • openintro : données du livre
  • primer : comprend des données pour "Un primaire de l'Écologie avec R"
  • qtlbook R/qtl livre
  • RGraphics : inclut les données du "R Graphics" book
  • Read.isi : accès aux données de L'enquête mondiale sur la fécondité
45
répondu Shane 2010-02-12 15:20:27

une large sélection sur le Web. Par exemple, voici un énorme répertoire de bases de données sportives (tous fournissant les données gratuitement, au moins c'est mon expérience). Dans ce répertoire est databaseBaseball.com, qui contient entre autres choses, ensembles de données complètes pour chaque joueur qui a jamais joué au baseball professionnel depuis environ 1915.

StatLib est un autre excellent ressources--magnifiquement pratique. Ce simple page web liste 4-5 résumés de ligne de plus d'une centaine de bases de données, qui sont tous disponibles sous forme de fichier plat simplement en cliquant sur le lien "Table" au début de chaque résumé de l'ensemble de données.

la distribution de base de R est préemballée avec une collection importante et variée de datasts (122 en r 2.10). Pour obtenir une liste d'entre eux (ainsi qu'une description en une seule ligne):

data(package="datasets")

De même, la plupart des paquets ont plusieurs ensembles de données (parfois beaucoup plus). Vous pouvez les voir de la même façon:

data(package="latticeExtra")
data(package="vcd")

ces ensembles de données sont ceux mentionnés dans les manuels et les vignettes d'un paquet donné et utilisés pour illustrer les caractéristiques du paquet.

quelques paquets R avec beaucoup d'ensembles de données (qui encore une fois sont faciles à numériser pour que vous puissiez choisir ce qui vous intéresse): AER, DAAG, et vcd.

autre chose trouver si impressionnant à propos de R est son e/s Suppose que vous voulez obtenir des données financières très spécifiques via l'API Yahoo finance. Disons que le prix d'ouverture et de clôture de S&P 500 pour chaque mois de 2001 à 2009, faites juste ceci:

tick_data = read.csv(paste("http://ichart.finance.yahoo.com/table.csv?",
    "s=%5EGSPC&a=03&b=1&c=2001&d=03&e=1&f=2009&g=m&ignore=.csv")) 

dans cette seule ligne de code, R a récupéré les données tick, les a transformées en une base de données et les a reliées à 'tick_data'. (Voici un pratique cheat sheet w / les symboles D'API de Finance Yahoo utilisés pour construire les URLs comme ci-dessus)

6
répondu doug 2010-02-12 16:06:36

avez-vous considéré données de débordement de la pile ?

vous êtes déjà familier avec ce que les données représentent, c'est-à-dire la logique commerciale qu'elle suit

5
répondu Binary Worrier 2010-02-12 13:51:29

http://www.data.gov.uk/data

Récemment mis en place par Tim Berners-Lee

évidemment données basées au Royaume-Uni, mais cela ne devrait pas avoir d'importance. Couvre tout, des voitures abandonnées à l'absentéisme scolaire, en passant par les indices des prix agricoles

5
répondu Nick Allen 2010-02-12 13:52:27

un bon début pour chercher des Données économiques sont toujours les trois adresses suivantes:

un résumé des liens des ensembles de données pour les économistes du développement peut être trouvé à:

Edit:

la Banque mondiale a décidé la semaine dernière d'ouvrir une grande partie de ses ensembles de données jusqu'alors non libres et les a publiés en ligne sur sa page d'accueil révisée. La nouvelle apparence internet semble assez agréable aussi bien.

4
répondu mropa 2010-04-25 08:10:48

http://www.data.gov / a probablement quelque chose que vous pouvez utiliser.

dans leur catalogue de données brutes, vous pouvez définir vos critères pour les données et trouver ce que vous recherchez http://www.data.gov/catalog/raw

3
répondu John Boker 2010-02-12 13:48:20

Un paquet de 268 de petits fichiers texte (les " exemples de "The R Book" ) peut être trouvé dans Le R du Livre compagnon de site web .

3
répondu George Dontas 2010-02-12 14:00:20

vous pouvez regarder sur ce post sur FlowingData

3
répondu Marek 2010-02-12 14:37:24

un autre bon site est un Data .

Division De Statistique De L'ONU (UNSD) du Ministère de l'économie affaires sociales (DESA) a lancé un nouveau service de données basé sur internet pour la communauté mondiale d'utilisateurs. Il apporte Bases de données statistiques de l'ONU au sein de easy portée des utilisateurs grâce à une seule entrée point ( ) http://data.un.org / ). Les utilisateurs peuvent maintenant rechercher et télécharger une variété de ressources statistiques de l'ONU système.

3
répondu Shane 2010-02-12 16:00:02

Collection de plus de 800 ensembles de données au format ARFF compris par Weka et d'autres ensembles d'analyse de données, réunis en TunedIT.org dépôt.

3
répondu Marcin 2010-05-17 14:26:31

voir le concours de données organisé par Hadley Wickham pour la section Data Expo de la section Asa Statistical Computing and Statistical Graphics . La concurrence est terminée, les données est toujours là.

2
répondu Dirk Eddelbuettel 2010-02-12 14:32:24

UC Irvine Machine Learning Repository dispose actuellement de 190 ensembles de données.

le référentiel D'apprentissage Machine UCI est une collection de bases de données, domaine les théories et les données des générateurs utilisé par la communauté d'apprentissage machine pour l'analyse empirique de la machine les algorithmes d'apprentissage.

2
répondu Jukka Matilainen 2010-02-12 16:53:07

j'ai vu sur vos autres questions que vous êtes apparemment intéressé par la visualisation de données. Ont ensuite un regard sur beaucoup d'yeux projet (forme IBM) et l'échantillon ensembles de données .

1
répondu ewernli 2010-02-12 15:45:24

similaire à data.gov mais Eurostat est centré sur l'Europe

http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/search_database

et il ya un département de la statistique chinoise, aussi, comme indiqué par Wildebeests

http://www.stats.gov.cn/english/statisticaldata/monthlydata/index.htm

puis il sont certains "services de données sociales" qui offrent le téléchargement d'ensembles de données, tels que pivotant, manyeyes, timetric, ckan, infochimps..

1
répondu Karsten W. 2010-03-09 10:18:56

la FAO offre la base de données aquastat avec des données avec divers indicateurs relatifs à l'eau différenciés par pays.

le portail Océanographique Naval offre, par exemple, Fraction de la Lune illuminée .

le blog" normalité courbe "a une liste de sources de données intéressantes .

1
répondu Karsten W. 2010-05-16 17:07:12
1
répondu lmsasu 2010-09-05 09:15:04

voici un paquet R avec plusieurs ensembles de données agricoles de livres et de documents. Exemples d'analyses: agridat

0
répondu Kevin Wright 2012-10-09 16:32:27