26
Décembre
2016
image 1 Dans ce billet, le laboratoire Blue DsX vous explique les étapes à suivre pour importer et modifier correctement vos données dans RStudio ! Après de longues heures de recherche sur Internet, vous trouvez enfin le jeu de données parfait (du moins, selon la description qui en était faite). Vous vous empressez de l'ouvrir dans RStudio et là, horreur : le nombre de variables ne correspond pas du tout au nombre de colonnes, la variable Pays est considérée mystérieusement comme une variable numérique, ou encore vous constatez des "trous" parmi les valeurs. Autant dire que votre dataframe n'est pas exploitable en état. On vous explique la démarche à suivre pour démarrer votre analyse dans les bonnes conditions !

Importer vos données

Pour importer vos données tapez read.csv2() dans la console RStudio (fenêtre du bas) puis appuyer sur la touche Entrée. Pas très joli le résultat... En effet, c'est pour cela qu'il est préférable de mettre votre tableau dans une variable provisoire comme suit : data2 <- read.csv2("data1.csv"). Cliquez maintenant sur votre tableau dans l'onglet Environnement. Vous pouvez maintenant avoir un aperçu plus "flatteur" de vos données ! image 2 Astuce : Vous pouvez aussi importer votre tableau en cliquant sur l'onglet "Import Dataset" (Tools > Import Dataset > From Text File ou Import Dataset dans le fenêtre Environnement). Deux atouts à cela : vous pouvez pré visualiser votre tableau et en corriger son interprétation (pour les séparateurs de colonnes notamment). image 3

Rien ne s'affiche ?

image 4

Un message d'erreur apparaît ? Soit vous avez commis une erreur de frappe, soit la directory de recherche n'est pas correctement indiquée. Vérifiez dans quel dossier RStudio recherche votre fichier avec getwd() ou affichez la liste des fichiers présents avec dir(). RStudio ne cherche pas au bon endroit ? Re dirigez-le en suivant le chemin : Session > Set Working Directory > Choose Directory (le même chemin est accessible dans la fenêtre en bas à droite). La commande read.csv2() permet maintenant d'afficher votre tableau dans la Console. image 5

Il y a des trous !

Gérer les données manquantes Bien souvent les dataframes ne sont pas complets et de nombreuses valeurs sont absentes. Dans le langage R, celles-ci sont codées NA (pour Not Available), mais vous pouvez voir apparaitre des "trous"" si le fichier à été créé sous Excel ou encore un point, s'il a été crée sous SAS. Pour éviter de mauvaises interprétations statistiques, indiquez à RStudio qu’elles sont les valeurs manquantes qu'il va rencontrer en rajoutant l'option na.strings=""
data <- read.csv2("subventionsassociations.csv",na.string ="") # on remplace les trous du dataframe par N/A
Vous pouvez inclure ou non les valeurs manquantes le long de vos calculs avec l'option na.omit() ou na.rm() suivi de l'argument TRUE ou FALSE Exemple :
median(data2$Montants_indemnisations, na.rm=TRUE)  # ne tient pas compte des valeurs manquantes lors du calcul de la médiane d'une variable Montants_indemnisations.

Supprimer et modifier des données

Observation(s) sans aucune donnée, variable(s) avec trop d'inconnus ou inutiles? Supprimez une ligne avec data[-x,], une variable entière avec data[,-y] ou modifiez les valeurs d'une variable avec data[x,y] <- Nouvelle valeur Exemple :
data3[2,10] <- 7111 #change la modalité de la dixième variable (colonne 10) sur la deuxième observation (ligne 2). Ici, on a remplacé la précédente valeur par le nombre 7111.

Découvrir vos données

Maintenant que votre dataframe est "nettoyé", il est temps de s'intéresser aux informations qu'il détient pour mieux appréhender les informations utiles. Tapez ces instructions dans la Console :
dim() # Indique le nombre d'individu (lignes) et de variables (colonnes)image 6 ls() # affiche le nom des variables de notre tableau str() # affiche la nature des variables lenght() # Donne la longueur de la variable

Changer la nature d'une variable

Pour afficher les variables et leur nature, tapez str(). Attention, Rstudio possède sa propre nomenclature pour désigner les différents types de variables :
int : (pour integer) indique une variable quantitativeimage 7 num (pour numeric) indique une variable continue factor indique une variable nominale Ord.Factor indique une variable ordonnée
RStudio n'interprète pas toujours correctement le type des variables. Pour pouvoir poursuivre vos calculs, vous devez d'abord changer la nature de vos variables. Attention, les instructions ne sont pas les mêmes selon l'opération souhaitée ! Pour transformer une variable nominale en ordonnée 
ordered(nomdutableau$nomdelavariable)  + option levels
Pour transformer une variable nominale en variable quantitative
as.numeric(nomdutableau$nomdelavariable)
Pour transformer une variable quantitative en variable nominale 
as.factor(nomdutableau$nomdelavariable)

Changer le nom des colonnes

Pour renommer le nom des variables, utilisez la commande :
rename(nomdudataframe,c(anciennomdelavariable=«nouveaunom»)
Exemple :
rename(data2,c(Population=« Pop ») Vérifier avec la commande  view()

La première étape de votre travail est maintenant achevée ! Vous voilà prêt à manipuler vos données dans de bonnes conditions ! Vous avez une question ? Laissez nous un commentaire, le Laboratoire se fera un plaisir d'y répondre.

Eva Laude

elqude
26
Décembre
2016
objetc Depuis plusieurs années et de manière plus ou moins visible, les objets connectés prennent de plus en plus de place dans notre quotidien. Pourtant nous ne sommes qu’au début d’un « univers tout connecté » dans lequel les entreprises fourniront aux autres entreprises mais aussi aux consommateurs, des services toujours plus proches et plus spécifiques.

Ce nouveau paradigme, extraordinaire et riche en nouvelles perspectives, n’est pas sans poser de nouveaux défis à l’informatique qui mue pour devenir omniprésente voire omnisciente. Des chaussures aux pots de fleurs en passant par les peluches de nos enfants, tous les objets de notre quotidien sont des éléments de mesures et/ou de commande pilotable par l’informatique.

On donne à ce phénomène différents noms : « monde digital », « digitalisation », « ambiance technologie » ou même « objet connecté ». Néanmoins le principe reste le même : une miniaturisation des systèmes leur a permis d'envahir notre quotidien. Ce qui semble être une « nouveauté » pour le particulier est en fait une réalité depuis des années dans le milieu professionnel. En effet, les entreprises mettent en réseau des ensembles de systèmes dans les usines ou contrôlent à distance un grand nombre de systèmes isolés (transformateur EDF, Château d’eau…). La miniaturisation et l’industrialisation permettent maintenant de multiplier les points de présence de ces équipements et ouvrent de nouvelles opportunités business.

Cette réalité terrifiante est considérée par l’IT comme une source inépuisable de développement dans les années à venir. Au programme de ce séminaire :

  • Un point sur la situation actuelle
  • Le futur des objets connectés
  • Les défis engendrés
  • L'infrastructure IT liée au phénomène
  • Les problématiques de sécurité
  • ...
Vous concevrez également votre propre objet connecté afin de bien visualiser les différents concepts abordés. Lors de la première session du séminaire, c'est un pot de fleur connecté qui fut créé ! On n'arrête pas le progrès.. 125

date à venir 

Au plaisir de vous y retrouver nombreux !

signature-florent
26
Décembre
2016
Afficher l'image d'origine

De nombreuses entreprises migrent partiellement ou totalement leur système d’information sur Microsoft Office 365 pour bénéficier de la messagerie, de la suite Office et de SharePoint dans leurs versions « cloud ». En complément de ces services, Microsoft vient également proposer Yammer.

Yammer est un réseau social professionnel apportant toute une palette de fonctionnalités pour faciliter la collaboration au sein de l'entreprise. 

Dans ce contexte, les entreprises se demandent donc en toute logique :

  • Qu'est-ce que Yammer ?
  • Comment l’administrer ?
  • Comment mettre en place sa gouvernance et avec quels principes ?

Ce séminaire se donne pour objectif de répondre à ces questions pour permettre à votre entreprise de s’approprier ce réseau social d’entreprise. Il prendra la forme d’un petit-déjeuner directement dans nos locaux.

date à venir 

Au plaisir de vous y retrouver nombreux !

signature-ludovic

26
Décembre
2016
open data

Les données constituent la base de votre analyse statistique et la matière première du datascientist. Grâce aux différentes initiatives et projets visant à promouvoir le mouvement Open Data, de nombreux portails de publication de données ont vu le jour : le laboratoire BlueDsX vous donne ici plusieurs ressources utiles pour trouver des jeux de données qui soient à la fois :

  • pertinents et adaptés à votre sujet de recherche
  • de qualité : données récentes, , actualisées, avec peu de valeurs manquantes
  • de taille conséquente : des dataframes avec un nombre d'observations élevé

Par où commencer ?

Si vous cherchez des données c'est sans doute pour répondre à une problématique ou plus généralement une interrogation. Prendre le temps de réfléchir à la formulation de celle-ci est nécessaire pour mieux identifier les données requises pour réussir votre analyse et éviter, de fait,  de télécharger de nombreux dataframes inutiles. La question de départ est véritablement porteuse de sens et influe sur la manière de manipuler les données et de les interpréter.

"La question de recherche c'est le point de départ d'une réflexion aboutie !"

ezd

Les plateformes data des villes et des gouvernements

De nombreux pays, ayant identifié les bénéfices de l'Open Data en matière d'innovation et de compétitivité,  ont mis en place leur propre plateforme d'échange de documents publics.

France : https://www.data.gouv.fr/fr/ États-Unis : https://www.data.gov/ Allemagne : https://www.govdata.de/

On observe la même chose pour les grandes villes. Vous trouverez, pour la ville de New York, comme pour la ville de Paris, des sites gouvernementaux donnant accès à leurs documents administratifs publics. Voici quelques exemples de portails Open data de grandes villes françaises :

Paris : http://opendata.paris.fr Nantes : http://data.nantes.fr/accueil/ La Région Provence Alpes Côtes d'Azur : http://opendata.regionpaca.fr/ Toulouse : https://data.toulouse-metropole.fr/page/home/ Bordeaux : http://opendata.bordeaux.fr/

Types de rubriques :  budgets, marchés publics, urbanisme, élections, environnementales et touristiques,  ainsi que d'autres informations en rapport avec le territoire.

Les bases de données par secteur

Voici des ressources adaptées à la recherche de données dans des secteurs spécifiques. Force est de constater qu'il y a encore peu d'entreprises privées (ou même semi-privées) qui partagent gratuitement leur données.

Emploi et population Institut national de la statistique et des études économiques : http://www.insee.fr/ Portail de données de Pole Emploi :  https://www.emploi-store-dev.fr/portail-developpeur/donneesdoctechnique

Éducation Base de données statistique du système éducatif français : http://www.education.gouv.fr/ Pourquoi aller sur les sites des ministères ? Parce que sur la plateforme nationale comme data.gouv.fr,  toutes les données ne sont pas toujours répliquées. De plus, les mises-à-jour y sont plus fréquentes.

Météorologie Plateforme de Météo France : https://donneespubliques.meteofrance.fr/ Plateforme Berkeley Earth : http://berkeleyearth.org/data/

Aérospatial Portail de données de la NASA : https://data.nasa.gov/ Notons que le CNES (l'équivalent de la NASA), ne possède pas encore sa propre plateforme Open Data.

Transport et urbanisme Site de la SNCF : https://data.sncf.com/ Données statistiques sur les vélos en libre service : https://developer.jcdecaux.com/  Données de la RATP : http://www.ratp.fr/opendata/ L'Institut d'Aménagement et d'Urbanisme d'Ile de France (IAU) : http://www.iau-idf.fr/liau-et-vous/cartes-donnees/open-data/donnees.html Comprend des cartographies au format .jpg ou svg de très grande qualité

Les bases de données non-spécifiques

https://datahub.io/ http://www.europeandataportal.eu/

Vous trouvez que certains sites se ressemblent au niveau de l'interface ? Bien vu !  Beaucoup de sites utilisent la même plateforme de management de données : CKAN http://ckan.org/

Les organismes internationaux

aqaqa

Disponible depuis mars 2016, le site http://undatacatalog.org/ rassemble en un seul portail les données collectées parmi pas moins de 15 organismes rattachés aux Nations Unis, une adresse à mettre dans vos favoris !

Attention aux licences !

Certains jeux de données ont des conditions d'utilisation particulières en fonction du type de licence : LO (Licence Ouverte), ODbl (Open Database Licence) , Créative Commons Non Commercial, etc... Prenez le temps d'en consulter les grandes lignes avant d'exploiter les données mises à disposition.

Que faire si je ne trouve rien ?

Vous pouvez solliciter vous même les organismes détenteurs d'informations publiques susceptibles de vous intéresser par le biais de la Commission d'accès aux documents administratifs (le CADA) : http://www.cada.fr/

Et vous quelles sont vos sources favorites ? N'hésitez pas à nous faire part de vos avis.

Eva Laude

elqude
26
Décembre
2016
oomom Le laboratoire BlueDsX du groupe Blue Soft vous invite à son prochain meetup afin d'échanger autour de divers sujets liés aux data-sciences. Pour cette occasion, nous serons accompagnés de deux de nos partenaires : l'Institut du Commerce et du Développement et DataIKU, la start-up data française du moment. Au programme, des échanges autour :
  • de l'Open Data et du mouvement de libération des données
  • des Data-sciences appliquées à la recherche de manipulations et de fraudes,
  • de la multiplication des Datalabs
Pour traiter l'ensemble de ces sujets, quatre intervenants seront la pour vous. Sylvain Cordier, responsable conseil du pôle data de Blue Soft, introduira la séance en nous détaillant les concepts de data-science et de fraude. Henri Laude, chief data-scientist du laboratoire BlueDsX, enchaînera sur les data-sciences appliquées à la fraude en nous présentant un algorithme sur les signaux faibles dans les séries temporelles multivariées développé par le labo BlueDsX et implémenté en langage R. Olivier Mamavi, enseignant/chercheur à l’ICD et spécialiste en intelligence économique nous parlera des datalabs et plus précisément de la mise en place et des projets du datalab de l'ICD. Enfin Vincent de Stoecklin, data-scientist de chez DataIKU nous exposera leur plateforme logicielle collaborative de data-sciences permettant aux équipes d'explorer, de prototyper, de construire et de livrer leurs propres data-products plus efficacement. Quatre intervenants qui seront ravis d'échanger avec vous  autour d'un buffet apéritif sur place, à la fin des présentations. Au plaisir de vous y retrouver nombreux ! Pour vous inscrire, cliquez simplement ici. Capture efefefzz