Correctement que le moyen le plus aise de coder une table de frequences pour 1 objet Series dans la bibliotheque Python pandas consiste a appliquer la value_counts() technique, le resultat de votre operation parait plutot basique. Nous pouvons le onenightfriend rendre plus informatif en ajustant les parametres booleens d’la methode normalize , sort , ascending , et dropna , ou en regroupant nos valeurs (si elles sont numeriques) dans des bacs. Cependant, les options ici seront assez limitees, donc pour ameliorer visuellement la table de frequences resultante, nous pouvons envisager plusieurs astuces simples mais indispensables, telles que le chainage de methodes, la personnalisation du post, l’ajout du % symbole a chaque valeur de frequence et l’utilisation d’la puissance de jolie- impression.
Dans ce post, nous allons experimenter un ensemble de donnees Kaggle contenant des renseignements sur l’age, le sexe, l’emplacement, l’education, etc., Afin de 60 000 utilisateurs de l’ application de rencontres OkCupid ??. Pour les besoins, cependant, nous n’utiliserons que les donnees sur les statuts des utilisateurs.
Pour commencer, creons un tableau de frequence d’origine pour des statuts des utilisateurs :
( Note : ci-apres, nous allons laisser la totalite des autres parametres d’une value_counts() technique via defaut, ce qui signifie que nous ne considererons que les tableaux de frequences tries via ordre decroissant et en excluant les valeurs manquantes. Pour nos besoins, utiliser ou non ces parametres ne peu importe.)
Sans connaitre le contexte, a partir du tableau ci-dessus, il peut ne point etre pertinent que les nombres constituent des pourcentages et non des frequences absolues. Ajoutons un titre au tableau en utilisant le formatage f-string :
Dans l’exemple ci-dessus, nous avons ajoute le % symbole au titre du tableau. Et si nous voulions plutot l’ajouter a chaque valeur de frequence ? Une option de contournement consiste a coder une liste de valeurs de frequence avec le % symbole ajoute a chacune d’entre elles, et a creer une serie a partir de cette liste. Pour faire la liste, nous pouvons utiliser la boucle for suivante :
Enfin, nous pouvons joliment imprimer le tableau des frequences. Pour ce qui, nous allons utiliser la to_markdown() methode pandas qui necessite l’installation (pas forcement l’import) du module tabulate ( pip install tabulate ).
Important : Afin de afficher correctement les resultats, la to_markdown() methode devra etre utilisee seulement a l’interieur d’une print() achat.
Montrons a nouveau la table de frequence d’etat de l’utilisateur appelee s_with_pct_symb , cette fois tel une vraie table, avec la syntaxe de base de to_markdown() . Comme precedemment, nous allons ajouter 1 titre en gras et appliquer le formatage f-string. Par probleme de coherence, nous affecterons ci-apres Notre table de frequence a afficher a une variable appelee S » :
Jouons avec les parametres tablefmt et stralign . Le premier d’entre eux definit le format du tableau et pourra avoir l’une des valeurs suivantes : plain , simple , github , grid , fancy_grid , pipe , orgtbl , jira , presto , pretty , psql , rst , etc. Par exemple, le format de tableau que nous avons surpris plus haut s’appelle pipe , celui avec defaut concernant les to_markdown() pandas methode. Curieux que pour le package tabulate lui-meme, le format de tableau via defaut reste simple . Quant au deuxieme parametre, stralign , il sert a remplacer l’alignement des donnees de chaine via defaut (qui est left ). Les alternatives possibles ici sont right et center .
Attention : le floatfmt parametre ne fonctionne gui?re en combinaison avec le format du tableau pretty .
Correctement que chacune de la procedure nullement a gui?re ci-dessus ait necessite beaucoup de iterations et descriptions, nous trouverons ci-dessous les solutions de code finales Afin de 4 versions differentes de notre tableau des frequences Afin de profiles[‘status’] , le tout en % :
Dans ce post, nous avons discute de divers approches simples mais puissantes Afin de ameliorer la disposition du tableau des frequences et la lisibilite globale. Ils ont tous ma value_counts() methode des pandas comme accessoire central, mais tous vont au-dela et aboutissent a des representations plus percutantes. De surcroi®t, chacune des solutions proposees, dans sa forme definitive, necessite au maximum 3 lignes de code.
J’espere que vous avez apprecie la lecture du article et que vous l’avez trouve utile. Merci d’avoir lu a tout le monde, et bonne chance a ceux qui utilisent l’application de rencontres OkCupid ????
Vous pouvez trouver passionnant aussi ces articles :