Čo je metóda describe() v pandas DataFrame?

Obsah

Funkcia Python pandas DataFrame.describe() sa používa na generovanie štatistického súhrnu numerických stĺpcov v DataFrame. Tento súhrn obsahuje kľúčové štatistické metriky, ako je priemerná hodnota, štandardná odchýlka, minimum, maximum a rôzne percentily.

Aká je syntax funkcie `describe()` v pandas?

Základná syntax describe() pre DataFrames je jednoduchá. Vyzerá takto:

DataFrame.describe(percentiles=None, include=None, exclude=None)

python

Dôležité parametre pre pandy `DataFrame.describe()`

Pomocou nasledujúcich parametrov môžete nastaviť výstup describe():

Parameter	Popis	Predvolená hodnota
`percentiles`	Uvádza percentily, ktoré by mali byť zahrnuté do súhrnu.	`[.25, .5, .75]`
`include`	Určuje, ktoré typy údajov majú byť zahrnuté do popisu; možné hodnoty sú `numpy.number`, `numpy.object`, `all` alebo `None`.	`None`
`exclude`	Určuje, ktoré typy údajov majú byť vylúčené z popisu; funguje podobne ako parameter `include`.	`None`

Príklady použitia pandas `describe()`

Ak potrebujete rýchly prehľad kľúčových štatistických ukazovateľov súboru údajov, funkcia pandas DataFrame.describe() je nesmierne užitočná.

Príklad 1: Štatistické zhrnutie číselných údajov

V nasledujúcom príklade sa pozrieme na DataFrame df, ktorý obsahuje rôzne typy údajov o predaji.

import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)

python

Teraz môžete použiť pandas describe() na získanie štatistického súhrnu číselných údajov v stĺpcoch:

summary = df.describe()
print(summary)

python

Výstup funkcie pandas DataFrame.describe() je nasledovný:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

Kľúčové ukazovatele zobrazené vo výstupe sú:

count: Počet položiek, ktoré nie sú NaN (nie je číslo)
mean: Priemer hodnôt (prístupný aj prostredníctvom DataFrame.mean())
std: Štandardná odchýlka hodnôt
min, 25%, 50%, 75%, max: Minimálne, 25. percentil, medián (50. percentil), 75. percentil a maximálne hodnoty

Príklad 2: Prispôsobenie percentilov

Percentily vo výstupe pandas DataFrame.describe() môžete prispôsobiť pomocou parametra percentiles:

# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)

python

Toto volanie funkcie poskytuje nasledujúci výstup:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

Vo výstupe sú zahrnuté hodnoty 10%, 50 % a 90 % namiesto štandardných percentilov uvedených v predchádzajúcom príklade.

Súvisiace články

Ako načítať súbory do Pythonu pomocou pandas read_csv()

Python pandas read_csv() je výkonná funkcia na rýchly a efektívny prístup k obsahu súborov CSV v jazyku Python. Funkcia je flexibilná a ponúka množstvo parametrov, takže si môžete proces načítania prispôsobiť podľa svojich potrieb. Porozumenie funkcii pandas read_csv() je…

Čítať viac

Mr. Kosalshutterstock

Ako indexovať pandas DataFrames

Indexovanie Pandas DataFrame je výkonný nástroj na efektívne a účinné spracovanie údajov. Pomocou rôznych metód môžete cieliť na konkrétne údaje a podmnožiny vášho DataFrame. V tomto článku sa pozrieme na to, čo je index pandas DataFrame, ako pristupovať k údajom v stĺpcoch a…

Čítať viac

BEST-BACKGROUNDSShutterstock

Ako čistiť dáta v pandas pomocou dropna()

Funkcia DataFrame.dropna() v jazyku Pandas je výkonný nástroj na čistenie dátových súborov. Táto funkcia efektívne odstraňuje chýbajúce hodnoty a dá sa použiť s rôznymi parametrami, čo umožňuje programátorom špecifikovať rôzne požiadavky na čistenie dát. Informácie o syntaxe,…

Čítať viac

ESB Professionalshutterstock

Ako používať Pandas DataFrame na rýchlu manipuláciu s tabuľkami v jazyku Python

Modul Pandas je jedným z najvýkonnejších nástrojov na manipuláciu s dátami v jazyku Python. Jednou z hlavných dátových štruktúr v Pandas je DataFrame. DataFrames možno použiť na efektívnu manipuláciu s dvojrozmernými štruktúrovanými dátami. Vysvetľujeme štruktúru dátovej…

Čítať viac

BEST-BACKGROUNDSShutterstock

Ako prechádzať DataFrames pomocou pandas iterrows()

Pandas DataFrame.iterrows() je užitočná funkcia na prechádzanie riadkov v DataFrame, najmä ak potrebujete spracovávať dáta riadok po riadku. Je to obzvlášť užitočné pri výpočtoch alebo podmienených logických operáciách. V tomto článku sa budeme venovať syntaxe panda iterrows() a…

Čítať viac

Čo je vlastnosť iloc[] v Python pandas?

Pri práci s DataFrames v Python pandas nie sú všetky riadky alebo stĺpce DataFrame vždy relevantné pre analýzu dát. Vlastnosť pandas DataFrame iloc[] je užitočným nástrojom na výber riadkov alebo stĺpcov pomocou ich indexov. V tomto článku sa pozrieme na syntax iloc[] a rôzne…

Čítať viac

Čo je metóda describe() v pandas DataFrame?

Aká je syntax funkcie describe() v pandas?

Dôležité parametre pre pandy DataFrame.describe()

Príklady použitia pandas describe()

Príklad 1: Štatistické zhrnutie číselných údajov

Príklad 2: Prispôsobenie percentilov

Aká je syntax funkcie `describe()` v pandas?

Dôležité parametre pre pandy `DataFrame.describe()`

Príklady použitia pandas `describe()`