Čo je metóda describe() v pandas DataFrame?
Funkcia Python pandas DataFrame.describe() sa používa na generovanie štatistického súhrnu numerických stĺpcov v DataFrame. Tento súhrn obsahuje kľúčové štatistické metriky, ako je priemerná hodnota, štandardná odchýlka, minimum, maximum a rôzne percentily.
Aká je syntax funkcie describe() v pandas?
Základná syntax describe() pre DataFrames je jednoduchá. Vyzerá takto:
DataFrame.describe(percentiles=None, include=None, exclude=None)pythonDôležité parametre pre pandy DataFrame.describe()
Pomocou nasledujúcich parametrov môžete nastaviť výstup describe():
| Parameter | Popis | Predvolená hodnota |
|---|---|---|
percentiles
|
Uvádza percentily, ktoré by mali byť zahrnuté do súhrnu. | [.25, .5, .75]
|
include
|
Určuje, ktoré typy údajov majú byť zahrnuté do popisu; možné hodnoty sú numpy.number, numpy.object, all alebo None.
|
None
|
exclude
|
Určuje, ktoré typy údajov majú byť vylúčené z popisu; funguje podobne ako parameter include.
|
None
|
Príklady použitia pandas describe()
Ak potrebujete rýchly prehľad kľúčových štatistických ukazovateľov súboru údajov, funkcia pandas DataFrame.describe() je nesmierne užitočná.
Príklad 1: Štatistické zhrnutie číselných údajov
V nasledujúcom príklade sa pozrieme na DataFrame df, ktorý obsahuje rôzne typy údajov o predaji.
import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
'Product': ['A', 'B', 'C', 'D', 'E'],
'Quantity': [10, 20, 15, 5, 30],
'Price': [100, 150, 200, 80, 120],
'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)pythonTeraz môžete použiť pandas describe() na získanie štatistického súhrnu číselných údajov v stĺpcoch:
summary = df.describe()
print(summary)pythonVýstup funkcie pandas DataFrame.describe() je nasledovný:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
25% 10.000000 100.000000 1000.000000
50% 15.000000 120.000000 3000.000000
75% 20.000000 150.000000 3000.000000
max 30.000000 200.000000 3600.000000Kľúčové ukazovatele zobrazené vo výstupe sú:
count: Počet položiek, ktoré nie sú NaN (nie je číslo)mean: Priemer hodnôt (prístupný aj prostredníctvom DataFrame.mean())std: Štandardná odchýlka hodnôtmin,25%,50%,75%,max: Minimálne, 25. percentil, medián (50. percentil), 75. percentil a maximálne hodnoty
Príklad 2: Prispôsobenie percentilov
Percentily vo výstupe pandas DataFrame.describe() môžete prispôsobiť pomocou parametra percentiles:
# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)pythonToto volanie funkcie poskytuje nasledujúci výstup:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
10% 7.000000 88.000000 640.000000
50% 15.000000 120.000000 3000.000000
90% 26.000000 180.000000 3360.000000
max 30.000000 200.000000 3600.000000Vo výstupe sú zahrnuté hodnoty 10%, 50 % a 90 % namiesto štandardných percentilov uvedených v predchádzajúcom príklade.