Funkcia DataFrame.mean() v Python pandas sa používa na výpočet priemerov v jednej alebo viacerých osiach DataFrame. Pandas mean() je nevyhnutný na analýzu numerických údajov. Okrem výpočtu priemerných hodnôt ponúka aj informácie o distribúcii údajov.

Aká je syntax pre DataFrame.mean()?

Funkcia pandas mean() prijíma až tri parametre a má nasledujúcu syntax:

DataFrame.mean(axis=None, skipna=True, numeric_only=None)
python

Aké parametre možno použiť s pandas Dataframe.mean?

Pomocou rôznych parametrov môžete prispôsobiť fungovanie pandas DataFrame.mean().

Parameter Popis Predvolená hodnota
axis Určuje, či sa výpočet vykonáva nad riadkami (axis=0) alebo stĺpcami (axis=1). 0
skipna Ak je nastavené na True, hodnoty NaN budú ignorované. True
numeric_only Ak je nastavené na True, do výpočtu budú zahrnuté iba numerické datové typy. False

Ako používať pandas mean()

Funkciu pandas DataFrame.mean() môžete použiť na stĺpce aj riadky.

Výpočet priemerných hodnôt pre stĺpce

Najskôr vytvoríme pandas DataFrame s niektorými numerickými údajmi:

import pandas as pd
data = {
    'A': [1, 2, 3, 4],
    'B': [4, 5, 6, 7],
    'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)
python

Výsledný DataFrame vyzerá takto:

A  B    C
0  1  4    7
1  2  5    8
2  3  6    9
3  4  7  10

Na výpočet priemeru každého stĺpca môžete použiť funkciu pandas mean(). Predvolene je parameter axis nastavený na hodnotu 0, čo zodpovedá stĺpcom.

column_means = df.mean()
print(column_means)
python

Vyššie uvedený kód vypočíta priemer pre každý stĺpec (A, B a C) tak, že nájde súčet prvkov v príslušnom stĺpci a potom ho vydelí počtom prvkov v stĺpci. Výsledkom je nasledujúca séria pandas:

A    2.5
B    5.5
C    8.5
dtype: float64

Výpočet priemerných hodnôt pre riadky

Ak chcete zistiť priemer pre riadky, jednoducho nastavte parameter axis na hodnotu 1:

row_means = df.mean(axis=1)
print(row_means)
python

Pandas mean() vypočíta priemery riadkov vydelením súčtu prvkov v riadku počtom prvkov, ktoré obsahuje. Vyvolanie vyššie uvedenej funkcie vygeneruje nasledujúci výstup:

0    4.0
1    5.0
2    6.0
3    7.0
dtype: float64

Spracovanie hodnôt NaN

V tomto príklade použijeme iný DataFrame, ktorý obsahuje hodnoty NaN:

import pandas as pd
import numpy as np
data = {
    'A': [1, 2, np.nan, 4],
    'B': [4, np.nan, 6, 7],
    'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)
python

Vyššie uvedený kód vytvorí nasledujúci DataFrame:

A    B    C
0  1.0  4.0  7.0
1  2.0  NaN  8.0
2  NaN  6.0  9.0
3  4.0  7.0  NaN

Pri výpočte priemerov pre stĺpce parameter skipna určuje, či sa majú hodnoty NaN zahrnúť alebo ignorovať. Predvolene je skipna nastavené na True, takže df.mean() automaticky ignoruje hodnoty NaN. Ak chcete zahrnúť hodnoty NaN, musíte pridať skipna=False ako parameter. Tým sa zabezpečí, že každý stĺpec s aspoň jednou hodnotou NaN vráti ako svoj priemer hodnotu NaN.

mean_with_nan = df.mean() 
print(mean_with_nan)
python

Volanie df.mean() vygeneruje nasledujúci výstup:

A    2.333333
B    5.666667
C    8.000000
dtype: float64
Prejsť na hlavné menu