Ako vypočítať priemery pomocou pandas mean()
Funkcia DataFrame.mean() v Python pandas sa používa na výpočet priemerov v jednej alebo viacerých osiach DataFrame. Pandas mean() je nevyhnutný na analýzu numerických údajov. Okrem výpočtu priemerných hodnôt ponúka aj informácie o distribúcii údajov.
Aká je syntax pre DataFrame.mean()?
Funkcia pandas mean() prijíma až tri parametre a má nasledujúcu syntax:
DataFrame.mean(axis=None, skipna=True, numeric_only=None)pythonAké parametre možno použiť s pandas Dataframe.mean?
Pomocou rôznych parametrov môžete prispôsobiť fungovanie pandas DataFrame.mean().
| Parameter | Popis | Predvolená hodnota |
|---|---|---|
axis
|
Určuje, či sa výpočet vykonáva nad riadkami (axis=0) alebo stĺpcami (axis=1).
|
0
|
skipna
|
Ak je nastavené na True, hodnoty NaN budú ignorované.
|
True
|
numeric_only
|
Ak je nastavené na True, do výpočtu budú zahrnuté iba numerické datové typy.
|
False
|
Ako používať pandas mean()
Funkciu pandas DataFrame.mean() môžete použiť na stĺpce aj riadky.
Výpočet priemerných hodnôt pre stĺpce
Najskôr vytvoríme pandas DataFrame s niektorými numerickými údajmi:
import pandas as pd
data = {
'A': [1, 2, 3, 4],
'B': [4, 5, 6, 7],
'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)pythonVýsledný DataFrame vyzerá takto:
A B C
0 1 4 7
1 2 5 8
2 3 6 9
3 4 7 10Na výpočet priemeru každého stĺpca môžete použiť funkciu pandas mean(). Predvolene je parameter axis nastavený na hodnotu 0, čo zodpovedá stĺpcom.
column_means = df.mean()
print(column_means)pythonVyššie uvedený kód vypočíta priemer pre každý stĺpec (A, B a C) tak, že nájde súčet prvkov v príslušnom stĺpci a potom ho vydelí počtom prvkov v stĺpci. Výsledkom je nasledujúca séria pandas:
A 2.5
B 5.5
C 8.5
dtype: float64Výpočet priemerných hodnôt pre riadky
Ak chcete zistiť priemer pre riadky, jednoducho nastavte parameter axis na hodnotu 1:
row_means = df.mean(axis=1)
print(row_means)pythonPandas mean() vypočíta priemery riadkov vydelením súčtu prvkov v riadku počtom prvkov, ktoré obsahuje. Vyvolanie vyššie uvedenej funkcie vygeneruje nasledujúci výstup:
0 4.0
1 5.0
2 6.0
3 7.0
dtype: float64Spracovanie hodnôt NaN
V tomto príklade použijeme iný DataFrame, ktorý obsahuje hodnoty NaN:
import pandas as pd
import numpy as np
data = {
'A': [1, 2, np.nan, 4],
'B': [4, np.nan, 6, 7],
'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)pythonVyššie uvedený kód vytvorí nasledujúci DataFrame:
A B C
0 1.0 4.0 7.0
1 2.0 NaN 8.0
2 NaN 6.0 9.0
3 4.0 7.0 NaNPri výpočte priemerov pre stĺpce parameter skipna určuje, či sa majú hodnoty NaN zahrnúť alebo ignorovať. Predvolene je skipna nastavené na True, takže df.mean() automaticky ignoruje hodnoty NaN. Ak chcete zahrnúť hodnoty NaN, musíte pridať skipna=False ako parameter. Tým sa zabezpečí, že každý stĺpec s aspoň jednou hodnotou NaN vráti ako svoj priemer hodnotu NaN.
mean_with_nan = df.mean()
print(mean_with_nan)pythonVolanie df.mean() vygeneruje nasledujúci výstup:
A 2.333333
B 5.666667
C 8.000000
dtype: float64