Ako filtrovať odlišné hodnoty pomocou pandas DataFrame[].unique()
V Python pandas môžete použiť funkciu unique() na identifikáciu jedinečných hodnôt v stĺpci DataFrame. Vďaka tomu získate rýchly prehľad o rôznych hodnotách vo vašom súbore údajov.
Aká je syntax pandas DataFrame[].unique()?
Základná syntax pre používanie pandas unique() je jednoduchá. Je to preto, že funkcia neberie žiadne parametre:
DataFrame['column_name'].unique()pythonMajte na pamäti, že unique() sa môže použiť len na jeden stĺpec. Pred volaním funkcie je potrebné určiť, ktorý stĺpec chcete vyhodnotiť. Funkcia unique() vráti numpy pole obsahujúce všetky rôzne hodnoty v poradí, v akom sa objavujú, pričom duplicitné hodnoty v stĺpci sú odstránené. Hodnoty však netriedi.
Ak už nejaký čas pracujete s Pythonom, možno poznáte ekvivalent numpy k pandas unique(). Z dôvodu efektívnosti je vo všeobecnosti vhodnejšia verzia pandas.
Ako používať pandas DataFrame[].unique()
Ak chcete použiť unique() v pandas DataFrame, musíte najskôr určiť stĺpec, ktorý chcete skontrolovať. V nasledujúcom príklade použijeme DataFrame, ktorý obsahuje informácie o veku a meste bydliska skupiny jednotlivcov.
import pandas as pd
# Create a sample DataFrame
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Edward'],
'Age': [24, 27, 22, 32, 29],
'City': ['Newcastle', 'London', 'Newcastle', 'Cardiff', 'London']
}
df = pd.DataFrame(data)
print(df)pythonVýsledný DataFrame vyzerá takto:
Name Age City
0 Alice 24 Newcastle
1 Bob 27 London
2 Charlie 22 Newcastle
3 David 32 Cardiff
4 Edward 29 LondonPredpokladajme, že chceme vytvoriť zoznam všetkých miest, v ktorých žijú ľudia v DataFrame. Funkciu pandas unique() môžeme použiť na stĺpec, ktorý obsahuje mestá.
# Find different cities
unique_cities = df['City'].unique()
print(unique_cities)pythonVýstupom je pole numpy, ktoré obsahuje jedno záznam pre každé mesto, čo ukazuje, že jednotlivci v DataFrame pochádzajú z celkovo troch miest: Newcastle, Londýn a Cardiff.
['Newcastle' 'London' 'Cardiff']