Ako načítať súbory do Pythonu pomocou pandas read_csv()
Python pandas read_csv() je jednou z najčastejšie používaných metód na čítanie súborov CSV do pandas a ich ukladanie ako DataFrames. Súbory CSV (hodnoty oddelené čiarkami) sú široko používaným formátom na ukladanie tabulkových údajov a podporuje ich mnoho aplikácií.
Aká je syntax pre Python pandas read_csv()?
pandas.read_csv() vytvorí pandas DataFrame zo súboru CSV. Základná syntax funkcie vyzerá takto:
import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)pythonAké sú najdôležitejšie parametre pre pandas.read_csv()?
pandas.read_csv() môže prijať širokú škálu parametrov. Aby sme to zjednodušili, zameriame sa na najdôležitejšie argumenty. Tu je prehľad kľúčových parametrov, ktoré môžete použiť na určenie správania funkcie:
| Parameter | Význam | Predvolená hodnota |
|---|---|---|
filepath_or_buffer
|
Ide o reťazec v jazyku Python, ktorý predstavuje cestu k súboru CSV alebo dátovému vyrovnávaciemu pamäťovému priestoru, napríklad URL. | |
sep
|
Určuje oddeľovač medzi hodnotami. | ,
|
header
|
Určuje, ktorý riadok sa má použiť ako hlavička. | infer (prvý riadok)
|
names
|
Ak je nastavená header=None, môžete použiť names na poskytnutie zoznamu názvov stĺpcov v jazyku Python.
|
|
index_col
|
Určuje, ktorý stĺpec sa má použiť ako index. | None
|
usecols
|
Tento parameter vám umožňuje vybrať stĺpce, ktoré chcete načítať do DataFrame. | None
|
dtype
|
Určuje typ údajov stĺpcov. | None
|
Kompletný zoznam parametrov tejto funkcie nájdete v dokumentácii pandas.
Ako krok za krokom pristupovať k súborom CSV
Pomocou pandas.read_csv() môžete ľahko prenášať dáta zo súborov CSV do Pythonu len v niekoľkých krokoch.
V nasledujúcich príkladoch budeme pracovať s CSV súborom, ktorý má túto štruktúru:
1,John Avery,35,Nottingham,50000
2,Adelaide Smith,29,London,62000
3,Michael Rivera,41,Cardiff,40000
4,Grace Kim,33,Hull,35000
5,Tyler Johnson,28,Kent,52000Krok 1: Importujte pandas
Najskôr importujte knižnicu pandas do svojho skriptu Python.
import pandas as pdpythonKrok 2: Načítajte súbor CSV
Teraz môžete načítať svoj CSV súbor do Python pandas pomocou funkcie read_csv(). Jednoducho zadajte cestu k súboru do funkcie. V nasledujúcom kóde použijeme súbor s názvom data.csv, ktorý je uložený v rovnakom adresári ako skript:
df = pd.read_csv('data.csv')pythonVyššie uvedený kód uloží súbor do objektu DataFrame (df), s ktorým budeme môcť ďalej pracovať. Pandas automaticky interpretuje prvý riadok ako záhlavia stĺpcov, pokiaľ neurčíte inak.
Krok 3: Zobrazenie súboru CSV
Je dobré pozrieť sa na prvých niekoľko riadkov DataFrame, aby ste sa uistili, že súbor bol načítaný správne. Na to môžete použiť funkciu DataFrame.head(). Štandardne zobrazuje prvých päť riadkov DataFrame, čím vám poskytuje rýchly prehľad o štruktúre údajov:
print(df.head())pythonVýstup vyzerá takto:
0 1 John Avery 35 Nottingham 50000
1 2 Adelaide Smith 29 London 62000
2 3 Michael Rivera 41 Cardiff 40000
3 4 Grace Kim 33 Hull 35000
4 5 Tyler Johnson 28 Kent 52000Krok 4: Zmeňte názvy stĺpcov (voliteľné)
Ak váš súbor CSV nemá riadok s hlavičkou, môžete názvy stĺpcov definovať ručne:
df = pd.read_csv('data.csv', header=None, names=['ID', 'Name', 'Age', 'City', 'Salary'])pythonV tomto príklade sme stĺpce nazvali ID, Meno, Vek, Mesto a Plat. Výsledok vyzerá takto:
ID Name Age City Salary
0 1 John Avery 35 Nottingham 50000
1 2 Adelaide Smith 29 London 62000
2 3 Michael Rivera 41 Cardiff 40000
3 4 Grace Kim 33 Hull 35000
4 5 Tyler Johnson 28 Kent 52000