Python Pandas Flashcards
df.loc[’ ‘]
Leidzia is lenteles pasirinkti tam tikra eilute stulpeli .Galima pakonkretinti
df.loc[’ ‘].loc[][]
df.xs()
Kaip ir df.loc tik lengviau istraukti duomenis is lenteles vidaus
Galima pakonkretinti df.xs(1,level=’Num’)
df.dropna()
Istrins visus null reiksmes ,bet galima pakonkretinti
df.dropna(thresh=2) dabar istrins tik tuos kurie turi 2 arba daugiau null
df.fillna
Uzpildis nulines reiksmes
Galima pakonkretinti
df.fillna(value=’Fill Value’)
arba net uzpildyti pasirinkta nuline reiksme vidurkiu
df[‘A’].fillna(value=df[‘A’].mean())
KintPav=df.groupby(‘stulpav’)
Leidzia grupuoti duomenis
sudeti pvz Kompanijos sales
Galima naudoti
byComp.mean()
byComp.sum()
byComp.std()
Pakonkretinti
byComp.sum().loc[‘FB’]
Arba aplamai kad parodytu apibendrinta lentele (vidurkis,kvartiles…)
df.groupby(‘Company’).describe()
pd.concat([df1,df2,df3])
Sulipdo dataframe
Galima pakonkretinti
pd.concat([df1,df2,df3],axis=1)
pd.merge(left,right,how=’inner’,on=’key’)
Sujungia datagrame per kazkuria reiksme kuria nurodome per on=’ ‘
Galima sujungti per kelias reiksmes
pd.merge(left,right,on=[‘key1’,’key2’])
dfpavadinimas.join(kitoDfPav)
Sujungia df per atitinkamas eiluciu reiksmes
df[‘col2’].unique()
Isveda visas reiksmes nekartojant ju
Taip pat norint suzinoti kiek ju yra galima naudoti
df[‘col2’].nunique()
df[df[‘col1’]>2]
df[(df[‘col1’]>2)&(df[‘col2’]==444)]
Isfiltruoja pagal salyga
def times2(x):
return x*2
Funkcijos pavyzdys
df[‘col1’].apply(times2)
df[‘col2’].apply(lambda x:x*2)
Naudojant .apply galima panaudoti sukurta,lambda arba esama funkcija dataframe
df.columns
Isveda dataframe stulpeliu pavadinimus
df.sort_values(‘col2’)
Leidzia ruziuoti pagal pasirinkta stulpeli
df.isnull()
Parodo ar dataframe yra nuliniu reiksmiu
df.pivot_table(values=”D”,index=[‘A’,’B’],columns=[‘C’])
Sukuriamas pivot table pagal D reiksmes ,indeksuojam pagal a ir b stulpelius ,pasirinke stulpeli C
pwd
Parodo kur kompiuteryje failas
pd.read_csv(‘example’)
Nuskaito duomenis is csv failo
pd.read_excel(‘Excel_Sample.xlsx’,sheet_name=’Sheet1’)
Nuskaito duomenis is excelio failo
df.to_csv(‘My_output’,index=False)
Sukuria csv faila ir ten importuoja duomenis
df.to_excel(‘Excel_sample2.xlsx’,sheet_name=”NewSheet”)
Sukuria excelio faila ir ten importuoja duomenis
df = pd.read_html(‘https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/’)
df[0]
Nuskaito duomenis is html svetaines
from sqlalchemy import create_engine
engine= create_engine(‘sqlite:///:memory:’)
data.to_sql(‘my_table’,engine)
sqldf=pd.read_sql(‘my_table’,con=engine)
sqldf
Sukuriame minimalistine sql engine ,sukuriame faila kur importuosim duomenis ,naudojant ta engine nuskaitome duomenis
df1[‘A’].hist(bins=30)
Sukuria histograma
df2.plot.area(alpha=0.4)
Sukuria area diagrama
df2.plot.bar(stacked=True)
Sukuria stulpeline diagrama
df1.plot.scatter(x=’A’,y=’B’,c=’C’,cmap=’coolwarm’)
Sukuria scatter diagrama
df2.plot.box()
Sukuria box diagrama
df.plot.hexbin(x=’a’,y=’b’,gridsize=25)
Sukuria hex diagrama
df2[‘a’].plot.kde()
df2.plot.density()
Diagrama pavaizduoti density
df3[[‘a’,’b’]].plot.box()
Sukuriamos dvi boxplot diagramos