10 Pandas PUC Flashcards

Question

product() Retorna o produto entre todos os elementos de um objeto Series s.product()

Answer 1

mutiplica todos os elementos de s por eles mesmos e dá um resultado final

Answer 2

soma todos os elementos de s por eles mesmos e dá um resultado final

Answer 3

absoluto de cada elemento

Answer 4

idadescsv3.count() ==> 100

Answer 5

``` idadescsv3.describe() ==> count 100.000000 mean 35.570000 std 10.766817 min 18.000000 25% 26.750000 50% 34.000000 75% 45.250000 max 55.000000 Name: Idade, dtype: float64 ```

Answer 6

``` idadescsv3.nlargest(3) ==> Nome Lucas 55 Valentina 54 Lucca 53 Name: Idade, dtype: int64 ```

Answer 7

``` idadescsv3.nsmallest(5) ==> Nome Alícia 18 Amanda 18 Bernardo 18 Heloísa 18 Maria Fernanda 18 Name: Idade, dtype: int64 ```

Answer 8

Percentil 25% etc...

Answer 9

idadescsv3.std() ==> 10.766816773510332

Answer 10

idadescsv3.unique() ==> array([24, 27, 18, 44, 46, 49, 47, 41, 19, 25, 31, 42, 23, 39, 21, 33, 45, 34, 43, 29, 36, 40, 32, 22, 48, 52, 51, 55, 53, 26, 54], dtype=int64) np.sort(idadescsv3.unique()) ==> array([18, 19, 21, 22, 23, 24, 25, 26, 27, 29, 31, 32, 33, 34, 36, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 51, 52, 53, 54, 55], dtype=int64)

Answer 11

idadescsv3.nunique() => 31

Answer 12

copia = serie_estados2.copy() copia ``` 0 9 1 5 2 0 3 9 4 5 5 0 6 5 7 4 8 9 9 5 10 5 11 4 12 4 13 3 14 6 dtype: int32 ``` O que modificar em copia modifica também em serie_estados2

Answer 13

SE MUDAR NA copia NÃO MODIFICA NA serie_estados2

Answer 14

``` ab = a.append(b) ab ==> 0 9.0 1 5.0 2 0.0 3 9.0 4 5.0 0 2.0 1 5.0 2 NaN 3 0.0 4 3.0 5 NaN 6 6.0 dtype: float64 ``` ``` ab = a.append(b, ignore_index=True) ab ==> 0 9.0 1 5.0 2 0.0 3 9.0 4 5.0 5 2.0 6 5.0 7 NaN 8 0.0 9 3.0 10 NaN 11 6.0 dtype: float64 ```

Answer 15

SE MUDAR NA copia NÃO MODIFICA NA serie_estados2

Answer 16

``` ab = a.append(b) ab ==> 0 9.0 1 5.0 2 0.0 3 9.0 4 5.0 0 2.0 1 5.0 2 NaN 3 0.0 4 3.0 5 NaN 6 6.0 dtype: float64 ``` ``` ab = a.append(b, ignore_index=True) ab ==> 0 9.0 1 5.0 2 0.0 3 9.0 4 5.0 5 2.0 6 5.0 7 NaN 8 0.0 9 3.0 10 NaN 11 6.0 dtype: float64 ```

Answer 17

``` c = ab.replace(0, 1) c ==> 0 9.0 1 5.0 2 1.0 3 9.0 4 5.0 5 2.0 6 5.0 7 NaN 8 1.0 9 3.0 10 NaN 11 6.0 dtype: float64 ```

Answer 18

``` d = pd.Series([4, 10, 11, 12], index=[9, 7, 10, 4]) d ==> 9 4 7 10 10 11 4 12 dtype: int64 ``` ``` c.update(d) c => 0 9.0 1 5.0 2 1.0 3 9.0 4 12.0 ### 5 2.0 6 5.0 7 10.0 ### 8 1.0 9 4.0 ### 10 11.0 ### 11 6.0 dtype: float64 ```

Answer 19

idadescsv3.head()

Answer 20

idadescsv3.tail()

Answer 21

idadescsv3. sample() # Por default retorna 1 linha de amostra idadescsv3. sample(5)

Answer 22

d = c.where(c > 3, 10) # Troca valores por 10 se a condição for falsa e = c.where(c <= 3, 0) # Troca valores por 0 se a condição for falsa print("c.values", c.values) print("d.values", d.values) print("e.values", e.values) ==> c.values [ 9. 5. 0. 9. 5. 2. 5. nan 0. 3. nan 6.] d.values [ 9. 5. 10. 9. 5. 10. 5. 10. 10. 10. 10. 6.] e.values [0. 0. 0. 0. 0. 2. 0. 0. 0. 3. 0. 0.]

Answer 23

d = c.mask(c > 3, 10) # Troca valores por 10 se a condição for verdadeira e = c.mask(c <= 3, 0) # Troca valores por 0 se a condição for verdadeira print("c.values", c.values) print("d.values", d.values) print("e.values", e.values) ==> c.values [ 9. 5. 0. 9. 5. 2. 5. nan 0. 3. nan 6.] d.values [10. 10. 0. 10. 10. 2. 10. nan 0. 3. nan 10.] e.values [ 9. 5. 0. 9. 5. 0. 5. nan 0. 0. nan 6.]

Answer 24

isna() Retorna quais valores estão ausentes s.isna() notna() Retorna quais valores estão presentes s.notna() dropna() Retorna uma nova Series com valores ausentes removidos s.dropna() fillna() Substitui valores ausentes por um valor ou usando um método de substituição s.fillna(0)

Answer 25

``` 0 False 1 False 2 True 3 False 4 False 5 True 6 False dtype: bool ```

Answer 26

``` 0 True 1 True 2 False 3 True 4 True 5 False 6 True dtype: bool ```

Answer 27

``` s.dropna(inplace=True) s ==> 0 2.0 1 5.0 3 0.0 4 3.0 6 6.0 dtype: float64 ``` (modifica a série original)

Answer 28

``` # Preenche com o elemento posterior ao NaN s2 = s.fillna(method='bfill') print(s.values) print(s2.values) ==> [ 2. 5. nan 0. 3. nan 6.] [2. 5. 0. 0. 3. 6. 6.] ``` ``` # Preenche com o elemento anterior ao NaN s3 = s.fillna(method='ffill') print(s.values) print(s3.values) ==> [ 2. 5. nan 0. 3. nan 6.] [2. 5. 5. 0. 3. 3. 6.] ```

Answer 29

``` ordenado_id = idadescsv3.sort_values() ordenado_id.head(10) ==> Nome Bernardo 18 Alícia 18 Amanda 18 Heloísa 18 Maria Fernanda 18 Benjamin 19 Rodrigo 19 Daniel 19 Cecília 21 Julia 21 Name: Idade, dtype: int64 ``` ``` ordenado_nome = ordenado_id.sort_index() ordenado_nome.head(10) ==> Nome Agatha 24 Alice 27 Alícia 18 Amanda 18 Ana Beatriz 44 Ana Clara 46 Ana Julia 49 Ana Luiza 47 Antônio 47 Arthur 41 Name: Idade, dtype: int64 ```

Answer 30

livros = pd.Series(["Introdução à programação com Python", "Curso Intensivo de Python", "Python para análise de dados"]) livros ==> 0 Introdução à programação com Python 1 Curso Intensivo de Python 2 Python para análise de dados dtype: object ``` livros.str.title() ==> 0 Introdução À Programação Com Python 1 Curso Intensivo De Python 2 Python Para Análise De Dados dtype: object ``` ``` # Não modifica a série original livros ==> 0 Introdução à programação com Python 1 Curso Intensivo de Python 2 Python para análise de dados dtype: object ```

Answer 31

``` A B C D E 1 37 12 72 9 75 2 5 79 64 16 1 3 76 71 6 25 50 4 20 18 84 11 28 5 29 14 50 68 87 6 87 94 96 86 13 7 9 7 63 61 22 8 57 1 0 60 81 9 8 88 13 47 72 10 30 71 3 70 21 ```

Answer 32

type(df) ==> pandas.core.frame.DataFrame Informações sobre o DataFrame df.info() ==> ``` Int64Index: 10 entries, 1 to 10 Data columns (total 5 columns): A 10 non-null int32 B 10 non-null int32 C 10 non-null int32 D 10 non-null int32 E 10 non-null int32 dtypes: int32(5) memory usage: 280.0 bytes ```

Answer 33

Medidas estatísticas do DataFrame CADA COLUNA NO DATAFRAME É TAMBÉM UM OBJETO DO TIPO SERIES df.describe() ==> A B C D E count 10.000000 10.000000 10.000000 10.000000 10.000000 mean 35.800000 45.500000 45.100000 45.300000 45.000000 std 28.785799 37.880661 36.354581 27.912761 31.742016 min 5.000000 1.000000 0.000000 9.000000 1.000000 25% 11.750000 12.500000 7.750000 18.250000 21.250000 50% 29.500000 44.500000 56.500000 53.500000 39.000000 75% 52.000000 77.000000 70.000000 66.250000 74.250000 max 87.000000 94.000000 96.000000 86.000000 87.000000

Answer 34

Medidas estatísticas do DataFrame CADA COLUNA NO DATAFRAME É TAMBÉM UM OBJETO DO TIPO SERIES df.describe() ==> A B C D E count 10.000000 10.000000 10.000000 10.000000 10.000000 mean 35.800000 45.500000 45.100000 45.300000 45.000000 std 28.785799 37.880661 36.354581 27.912761 31.742016 min 5.000000 1.000000 0.000000 9.000000 1.000000 25% 11.750000 12.500000 7.750000 18.250000 21.250000 50% 29.500000 44.500000 56.500000 53.500000 39.000000 75% 52.000000 77.000000 70.000000 66.250000 74.250000 max 87.000000 94.000000 96.000000 86.000000 87.000000

Answer 35

``` # # Selecionar uma coluna df["A"] == df.A ``` ``` # # Selecionando múltiplas colunas df[["C", "D", "E"]] ``` Verificar tipo de cada coluna: type(df["A"]) =>> pandas.core.series.Series

Answer 36

``` # Inclusão de colunas df["Total"] = df.A + df.B + df.C + df.D + df.E df ==> A B C D E Total 1 37 12 72 9 75 205 2 5 79 64 16 1 165 3 76 71 6 25 50 228 4 20 18 84 11 28 161 5 29 14 50 68 87 248 6 87 94 96 86 13 376 7 9 7 63 61 22 162 8 57 1 0 60 81 199 9 8 88 13 47 72 228 10 30 71 3 70 21 195 ```

Answer 37

``` # Concatenando o DataFrame tot_coluna com o DataFrame df df2 = df.append(tot_coluna) df2 ==> A B C D E Total 1 37 12 72 9 75 205 2 5 79 64 16 1 165 3 76 71 6 25 50 228 4 20 18 84 11 28 161 5 29 14 50 68 87 248 6 87 94 96 86 13 376 7 9 7 63 61 22 162 8 57 1 0 60 81 199 9 8 88 13 47 72 228 10 30 71 3 70 21 195 Total 358 455 451 453 450 2167 ``` ``` # Outra forma de inserir uma nova linha seria ignorar os rótulos (índices) das linhas df3 = df2.append(df.mean(), ignore_index = True) df3 ==> A B C D E Total 0 37.0 12.0 72.0 9.0 75.0 205.0 1 5.0 79.0 64.0 16.0 1.0 165.0 2 76.0 71.0 6.0 25.0 50.0 228.0 3 20.0 18.0 84.0 11.0 28.0 161.0 4 29.0 14.0 50.0 68.0 87.0 248.0 5 87.0 94.0 96.0 86.0 13.0 376.0 6 9.0 7.0 63.0 61.0 22.0 162.0 7 57.0 1.0 0.0 60.0 81.0 199.0 8 8.0 88.0 13.0 47.0 72.0 228.0 9 30.0 71.0 3.0 70.0 21.0 195.0 10 358.0 455.0 451.0 453.0 450.0 2167.0 11 35.8 45.5 45.1 45.3 45.0 216.7 ```

Answer 38

``` # Exclusão de colunas usando o drop df4 = df.drop("Total", axis=1) # axis = 1, excluir a coluna df4 ==> A B C D E 1 37 12 72 9 75 2 5 79 64 16 1 3 76 71 6 25 50 4 20 18 84 11 28 5 29 14 50 68 87 6 87 94 96 86 13 7 9 7 63 61 22 8 57 1 0 60 81 9 8 88 13 47 72 10 30 71 3 70 21 ``` Não altera na coluna original, pra deletar de verdade inplace = True: ``` # Para excluir a coluna "Total" de df, é necessário usar o parâmetro inplace df.drop("Total", axis = 1, inplace=True) # ou df = df.drop("Total", axis=1) df ```

Answer 39

``` A B C D E Total 1 37 12 72 9 75 205 2 5 79 64 16 1 165 3 76 71 6 25 50 228 4 20 18 84 11 28 161 5 29 14 50 68 87 248 6 87 94 96 86 13 376 7 9 7 63 61 22 162 8 57 1 0 60 81 199 9 8 88 13 47 72 228 Total 358 455 451 453 450 2167 ```

Answer 40

``` A B C D E Total 1 37 12 72 9 75 205 2 5 79 64 16 1 165 4 20 18 84 11 28 161 5 29 14 50 68 87 248 6 87 94 96 86 13 376 9 8 88 13 47 72 228 Total 358 455 451 453 450 2167 ```

Answer 41

``` # Seleção de linhas e colunas através dos rótulos df.loc[[1, 5, 6], ["D","E"]] ==> D E 1 9 75 5 68 87 6 86 13 ``` ``` # Pelos índices df.iloc[[0, 4, 5], [3,4]] # equivalente a df.loc[[1, 5, 6], ["D","E"]] ==> D E 1 9 75 5 68 87 6 86 13 ```

10 Pandas PUC Flashcards

(65 cards)