DatenanalyseMitPython_01 - Wes McKinney Flashcards

Question

Erstelle ein Series obj 0 4 1 7 2 -5 3 3 dtype: int64

Answer 1

obj = pd.Series([4, 7, -5, 3])

Answer 2

obj.sort\_values()

Answer 3

samples = np.random.normal(**_size=(4, 4)_**)

Answer 4

data.shape

Answer 5

data.loc["Ohio"]

Answer 6

df.iloc[where\_i, where\_j]

Answer 7

np.zeros((3,6))

Answer 8

_data[:2]_ oder _data.iloc[:2,:]_

Answer 9

Falls Sie eine Sequenz aus Spalten angeben, werden die Spalten des DataFrame in dieser Reihenfolge angeordnet: pd.DataFrame(data, columns=['year', 'state', 'pop'])

Answer 10

frame2["debt"] = np.arange(6.)

Answer 11

data.drop('two', axis=1)

Answer 12

data.iloc[2,1]

Answer 13

data.iloc[[1,2],[3,0,1]]

Answer 14

returns['MSFT'].corr(returns['IBM']) 0.4866233742385608 returns['MSFT'].corr(returns['MSFT']) 1.0

Answer 15

data._iloc_[:,:3][data.three \> 5]

Answer 16

list(range(0, 20, 2))

Answer 17

Mit **df.sum()** bekommt man die **Spaltensummen**. Mit **df.sum(axis=1)** bekommt man die **Zeilensummen**.

Answer 18

obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])

Answer 19

df1 = pd.DataFrame({'A': [1, 2]})

Answer 20

Eine Series ist ein **eindimensionales Array-artiges Objekt,** das eine **Sequenz aus Werten** (vom Typ her vergleichbar mit NumPy-Typen) und ein damit verbundenes Array aus Markierungen oder Labels, den sogenannten Index, enthält. Die ein- fachste Series wird aus einem Array aus Daten gebildet:

Answer 21

obj.values

Answer 22

tup = 4,5,6 tup

Answer 23

Ein erster wichtiger Unterschied zu Pythons eingebauten Listen besteht darin, dass Teilbereiche (Slices) von Arrays sogenannte Views auf das ursprüngliche Array sind. Das bedeutet, dass die Daten nicht kopiert werden und sich alle Modifikatio- nen an dem View im Quell-Array niederschlagen.

Answer 24

Eine universelle Funktion oder ufunc ist eine Funktion, die auf den Daten in ndarrays elementweise Operationen durchführt. Stellen Sie sie sich als einen schnellen vektorisierten Wrapper für einfache Funktionen vor, der einen oder mehrere skalare Werte nimmt und ein oder mehrere skalare Ergebnisse produziert. Viele ufuncs sind einfache elementweise Transformationen, wie sqrt oder exp: **arr = np.arange(10)** **np.sqrt(arr)**

Answer 25

frame.sort\_values(by=["a","b"])

Answer 26

data[data["three"] \> 5]

Answer 27

data.iloc[2]

Answer 28

df1 = pd.DataFrame(np.arange(12.)._reshape_((3, 4)), columns=list('abcd'))

Answer 29

Eines der zentralen Merkmale von NumPy ist sein **_N-dimensionales Array-Objekt_** oder ndarray, ein schneller, flexibler Container für große Datenmengen in Python. Arrays erlauben Ihnen, mathematische Operationen auf ganzen Datenblöcken durchzuführen, wobei die Syntax den äquivalenten Operationen zwischen skalaren Elementen ähnlich ist.

Answer 30

obj.drop(["d", "c"])

Answer 31

del frame2["eastern"]

Answer 32

Bei geordneten Daten wie Zeitreihen ist es vielleicht wünschenswert, eine Interpolation vorzunehmen oder Werte einzusetzen, wenn neu indiziert wird. Dies erlaubt uns die method-Option mit einer Methode wie ffill, die die Werte vorwärtsgerichtet auffüllt: ## Footnote **obj3.reindex(range(6), method="ffill")**

Answer 33

data.loc["Colorado",["two","three"]]

Answer 34

frame2["state"]

Answer 35

Bei Aufruf der DataFrame-Methode sum wird eine Series zurückgegeben, die Spaltensummen enthält: ## Footnote **df.sum()**

Answer 36

df.loc[val1, val2]

Answer 37

arange ist eine Version der eingebauten Python-Funktion range für Arrays: Wie die eingebaute range-Funktion, liefert aber ein ndarray statt einer Liste zurück. **np.arange(15)**

Answer 38

Im Gegensatz zu NumPy-Arrays können Sie die Labels im Index nutzen, wenn Sie einzelne Werte oder eine ganze Gruppe von Werten auswählen: obj2['a']

Answer 39

* Der größte Unterschied zwischen NumPy und pandas besteht darin, dass **pandas** für das Arbeiten mit **tabellarischen oder heterogenen Daten** gedacht ist, * ...während **NumPy** sich am besten für das Arbeiten mit **homogenen numerischen Array-Daten** eignet.

Answer 40

tup = tuple("string") tup[0] 's'

Answer 41

``` def f(): a = 5 b = 6 c = 7 return a, b, c ``` a,b,c = f()

Answer 42

df2.loc[1,"b"] = np.nan

Answer 43

arr1 = np.array(data1)

Answer 44

frame3. index._name_ = 'year'; frame3. columns._name_ = 'state'

Answer 45

reindex-Methode Bei DataFrames kann reindex entweder den (Zeilen-)Index, die Spalten oder beides ändern. Wird nur eine Sequenz übergeben, werden im Ergebnis die Zeilen neu indiziert:

Answer 46

df.loc[:, val]

Answer 47

list(range(5, 0, -1))

Answer 48

nested\_tup = (4,5,6),(7,8) nested\_tup

Answer 49

Dictionarys (dict) gelten als die wichtigste in Python eingebaute **Datenstruktur**. Ein gebräuchlicherer Name dafür ist **Hash-Tabelle** oder assoziatives Array. Dabei handelt es sich um eine Kollektion flexibler Größe aus **Schlüssel-Wert-Paaren**, wobei Schlüssel und Wert Python-Objekte sind. Eine Möglichkeit, sie herzustellen, besteht im Einsatz von geschweiften Klammern {} und Doppelpunkten zum Trennen der Schlüssel von den Werten: d1 = {'a' : 'some value', 'b' : [1, 2, 3, 4]}

Answer 50

np.zeros(10)

Answer 51

obj2.index

Answer 52

Ein DataFrame stellt eine **rechteckige Datentabelle** dar und enthält eine geordnete Sammlung aus Spalten, die jeweils aus einem **anderen Werttyp (numerisch, String, boolesch usw.)** bestehen können. Der DataFrame hat sowohl einen **Zeilen- als auch einen Spaltenindex** – stellen Sie sich das Ganze einfach als Dictionary aus Series mit demselben Index vor. Unter der Oberfläche werden die Daten nicht als Liste, Dictionary oder andere Sammlung eindimensionaler Arrays gespeichert, sondern als ein oder mehrere zweidimensionale Blöcke.

Answer 53

obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

Answer 54

df.iloc[:, where]

Answer 55

df.at[label\_i, label\_j]

Answer 56

Bei der Rangbildung werden Ränge von 1 bis zur Anzahl der gültigen Datenpunkte in einem Array zugewiesen. Die Methode rank für Series und DataFrame ist das passende Mittel dazu; standardmäßig bricht rank Gleichstände auf, indem jeder Gruppe ihr Mittelwert als Rang zugewiesen wird: Wenn also eins doppelt auftritt, bekommt jedes z.B. 6.5 obj.rank()

Answer 57

Die DataFrame-Methoden corr und cov wiederum liefern eine vollständige Korrelations- bzw. Kovarianzmatrix als DataFrame zurück: ## Footnote **returns.corr()**

Answer 58

**Listen sind einfacher zu erstellen.** Arrays need to be declared. Lists don't, since they are built into Python. In the examples above, you saw that lists are created by simply enclosing a sequence of elements into square brackets. Creating an array, on the other hand, requires a specific function from either the array module (i.e., array.array()) or NumPy package (i.e., numpy.array()). Because of this, lists are used more often than arrays. **Arrays eignen sich besser für viele Daten.** Arrays can store data very compactly and are more efficient for storing large amounts of data. **Arrays eignen sich besser für numerische Operationen.** Arrays are great for numerical operations; lists cannot directly handle math operations. For example, you can divide each element of an array by the same number with just one line of code. If you try the same with a list, you'll get an error.

Answer 59

* *iat* funktioniert **_nur mit skalaren Werten_** und ist daher **_schneller als universale Funktionen_** wie ***iloc*** und ***loc*** * *iat* gibt also nur einen **_einzigen Wert_** zurück. *iloc* und *loc* können auch **_mehrere Reihen_** zurückgeben.

DatenanalyseMitPython_01 - Wes McKinney Flashcards

Wes McKinney Auswertung von Daten mit Pandas, Numpy und iPython (90 cards)