Snowflake Flashcards

Question

Quelles view peuvent être secure ?

Answer 1

Toutes : Materialized & Standard

Answer 2

ça permet d'augmenter la data privacy

Answer 3

Avec une vue classique les optim interne de snowFlake accède à toutes les données de la table source et donc à des données cachés la secure vue N'UTILISE PLUS ces optim et donc le risque d'avoir accès à des données cachées"

Answer 4

Enlève de l'optim et réduit donc les perfs

Answer 5

Il y en a 3 Data Storage Layer Query Procesing Layer Cloud services Layer

Answer 6

C'est le layer qui stock toutes les donées et il les partages à tous les noeud comme sur du Shared Disk

Answer 7

Il représente les WH snow Chaque WH à accès au données partagé et il possède un cache

Answer 8

C'est le Query Processing Layer

Answer 9

Il correspond à toute la partie gestion de l'infra * Gestion de l'auth et du contrôle d'accès au ressource * Création des ressources cloud derrière (ex: blob s3) * Management des Transaction pour le respect du concept ACID * les métadata * Optim des query * Sécu + data encryption

Answer 10

Non c'est transparent pour nous

Answer 11

Uniquement l'offeset il ne stock pas de data de la table

Answer 12

On utilise un STREAM. On REGARDE L'OFFSET qu'il stock et on utilise le change data capture pour trouver toutes les actions DML effectué depuis l'offset Il est également possible si nous connaissons la dernière date d'utiliser l'attribut CHANGES dans notre requête pour voir ces infos

Answer 13

il s'incrémente à chaque transactions commit contenant 1 ou + DML

Answer 14

l ajoute 3 colonnes cachés * Metadata$Action: action effectué (uniquement insert et delete) * Metadata$Update: indique si cette ligne fait partie d'un update (U= 2 lignes I + D) *Metadata$Row_ID: id de la ligne affecté

Answer 15

Standard Append Only Insert Only

Answer 16

Table, View, Directory

Answer 17

L'appendOnly note juste les actions d'insert

Answer 18

L'append Only est applicable sur les table, view et directory le Insert Only l'est que sur les external table

Answer 19

Il devient obsolète

Answer 20

A chaque transaction commit avec au moins 1 DML la version de la table va augmenter

Answer 21

version n°1

Answer 22

version n°2

Answer 23

pour ce cas snow fait une exception et conserve les données 14j après ça le stream devient stale sinon c’est la durée de rétention

Answer 24

Il faut plusieurs stream car il va avancer à chaque DML

Answer 25

Oui on peut utiliser l'oprion CHANGES dans une query select pour récupérer les données

Answer 26

Permet de tracker les changements d'une table/view il faut activer CHANGE_TRACKING = TRUE pour une vue il faut le faire sur la table ET la vue On lui passe une option temps pour savoir quoi récup * AT/END: timestamp à partir de quand on veux/ fin du tracking (end optionnel) ou * BEFORE: tous les changes depuis un id de transactions

Answer 27

APPEND-ONLY: que les insert DEFAULT: toutes les DML on a donc le delta depuis l'option temporel

Answer 28

++: plusieurs requête donne le même résultat --: Il faut connaitre ou on s'est arrêté

Answer 29

snowflake va ranger les données en fonction de cette clé

Answer 30

un groupe de colonne ou de reférence de colonne (cad un truncate ou autre modification sur les valeurs de la colonne)

Answer 31

Il les range en fonction de données logique, date ou région géographique

Answer 32

Snow fait des micros partition en fct de chaque fichiers et ranges les données dans ces MP en fonction des données logique (date, région)

Answer 33

C'est une feature snow qui permet de changé la clé de clustering automatiquement

Answer 34

Snow regarde les dml effectué sur la table pour trouver la clé optimale Il fait ce traitement en fond

Answer 35

Il faut ALTER .. RESUME/SUSPEND Recluster sur l'objet

Answer 36

oui c'est couteux, ça va nous couter des crédit. On ne doit pas passer de WH, snow se charge d'allouer les ressources optimales On est facturé que pour ce qui a était utilisé pour le reclustering si c'est activé mais que la clé change pas on est pas facturé

Answer 37

Quand il a trouvé une clé optimale en fct des dml il se ne travaille plus Si dans le futur il en trouve une nouvelle il va se réactiver et ranger la table

Answer 38

il est recommandé de ne pas dépassé les 3/4 colonnes il vaut mieux tendre vers un

Answer 39

1. trouver le bon pattern a. grosse table >1TB b. trouver les colonnes les plus utilisés dans les WHere et Join 2. lancer un process classique pour monitorer 3. Appliquer la clé 4. att la fin du clustering 5. relancer le proces 2. 6. comparer

Answer 40

SELECT SYSTEME$CLUSTERING_INFORMATION('table','(colonne1,…, colonne2')) dès que average_depth arrête de changer le clustering est done

Answer 41

Non il est recommandé d'avoir des grosse tables >1TB même si on peut voir des amélioration sur des tables de plusieurs GB

Answer 42

Il indique le nombre de MP contenant les même valeurs plus il est petit mieux c'est

Answer 43

Elles sont toutes stocker dans des micro partitions

Answer 44

Il stock des stats sur chaque MP afin de savoir si il a besoin de la lire ou non

Answer 45

Elles sont stocké dans le cloud service layer ça permet à snow de connaître les MP à scan avant de passer dans le Query Processing Layer

Answer 46

Il garde différentes infos sur chaque colonne: *le range de valeurs dans cette MP (ex: 14-128) *nombre de valeurs distinct dans cette MP (ex: 3) ainsi que d'autre info du même style

Answer 47

Snowflake recommande des fichiers de 100-250Mb

Answer 48

Un VARIANT peut avoir une taille maximale de *16MB (non compressé)*.

Answer 49

Cela permet de récupérer toutes les données partitionnées en une seule commande et d'avoir plusieurs copy into en parallèle.

Answer 50

nowflake stocke des informations telles que: * nom de chaque fichier * sa taille * ETag * Nomber de row parsé dans le fichier * Timestamp du dernier load du fichier * Information sur n'importe quelle erreur rencontrer à l'ingestion

Answer 51

On peut utiliser l'option STRIP_NULL_VALUES dans la commande COPY INTO.

Answer 52

Il est possible que des espaces devant les valeurs encapsulées entre guillemets soient considérés comme faisant partie de la valeur. (` "valeur"`VS `valeur`) On peut utiliser l'option `TRIM_SPACE=true`dans le file format

Answer 53

Le nombre de fichiers exécutables en parallèle dépend de la taille du WH. Plus le WH est grand, plus il peut exécuter de fichiers en parallèle. On peut éxécuter un WH par cpu dans le WH

Answer 54

Par défaut, Snowflake ne les insère pas. Pour les ingérer à nouveau, on peut utiliser l'option LOAD_UNCERTAIN_FILES dans la commande COPY INTO. Pour ne plus utiliser les metadata on peut utiliser l'option FORCE qui va tout load à chaque fois

Answer 55

Snowflake les considère par défaut comme faisant partie de la valeur. Pour les ignorer, on peut utiliser l'option TRIM_SPACE=true dans le file format.

Answer 56

Cela permet de mieux organiser les données, facilite la récupération des données partitionnées, et permet d'exécuter plusieurs opérations de copie en parallèle.

Answer 57

Dans un VARIANT, les valeurs NULL apparaissent dans une chaîne de caractères. Pour éviter de les charger, on peut utiliser l'option STRIP_NULL_VALUES dans la commande COPY INTO.

Answer 58

Chaque taille de WH double le nombre de fichier ingérable | WH Size | File in // | | ---- | ---- | | XS | 8 | | S | 16 | | M | 32 | | L | 64 | | XL | 128 |

Answer 59

Sauf si on load des centaines ou des milliers de fichiers en même temps il vaut mieux rester sur *un WH de petite taille * (XS->L) car si on utilise un gros WH sans utiliser tous ces cpu on va payer plus cher sans amélioration

Answer 60

Elle sert à récupérer les fichier en fonction d'un pattern défini Elle fonctionne différemment entre les Snowpipe et les Bulk loading: Imaginons que nous avons un `COPY into FROM @s/path1/path2/` et que l'url du stage est `s3://mybucket/path1/` Sur un snowpipe le pattern va être appliqué uniquement sur `path2/` Sur le Bulk il ser appliqué sur toute la storage location du From soit `@s/path1/path2/`

Answer 61

Snowflake va stocker dans les metadata de la table le status du fichier.

Answer 62

Les metadata de la table qui stockent le status du fichier sont stocké *64j*

Answer 63

Il le sais si il coche l'un des deux cas suivant: * Fichier ingéré il y a moins de 64j (donc en décalé avec le dépôt dans le stage) * Fichier ingéré à la création de la table (donc quand le fichier était déjà dans le stage)

Answer 64

En 2 étapes: 1. **Upload** les fichiers sur un internal stage ou un table/user stage avec la commande PUT 2. **Load** le contenue des fichiers dans la table avec la commande copy into

Answer 65

il faut un WH

Answer 66

Il y en a 3 1. User 2. Table 3. Named

Answer 67

On y accède en faisant `@~` par exemple pour lister : `LS @~`

Answer 68

* Ne peut pas être Alter ou Drop * On ne peut pas set de file format. Il faudra l'ajouter dans le COPY INTO * Ne peut pas faire de grant sur l'objet

Answer 69

Quand un seul utilisateur doit avoir accès au données et quand ils doit load les données dans une/plusieurs tables

Answer 70

Quand plusieurs utilisateurs doivent acceder au données

Answer 71

Non chaque utilisateur à un user stage par défaut

Answer 72

Seulement l'utilisateur à qui appartient le stage

Answer 73

par défaut toutes les tables on un stage associé

Answer 74

On peut l'utiliser quand uniquement une seule table devra recevoir ces fichiers

Answer 75

On accède au table stage avec `@%mytable`

Answer 76

* Ne peut pas être Alter ou Drop * Ne peut pas transformé la data pendant le load (pas possible d'utiliser une query comme dans les copy into) * Ne peut pas faire de grant sur l'objet

Answer 77

Il faut être owner de la table

Answer 78

Quand les fichiers doivent être load dans plusieurs tables Ou qu’on doit faire une transfo

Answer 79

C'est le seul internal stage qui n'est pas crée par défaut. C'est un database object C'est le stage le plus flexible

Answer 80

Comme c'est un database object on peut grant/revoke son usage à n'importe quel rôle Si on a les bons droits on peut donc load n'importe quel fichier du stage dans n'importe quelle table

Answer 81

Quand plusieurs utilisateurs doivent accéder aux fichiers et qu'on veut pourvoir les loads dans plusieurs tables

Answer 82

Un User Stage

Answer 83

Named stage (plusieurs user + plusieurs table)

Answer 84

User stage/Named stage car le table stage load les fichiers sans transfo en dur

Answer 85

Table stage (plusieurs user + Une table + pas de transfo)