ERRORI Flashcards

1
Q

Quali sono gli errori rispetto ai dati?

A

-errore di selezione -> dipende da come sono stati selezionati i soggetti
-errore di osservazione -> dipende dalla raccolta dati
-errore di trattamento dati

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Come possiamo dividere l’errore di selezione?

A

-errore di copertura
-errore di campionamento
-errore di non risposta

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Cos’è l’errore di copertura?

A

mancata copertura della popolazione di studio -> non sempre si ha la lista della popolazione completa che garantirebbe che tutti i soggetti abbiano la stessa probabilità di essere campionati
perchè questo?
-problemi di aggiornamento dei dati-> non vengono presi in considerazione i nuovi soggetti
-errori di duplicazione -> quando la stessa persona compare in + liste (es. internet e elenco telefonico)
-errori di incompletezza -> quando non tutti i soggetti non sono inseriti nell’elenco (es. albo)

possibili soluzioni:
-ridefinire la lista della popolazione -> ovvero lo studio viene effettuato solo sugli iscritti e si inserisce nei limiti
-trascurare gli esclusi ritenendo che non siano molto diversi dagli inclusi
-integrare il campione -> ovvero includere nello studio i soggetti che non rientrano nella lista ma sappiamo che ne fanno parte -> utilizzeremo delle tecniche di campionamento non probabilistico

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Cos’è l’errore di campionamento?

A

è l’errore nel campionare la popolazione

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Cos’è l’errore di non risposta?

A

è un errore inevitabile, anche se il campione è perfetto una serie di soggetti potrebbero non rispondere -> il problema della difficoltà a raggiungere i soggetti potrebbe essere risolto con il campionamento a stadi -> quindi selezioniamo i soggetti in modo tale che siano localizzabili in posti/situazioni facilmente raggiungibili
alcuni soggetti decidono comunque di non rispondere e dovremmo chiederci il perché

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Come risolvo il problema dei missing data?

A

i missing data sono i dati che non si riescono a raccogliere. Il trattamento dei missing data non è affatto semplice, bisogna valutare se il problema è nei soggetti o nel questionario che gli si pone. Se si hanno dei missing data pari al 70% molto probabilmente il questionario non è fatto bene

Le strade possibili sono due: elimino il soggetto dove ci sono troppi missing oppure uso una strategia statistica che non è precisa ma probabilistica, recuperando le risposte non date dai soggetti tramite una procedura statistica ed in un certo modo inventate sulla base delle altre risposte ottenute dagli altri partecipanti. Questa seconda strada è percorribile se i missing sono pochi.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quando si usa il campionamento non probabilistico?

A

Il campionamento non probabilistico si effettua tutte quelle volte in cui tutti i soggetti presi in esame non hanno la stessa probabilità di essere estratti

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Come si può attuare il campionamento non probabilistico?

A
  • Campionamento per quote -> si divide la popolazione in sottogruppi sulla base di determinate variabili di cui successivamente sarà analizzata la distribuzione all’interno della popolazione (es. variabile d’interesse è il sesso, rilevo 60% maschi e 40% di femmine). A questo punto si vanno a definire le quote, ovvero le ripartizioni proporzionali del campione sulla base dei dati della popolazione (si stabiliscono quote strutturate che andranno rispettate anche nel campione, come ad es. 60% di maschi e 40% di femmine). Si scelgono quindi i soggetti per creare il campione che sia costituito in modo tale da riflettere le caratteristiche della popolazione non più in maniera casuale, ma per comodità fino a costruire il campione di cui si ha bisogno (si perde la casualità dell’estrazione).
    Si prendono in considerazione i soggetti più comodi, più disponibili, quelli che si hanno bisogno per uno specifico studio e non in modo casuale
    I limiti di questo tipo di campionamento sono dati dal fatto che i casi “più comodi” non potrebbero essere rappresentativi, anche se si riesce a fare lo studio.
  • Campionamento a scelta ragionata -> le unità campionarie (soggetti) vengono scelte sulla base delle loro caratteristiche, tipicamente sono studi su particolari tipologie di pazienti. Sono soggetti presumibilmente con le stesse caratteristiche anche se non se ne studia la totalità. Si utilizza quando ampiezza del campione è limitata (pazienti in ospedale).

-Campionamento bilanciato -> è una forma di campionamento ragionato dove le unità di analisi sono scelte in modo che presentino la stessa media della popolazione (che deve essere nota per le variabili in oggetto). Sono stati già fatti altri studi e si conosce quindi la media di una data variabile; in questo modo è possibile costruire un campione che rifletta la media della variabile stessa. Si utilizza questo metodo con campioni molto piccoli e su gruppi, piuttosto che abitanti di una stessa zona o clienti di un certo supermercato.
- Campionamento a valanga (snowball sampling) il campione viene reclutato a partire dai primi soggetti intervistati (i soggetti intervistati girano poi il questionario ai loro amici/familiari/colleghi che quindi avranno caratteristiche simili). Il vantaggio è che se tutto funziona, il numero dei soggetti reclutati cresce in maniera esponenziale, ecco il perché del nome. Si riescono, inoltre, ad individuare “popolazioni clandestine” (avrò molta difficoltà a trovare un campione dal nulla, ma se trovo anche solo 2/3 soggetti che appartengono alla popolazione riesco a far partire da loro la catena di contatti es. negazionisti che, se decidono di partecipare allo studio, contattano a loro volta persone negazioniste in modo che si possano ottenere dei dati utili che altrimenti sarebbero difficili da reperire). Lo svantaggio principale è che i soggetti sono estremamente selezionati, perché contatti di contatti oppure amici, quindi, vicini l’un l’altro e si perde l’eterogeneità.
102
- Campionamento telefonico → viene gestito dal computer che sceglie casualmente i numeri dell’elenco telefonico generandoli in maniera random. È un sistema che potrebbe funzionare bene in termini di campionamento, ma si ha un tasso di non risposta estremamente alto nonostante l’ampio campionamento. Il bias di selezione è enorme. Il campionamento telefonico non è basato sulla lista ma si generano dei numeri (e si devono ottenere massimo 10.000 risposte).
- Campionamento di convenienza → è il più utilizzato e non prevede alcun criterio se non quello che le persone scelte sono le più accessibili. Dovrebbe essere utilizzato solo per studi particolari con fini molto specifici (es: ricerche specifiche esplorative; collaudare strumenti ecc.). Ha un bias molto alto (es: studenti che studiando già l’argomento di ricerca hanno una serie di aspettative). Un problema è il pagamento dei soggetti, alcuni stati pagano i soggetti del campione per partecipare, i quali partecipano per uno scopo.
Molto usato negli studi pilota→pochi soggetti che uso per non spendere troppe energie, che hanno caratteristiche che vanno bene e a cui posso somministrare il questionario per testare se funziona.
- Campionamento consecutivo → reclutamento di tutti i componenti di una popolazione accessibile che soddisfano i criteri di eleggibilità per uno specifico intervallo di tempo o dimensione del campione (vengono campionati tutti i soggetti che si presentano in un dato contesto, a prescindere dalla volontarietà).
Es: anziché estrarre a caso dalla popolazione dei pazienti si reclutano tutti i pazienti che vengono a fare la visita in un determinato lasso di tempo o fino a raggiungimento di un numero preciso di soggetti (in quanto rappresentativo dei pazienti).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Come si può attuare il campionamento non probabilistico?

A
  • Campionamento per quote -> si divide la popolazione in sottogruppi sulla base di determinate variabili di cui successivamente sarà analizzata la distribuzione all’interno della popolazione (es. variabile d’interesse è il sesso, rilevo 60% maschi e 40% di femmine). A questo punto si vanno a definire le quote, ovvero le ripartizioni proporzionali del campione sulla base dei dati della popolazione (si stabiliscono quote strutturate che andranno rispettate anche nel campione, come ad es. 60% di maschi e 40% di femmine). Si scelgono quindi i soggetti per creare il campione che sia costituito in modo tale da riflettere le caratteristiche della popolazione non più in maniera casuale, ma per comodità fino a costruire il campione di cui si ha bisogno (si perde la casualità dell’estrazione).
    Si prendono in considerazione i soggetti più comodi, più disponibili, quelli che si hanno bisogno per uno specifico studio e non in modo casuale
    I limiti di questo tipo di campionamento sono dati dal fatto che i casi “più comodi” non potrebbero essere rappresentativi, anche se si riesce a fare lo studio.
  • Campionamento a scelta ragionata -> le unità campionarie (soggetti) vengono scelte sulla base delle loro caratteristiche, tipicamente sono studi su particolari tipologie di pazienti. Sono soggetti presumibilmente con le stesse caratteristiche anche se non se ne studia la totalità. Si utilizza quando ampiezza del campione è limitata (pazienti in ospedale).

-Campionamento bilanciato -> è una forma di campionamento ragionato dove le unità di analisi sono scelte in modo che presentino la stessa media della popolazione (che deve essere nota per le variabili in oggetto).

  • Campionamento a valanga -> il campione viene reclutato a partire dai primi soggetti intervistati (i soggetti intervistati girano poi il questionario ai loro amici/familiari/colleghi che quindi avranno caratteristiche simili). Il vantaggio è che se tutto funziona, il numero dei soggetti reclutati cresce in maniera esponenziale, ecco il perché del nome. Si riescono, inoltre, ad individuare “popolazioni clandestine”. Lo svantaggio principale è che i soggetti sono estremamente selezionati, perché contatti di contatti oppure amici, quindi, vicini l’un l’altro e si perde l’eterogeneità.
  • Campionamento telefonico -> viene gestito dal computer che sceglie casualmente i numeri dell’elenco telefonico generandoli in maniera random. È un sistema che potrebbe funzionare bene in termini di campionamento, ma si ha un tasso di non risposta estremamente alto nonostante l’ampio campionamento. Il bias di selezione è enorme
  • Campionamento di convenienza -> è il più utilizzato e non prevede alcun criterio se non quello che le persone scelte sono le più accessibili. Dovrebbe essere utilizzato solo per studi particolari con fini molto specifici (es: ricerche specifiche esplorative; collaudare strumenti ecc.). Ha un bias molto alto (es: studenti che studiando già l’argomento di ricerca hanno una serie di aspettative). Molto usato negli studi pilota -> pochi soggetti che uso per non spendere troppe energie, che hanno caratteristiche che vanno bene e a cui posso somministrare il questionario per testare se funziona.
  • Campionamento consecutivo -> reclutamento di tutti i componenti di una popolazione accessibile che soddisfano i criteri di eleggibilità per uno specifico intervallo di tempo o dimensione del campione (vengono campionati tutti i soggetti che si presentano in un dato contesto, a prescindere dalla volontarietà).
    Es: anziché estrarre a caso dalla popolazione dei pazienti si reclutano tutti i pazienti che vengono a fare la visita in un determinato lasso di tempo o fino a raggiungimento di un numero preciso di soggetti (in quanto rappresentativo dei pazienti).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Cos’è la ponderazione?

A

è una procedura con la quale si modifica artificialmente la composizione del campione durante la fase di analisi per renderla prossima alla distribuzione della popolazione. Se si utilizza un metodo di campionamento non probabilistico per non avere dati generalizzabili, bisognerebbe scegliere un campione rappresentativo della popolazione, oppure utilizzare i metodi di ponderazione.

Tecniche di ponderazione:
- Ponderare a partire dalla probabilità di inclusione dei soggetti nel campione (es: se le donne imprenditrici costituiscono il 2,5% della popolazione e ne campioniamo il 5%, nelle analisi si applicherà un coefficiente che ne dimezzi il peso, varranno quindi la metà, e si potranno ottenere risultati applicabili).
- Ponderare sulla base delle conoscenze che si hanno sulla popolazione -> si fa un processo di poststratificazione, ovvero una stratificazione fatta a posteriori, quando si sono già raccolti i dati. Si confronta la distribuzione reale delle variabili con quella del campione selezionato e si correggono i dati moltiplicando ogni caso del campione per un coefficiente di ponderazione = quota teorica / quota rilevata (es. nella popolazione si hanno il 49% di uomini e nel campione sono il 58%; si moltiplica ogni uomo per il peso 49/58 = 0,84. In questo modo è come se riducessimo il numero di uomini senza modificare la numerosità del campione) per avere una distribuzione simile a quella della popolazione.
- Ponderazione effettuata sulla base della conoscenza di caratteristiche dei non rispondenti -> in questi casi si raccolgono le caratteristiche dei non rispondenti e si pondera la loro non-risposta con il comportamento medio delle persone a loro simili (es. donne anziane nere nel campione = 9%; donne anziane nere che rispondono = 5%. Peso di ponderazione 9/5 = 1.8). Si riesce quindi a riempire i missing data con dati potenzialmente simili, però bisogna sapere chi sono le persone non rispondenti, e non sempre questo è possibile.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly