קורולציה-מבחן פירסון Flashcards
מהי קורולציה?
היא טכניקה סטטיסטית שמראה אם יש קשר בין שני משתנים ומה חוזק הקשר
Trendline
קו שייצג את פיזוג הנקודות כך שחצי מהנקודות מעל הקו וחצי מתחתיו.
קורלציה חיובית –
מתרחשת עלייה בשני הפרמטרים.
לדוגמה-
עליה ב
BMI
עם עלייה בצריכת משקאות ממותקים.
אם יש קורלציה מושלמת הקו יעבור
בין כל הנקודות.
קורולציה שלילית-
מתרחשת עליה בפרמטר אחד וירידה בפרמטר השני.
לדוגמה-
עם העלייה במספר משקאות ממותקים יש ירידה ב
BMI.
קורלציה מושלמת-הקו יעבור
בין כל הנקודות
כיצד יראה מצב שבו אין קורלציה בין שני משתנים?
הקו יהיה מאוזן .
test correlation Pearson
מחשב מהי מידת הקורלציה בין שני משתנים פרמטרים.
בוחן את רמת הפיזור של המדדים מה
line trend.
במבחן זה מחשבים את קבוע
הקורלציה- יקרא
R.
טווח R
בין -1 ל 1.
שיתאר התאמה שלילית מושלמת להתאמה חיובית מושלמת בהתאמה.
אם יוצא 0 זה אומר שאין קורלציה בין המשתנים.
מהן 4 הנחות היסוד ל-
pearson correlation test
הקשר בין שני משתנים חייב להיות ליניארי.
כל אחד מהמשתתפים במדגם גויס באופן בלתי תלוי למשתתף אחר.
בנוסף גיוס אקראי של אנשים למחקר.
הטעויות בין הערכים הנצפים
למצופים של
ערכי
Y
מתפלגים נורמלית
סביב ערכי ה
X.
כלומר אנחנו רוצים
שעיקר הנתונים יהיו קרובים יותר לקו
המגמה -מרכז ההתפלגות.
הנתונים צריכים
להיות בעלי שונות
שווה –
כלומר
שהשונות תהיה
אחידה לכל אורך קו המגמה.
מדגים שהנתונים צריכים
להיות בעלי שונות
שווה
איזה ערך של
R נחשב חזק?
מעל
0.7
coefficient of determination
ערך
R
בריבוע.
הערך הזה
יגיד לנו כמה שונות של
Y
מוסברת על ידי שונות של
X
ולא! על ידי דברים אחרים או אקראיים.
ערך
R
בריבוע גבוה – אומרת שרוב השונות שאנחנו רואים בין אנשים עם
BMI
גבוה ונמוך היא בגלל כמויות
שונות של שתיית משקאות ממותקים.
מהו פרט חשוב שצריך לזכור על קורולציה?
שקורלציה לא יכולה לתאר סיבתיות!!!!
Confounder
ערך שמוסתר על ידי משתנה אחר
מהן שתי המגבלות לחישוב קורולציה?
קורלציה רגישה ל
outliers
– נתונים בודדים שהם הרבה יותר גבוהים או נמוכים מיתר הנקודות.
כשיש כאלה לרוב הקורלציה תרד באופן משמעותי.
לא ניתן להסיק מסקנות על נקודות שנמצאות בדגימה ומצויות מחוץ לטווח ערכי ה
X
שהוגדר.