ארגון מידע אנושי\אוטמט Flashcards
מהו גיוון לשוני?
אותה משמעות ניתנת לביטוי על ידי מילים שונות אך דומות לדוגמא :חברות-רעות, שמחה-חדווה, גילה-רינה.
מהי רב משמעות
רב משמעות - תופעה בלשנית כאשר למילה מסוימת יש יותר ממשמעות אחת בהקשרים שונים. לדוגמא חברה במובן של ארגון מסחרי או קבוצת אנשים.
דיוק precision מהו
מדד מקובל לבדיקת יעילות אחזור. מוגדר כאחוז המסמכים הרלוונטיים מתוך כל המסמכים שנדלו.
מהו שיעור הזכירה Recall
מדד מקובל למדידת יעילות האחזור, מוגדר כיחס המסמכים הרלוונטיים שנדלו מתוך מסמכים רלוונטיים הקיימים במאגר הנתונים.
מהו אחזור Retrieval
נקרא גם שליפה דלייה - איתור פריט נותנים מסוים בקובץ והעברתו למקום הרצוי, כגון הצגתו על צג מחשב לפי בקשה.
מהו רלוונטיות Relevance
מידה בה המסמך שאוחזר עונה על צורכי המשתמש בהתאם לשאילתה שתורגמה לאסטרטגיית חיפוש.
מהו מיצוי Exhaustivity -
מיצוי מתייחס להיבט הכמותי - מיצוי גבוה משמעותו הכללת כל מילות המפתח המבטאת את תוכן המסמך.
מדוע מנועי החיפוש מתקשים לספק תשובות מדויקות לשאלות מורכבות למרות שהתשובות כנראה כבר נמצאות ברשת?
הקושי נעוץ בשני המאפיינים העיקריים של שפה טבעית גיוון לשוני וריבוי משמעיות.
מהו אחד הפתרונות לבעיית האחזור הלא נכון של מנועי החיפוש?
אחד הפתרונות שמוצע כיום הוא יצרת לקסיקון פורמלי של תחום הידע - בניית אונטולוגיות לתחומי ידע שונים.
מהי אנטולוגיה?
מפרט מפורש ופורמלי של מושגים משותפים. אוצר מילים, מודל של ידע משותף לחוקרים ולסוכנים (מחשבים, תוכנות, אלגוריתמים) שמכיל אוסף מושגים, הגדרותיהם, מאפייניהם וקשרים סמנטיים ביניהם.
האם אנטולוגיה אחת יכולה להתאים לכל תחום?
אין אונטולוגיה אחת שמתאימה לכל תחום.
מהי רשת סמנטית (linked data)
בסיס נותנים רשתי שמכיל את הקשרים הסמנטיים בין מרכיביו. כתוצאה מכך הסוכנים האוטומטיים הופכים לחכמים. לתקשר ביניהם, לעבד מידע במהירות, להשיג תשובות לשאלות מורכבות, ללא התערבות אנושית
web 3.0
מהי אבן הבניין של הרשת הסמנטית?
בRDP(Resource Description Framework) אבן היסוד של הווב הסמנטי
כיצד עובד RDF
שומרים נתונים כשלשות RDF ישומי
ומקשרים נותנים שונים על בסיס מושגים משותפים
דרכים להשיג וווב סימנטי
שומרים נתונים כשלשות RDF ומקשרים נותנים שונים על בסיס מושגים משותפים. כל דף צריך כתובת ייחודית URL (Uniform Resource Identifier). יש להעלות אותם לפי פרוטוקול .HTTP
מדוע מנועי חיפוש אינם מסוגלים לספק תשובות
מדוייקות וישירות לשאלות מורכבות?
∘ בגלל מחסור בגיוון לשוני ובריבוי משמעות
∘ כי רק אנשים מסוגלים לענות לשאלות מורכבות
∘ כי המידע באינטרנט נמצא בשפה חופשית
∘ כי אין אפשרות לעשות חיפושים מדוייקים באינטרנט
כי המידע באינטרנט נמצא בשפה חופשית
מה מבין הבאים אינו מגבלה של ארגון מידע אוטומטי? ∘ גיוון לשוני ∘ רמת מיצוי גבוהה ∘ רב משמעות ∘ כמות אחזור נמוכה
∘ כמות אחזור נמוכה
ישנם דוגמאות רבות לדרכים ושיטות לארגון מידע אנושי המרכזיים שבהם הם:
- רשימות ביבליוגרפיות
- קטלוגים
- מפתחות
- אוצר מילים מבוקר
- עזרי איתור(ארכיונים)
- פנקס register (מוזאונים)
- מדריכים באינטרנט
- מאגרי מידע
המשותף הוא שבכולם יש
metadata
smart data מהו
הוא לא מונח מבוסס בעל הגדרה חד משמעית.smart data הוא מידע מובנה\חצי מובנה מפורש ומעושר מכיוון שבנוסף לנותנים הגולמיים הוא מכיל סימונים, הערות, ומטה-דטה. יצירתו כרוכה בארגון אנושי ולכן הוא נוטה להיות “נקי” יחסית מטעויות וקטן בנפח שלו מפאת הזמן שנדרש להכינו.
מהו big data
בימנו כולם רוצים ביג דטה בתחומים מגוונים כמו מכירות אונליין, שוק ההון, מוסדות בריאות וקמפיינים פוליטיים מונעים על ידי ביג דטה. המונח נוצר ומוגדר על ידי התעשייה, המדיה והאקדמיה ולכן יש חוסר הבנה משותפת לגבי הגדרתו. הניסיון שלהם להגדיר בסיס משותף מביא להגדרה הבאה ביג-דטה: מתאר אחסון וניתוח של כמויות מידע גדולות או מורכבות על ידי שימוש בטכניקות כמו NoSQL, MapReduce and machine learning. ההגדרה של המונח היא רחבה ותלויה בפרספקטיבה. בספר big data revolution הסופר מציע הגדרה לא טכנית ביג דטה: מתייחס לדברים שאדם יכול לעשות בכנה מידה גדול ולא יכולים להיעשות בכנה מידה קטן במטרה להגיע לתובנות חדשות או ליצור צורות מידע חדשות.
קיימות שתי אפשרויות לחיפוש מידע מה הן:
- חיפוש ביבליוגרפי (פריט ידוע) (חיפוש אחר מה שאנו יודעים שקיים) לדוגמא חיפוש אחר הספר “הארי פוטר ואבן החכמים”.
- חיפוש נושאי (פריט לא ידוע) (חיפוש אחר מה שנראה לנו שקיים אבל עוד לא מצאנו) לדוגמא חיפוש “חומר על ארגון מידע”.
מי יבין מידע שמאוחסן בהפניה של ציטוט ביבליוגרפי יותר בקלות?
מידע שמאוחסן בהפניה של ציטוט ביבליוגרפי יהיה קל להבנה על ידי אדם אבל קשה למחשב
בספרנות המונח ייצוג מידע מתייחס גם לשני שלבים של תיאור מידע שהם:
תיאור של פריט - הכולל תיאור פיזי של הפריט, אפיונים של פריט (יוצר, כותר, תאריך יצירת הפריט ועוד) ומידע לאיתור הפריט השלם.
ניתוח תוכן של הפריט - תיאור של התוכן האינטלקטואלי של הפריט.
מהו ארגון מידע אוטומטי?
ללא תשומה אינטלקטואלית, כלומר אין אנשים שעושים את עבדות הארגון באופן שוטף ועיקר המאמץ נעשה על ידי מחשב.
תחילה נעשה שימוש במילים מתוך כותר לאחר מכן במילים מתוך תקציר ועד לשימוש במילים מתוך טקסט מלא.