Grundlagen & DTD Flashcards
Was sind die Bestandteile eines XML-Dokuments?
Bestandteile eines Dokuments sind Inhalt, Struktur und Layout
Für welche beiden Haupteinsatzgebiete wird XML heute genutzt?
XML hat heute zwei Haupteinsatzgebiete:
Zum einem ist mit XML eine layout-unabhängige Beschreibung von Dokumenten möglich und somit kann XML als Ausgangsformat für Single-Source-Publishing verwendet werden.
Das zweite Einsatzgebiet von XML ist der Einsatz als universelles Datenaustauschformat.
Was versteht man unter Single-Source-Publishing
Dokumente sollen oft für mehrere Medien bereitgestellt(z.B. Druck / Webseite), sowie adressatengerecht prodouziert werden (Unterlagen für Studenten / Dozenten). Jedes Dokument einzeln herzustellen wäre wenig effektiv, daher sollen alle Dokumente aus einer Quelle und möglichst automatisch generiert werden.
Dieser Prozess wird als Single-Source-Publishing bezeichnet.
Was bezeichnet man als Inhalt eines XML-Dokuments?
Als Inhalt bezeichnet man die zu vermittelnde Information, oft in Textform, ergänzt durch bilder und immer häufiger auch durch multimediale Elemente, wie Ton und Video.
Was bezeichnet man als Struktur eines XML-Dokuments?
Als Struktur wird die Aufteilung und Abfolge der Inhaltsstücke bezeichnet.
Was bezeichnet man als Layout eines XML-Dokuments?
Das Layout dient zur Visualisierung des Inhalts und der Struktur. Es wird durch eine entsprechende Formatierung ausgedrückt. Z.b. werden Überschriften anders dargestellt als Inhaltstext.
Was muss beachtet werden, wenn ein XML-Dokument für ein anderes Medium publiziert wird?
Beim Publizieren für ein anderes Medium genügt es nicht die Publikation in ein neues Format zu konvertieren. Auch medienspezifische Besonderheiten des Zielmediums bezüglich Struktur und Layout müssen berücksichtigt werden.
Damit sich dies automatisieren lässt, müssen die Strukturinformationen vorhanden sein und konsequent umgesetzt werden.
Warum ist es wichtig, Struktur und Inhalt vom Layout zu trennen und wie wird das ermöglicht?
Damit ein automatischer Single-Source-Publishing-Prozess möglich ist, müssen Struktur und Inhalt vom Layout getrennt sein. Dies wird ermöglicht, indem Inhalte nicht mit Formatierungsinformationen, sondern mit Strukturinformationen versehen werden. Das heisst eine Überschrift wird als “Überschrift” ausgewiesen und nicht nur durch eine andere Schriftgrösse und Schriftschnitt dargestellt.
Formatierungsinformationen für die Struktur wird davon getrennt gespeichert.
Was wird in einer Strukturdefinition festgelegt?
In einer Strukturdefinition (Dokumentgrammatik) wird festgelegt welche Struktur die Dokumente haben.
Die einzelnen Strukturelemente werden mit dem Markup ausgezeichnet.
Ein Dokument, das einer bestimmten Strukturdefinition entspricht wird als Dokumentinstanz bezeichnet.
Was sind die Vorteile (2) der Strukturdefinition?
- Es kann per Programm überprüft werden, ob die Dokumente einer vorgegebenen Struktur entsprechen. Dies wird als Validierung bezeichnet.
- Durch die logische Strukturierung werden weitere Anwendungen der Dokumentenverarbeitung unterstützt. Z.B. kann die Kapitelnummer berechnet oder ein Inhaltsverzeichnis erstellt werden.
Welche Vorteile hat die Trennung der Formatierungsinformationen vom Inhalt und die Auslagerung in Stylesheets?
- Verschiedene Dokumente können mit demselbem Stylesheet einheitlich formatiert werden
- Ein Dokument kann durch Kombination mit verschiedenen Stylesheets passend zum Anwendungszweck formatiert werden
- Es kann arbeitsteilig und parallel gearbeitet werden. Ein Mitarbeiter ist für Texte, ein anderer für die Stylesheets zuständig.
Was ist Standard Generalized Markup Language (SGML)?
Standard Generalized markup Language (SGML) ist eine Metasprache zur Beschreibung von Auszeichnungssprachen. Mit ihr ist es möglich eigene Markup-Sprachen zu definieren.
Die bekannteste sprache, die mit SGML definiert wurde, ist HTML.
Was wird in der Document Type Definition (DTD) beschrieben?
In der Document Type Definition (DTD) wird die Strukturdefinition beschrieben. Durch die DTD werden die Markup Tags festgelegt, deren Namen so gewählt werden, dass sie eine semantische Bedeutung haben. Der Name des Tags gibt somit bereits Informationen über den Inhalt.
Warum eignet sich XML als universelles Datenaustauschformat?
Ein format, welches Informationen durch Auszeichnungselemente (Tags) Kennzeichnet, eignet sich gut als universelles Datenaustauschformat zwischen Anwendungen, da es menschen- und maschinenlesbar ist und beliebig komplexe, hierarchische Strukturen abbilden kann.
Welche zehn Ziele wurden beim Entwurf von XML verfolgt?
- XML soll sich im Internet auf einfache Weise nutzen lassen.
- XML soll ein breites Spektrum von Anwendungen unterstützten.
- XML soll zu SGML kompatibel sein.
- Es muss einfach sein, Programme zu schreiben, die XML-Dokumente verarbeiten
- Die Anzahl optionaler Merkmale in XML soll minimal sein, Idealerweise Null.
- XML-Dokumente sollen für Menschen lesbar und angemessen verständlich sein
- Der XML-Entwurf soll zügig abgefasst werden
- Der entwurf von XML soll formal und präzise sein
- XML-Dokumente sollen leicht zu erstellen sein
- Die Knappheit von XML ist von minimaler Bedeutung
Was ist eine XML-Anwendung? 5 Beispiele
Eine Auszeichnungssprache, die mit XML-definiert worden ist, heisst XML-Anwendung. Eine XML Anwendung konzentriert sich immer auf ein bestimmtes Problemfeld.
Beispiele
1. Extensible Hypertext markup Language (XHTML) als Neuformulierung von HTML mit XML
2. Scalable Vector Graphics (SVG) für die Erstellung von zweidimensionalen Vektorgrafiken
3. Mathematical Markup Language (MathML) zur Darstellung mathematischer Formeln
4. XForms zur Darstellung elektronischer Formulare
5. Synchronized Multimedia Integration language (SMIL) zur Beschreibung von zeitsynchronisierten, multimedialen Inhalten
6. DocBook zur Erstellung von Büchern, Artikeln und Dokumentationen im Bereich der Technischen Dokumentation
Wie sollte ein XML-Dokument aufgebaut sein?
Jedes XML-Dokument sollte mit einem Prolog beginnen. Dieser enthält die XML-Deklaration, welche Informationen (insbesondere XML-Version und Kodierung) für den Parser angibt.
Optional können Verarbeitungsanweisungen und der Verweis auf eine DOCTYPE-Definition oder ein XML-Schema angegeben werden.
Darauf folgen die XML-Daten, als der mit Markup ausgezeichnete Text.
Was ist der Prolog im Dokumentaufbau?
Jedes XML-Dokument sollte mit einem Prolog beginnen. Die erste Zeile des Prologs ist die XML-Deklaration. Vor der XML-Deklaration dürfen keine Leerzeichen stehen.
Wie sieht die XML-Deklaration aus und welche möglichen Attribute gibt es?
<?xml version="1.0" encoding="UTF-8"?>
Mögliche Attribute: version, encoding, standalone
Das Attribut version ist Pflicht. Werden die anderen Attribute notiert, müssen sie in der angegebenen Reihenfolge auftreten.
version: gibt die verwendete XML-Version an. Die Versionen 1.0 und 1.1 existieren, wobei Version 1.0 empfohlen wird.
encoding: gibt die verwendete Zeichenkodierung an. Standard: UTF-8
standalone: erlaubte Werte: “yes”, “no”standalone="yes"
=> DTD ist innerhalb der DOCTYPE-Deklaration angegeben, also gemeinsam mit der XML-Instanz gespeichert (interne DTD)standalone="no"
=> DTD ist in einer eignen Datei gespeichert (externe DTD).
Was sind Verarbeitungsanweisungen und wie ist ihre Syntax?
Verarbeitungsanweisungen (processing instructions) sind Anweisungen für weiterverarbeitende Programme. Damit können Informationen vom XML-Parser an eine Anwendung weitergereicht werden.
Processing instructions beginnen mit <?
und enden mit ?>
ihre Syntax lautet:<?PI-Name PI-Anweisung?>
Oft werden mit Verarbeitungsanweisungen Stylesheets zu XML-Dokumenten zugewisen. Syntax: <?xml-stylesheet type="text/css" href="format.css"?>
Welche Zeichenkette ist für den Namen einer processing instruction nicht erlaubt?
Die Zeichenkette “xml” ist als PI-Name nicht erlaubt.
Was ist ein XML-Parser welche zwei Varianten werden unterschieden?
XML-Parser sind Programme, die ein XML-Dokument lesen und die einzelnen Markierungen herausfiltern können. Sie prüfen ein Dokument beim Einlesen auf Korrektheit. man unterscheidet:
* Nicht validierende Parser: prüfen ob ein Dokument korrekt aufgebaut ist (verschachtellung und Bezeichnung der Strukturelemente). Wird ein Fehler gefunden, meldet der Parser diesen und bricht den Parsing-Vorgang ab
* Validierende Parser: prüfen zusätzlich, ob die Struktur des XML-Dokumentes den Vorgaben einer Dokumenttypdefinition oder eines Schemas entspricht.
Eine Applikation kann über den Parser auf das XML-Dokument zugreifen, indem der Parser der aufrufenden Applikation eine einfache Schnittstelle (API) zur verfügung stellt.
Welche sechs Regeln müssen bei XML-Namen beachtet werden?
- Der Name muss mit einem buchstaben oder Unterstrich beginnen
- Danach dürfen als zusätzliche zeichen Ziffern, Bindestrich und Punkt verwendet werden
- Ein Doppelpunkt sollte nicht verwendet werden, da er das Namensraum-Präfix vom übrigen Namen trennt.
- Die Zeichenfolge “xml” ist reserviert und darf nicht am Anfang eines Namens stehen
- Die Länge des Namens ist nicht begrenzt
- Gross- und Kleinschreibung werden unterschieden
Ausserdem sollten stets namen mit semantischer Bedeutung gewählt werden, damit menschliche Leser bereits Informationen über die Bedeutung des Inhalts erhalten.
Was sind Elemente im XML-Dokument, wie sind sie aufgebaut, welche Typen werden unterschieden?
Elemente sind die Grundbausteine eines XML-Dokuments. Sie beschreiben die Struktur des XML-Dokuments und enthalten andere Elemente, Text, beides oder sind leer.
Elemente haben einen Namen, für diesen gelten die Regeln der XML-Namen
Elemente bestehen aus:
* einem start tag
* dem dazugehörigen end tag
* dem content
Unterschieden werden
* einfache Elemente
* strukturierte Elemente
* Elemente mit gemischtem Inhalt
* leere Elemente
Was ist ein einfaches Element?
Bei einem einfachen Element besteht der Inhalt aus einer Zeichenkette:<name>Maier</name>
Was ist ein Strukturiertes Element?
Strukturierte Elemente enthalten selbst wieder Elemente, dies können sowohl einfache als auch strukturierte Elemente sein. Diese Elemente müssen korrekt ineinander verschachtelt sein.<dozent>
<name>Maier</name>
<vorname>Fritz</vorname>
</dozent>
Was ist ein Wurzelelement?
Jedes XML-Dokument bestitz ein Wurzelelement (root element). Es ist das erste Element im Dokument und enthält alle anderen Elemente. Ein XML-Dokument bildet so eine Baumstruktur von Elementen.
Was versteht man unter gemischtem Inhalt in Elementen?
Elemente mit gemischtem Inhalt sind Elemente, die andere Elemente und auch text gleichzeiting enthalten. <beschreibung>Bei dieser Veranstaltung gilt
<em>Anwesenheitspflicht</em>.
</beschreibung>
Was sind leere Elemente?
Leere Elemente haben keinen eigenen Inhalt in Form von Daten oder Kindelementen.
Leere Elemente können gekürzt geschreiben werden: <Elementname/>
Beispiele sind <br/>
und <hr/>
Wie werden Attribute angegeben und worauf muss geachtet werden?
Attribute werden im Start-Tag durch Name-Wert-paare angegeben. Jedes Element kann beliebig viele Attribute enthalten, innerhalb eines Elements muss jedoch jeder Attributname eindeutig sein. Für Attributnamen gelten die gleichen Regeln wie für XML-Namen.
Attributwerte müssen in einfachen oder doppelten Hochkommata angegeben werden. Mehrere Attribute müssen durch mindestens ein Leerzeichen getrennt werden.
Wofür werden Elemente verwendet?
- Elemente sollen den eigentlichen darzustellenden Inhalt enthalten
- Für Informationen, die weiter Strukturiert werden sollen oder mehrfach auftreten können
Wofür werden Attribute verwendet?
- Für Zusatzinformationen oder Metadaten über den Inhalt
- Für alternative Bedingungen (z.B. verschiedene Sprachen)
Wie werden Kommentare in XML eingefügt und was muss beachtet werden?
In XML stehen Kommentare zwischen <!--
und -->
(wie html)
Zu beachten:
* Kommentare dürfen nicht vor der XML-Deklaration stehen
* Kommentare dürfen nicht in Tags eingefügt werden
* Die Zeichenfolge -->
darf nicht innerhalb eines Kommentars vorkommen.
Welche Zeichen dürfen nicht im Inhalt vorkommen und wieso?
Da die Zeichen <
, >
, "
, '
und &
in XML eine besondere Bedeutung haben (Begrenzungszeichen für Tags, Attributwerde und Entities) dürfen sie nicht innerhalb vom Inhalt oder von Attributwerten verwendet werden, da der Parser sonst einen Fehler anzeigt.
Was sind CDATA-Abschnitte, wie werden sie ausgewiesen und wofür werden sie verwendet?
CDATA-Abschnitte können innerhalb der getaggten Textes eingefügt werden. Innerhalb dieser Abschnitte werden zeichendaten nicht geparst, wessahlb auch die Zeichen <
, >
, "
, ’
und &
nicht als Begrenzungszeichen erkannt werden.
CDATA-Abschnitte beginnen mit <![CDATA[
und enden mit ]]>
.
CDATA-Abschnitte werden sinnvollerweise verwendet, wenn die Zeichen <
, >
, "
, ’
und &
oft verwendet werden, z.B. beim Einbetten von JavaScript-Programmen oder wenn XML-Code als einfacher Text ausgespielt werden soll.
Was ist die Mindestvoraussetzung, damit XML-Dokumente weiterverarbeitet werden könnnen?
XML-Dokumente müssen zur weiterverarbeitung Wohlgeformt sein. Damit ein XML-Dokument wohlgeformt ist, müssen Syntaxtregeln erfüllt sein, welche in der XML-Spezifikation festgelegt sind.