Page 1

UNISEMINAR


Extras

Prüfungen

Übungen

Aufgaben

Theorie

Seminar


Einleitung Statistik 1 Sommersemester 2012

M端nchen, April 2012


Einleitung

uniseminar.eu

Herzlich Willkommen bei uniseminar.eu

Vorwort/Einleitung Ziel von uniseminar.eu ist es, Dich optimal auf Deine Prßfungen vorzubereiten und Deine Prßfungsvorbereitung an der LMU Mßnchen so ezient wie mÜglich zu gestalten. Um dieses Ziel zu erreichen, haben wir ein zweistuges Konzept entwickelt, das sich nun schon mehrere Jahre als grosse Hilfe fßr die Studenten bewährt hat.

Um die in der Vorlesung und den Ăœbungen behandelten Inhalte leichter verständlich zu machen, haben wir Dir eine anschauliche und ausfĂźhrliche Zusammenfassung des gesamten relevanten PrĂźfungsstoes erstellt. Gleich zu Beginn des Semesters bieten wir Dir unsere umfassenden und sehr hilfreichen Unterlagen an. Diese kannst Du eigenständig bearbeiten und auch in die Vorlesungen und Ăœbungen mitnehmen! Es ist unser Ziel Dich während des gesamten Lernprozesses von der Vorlesung bis zur eigentlichen PrĂźfung zu begleiten und Deine PrĂźfungsvorbereitung ezienter und angenehmer zu gestalten. Durch unsere Hilfe werden Dir viele Steine aus dem Weg gelegt und eine grosse Menge an Recherche Arbeit erspart!

Am Ende des Semesters bieten wir Dir prĂźfungsspezische Seminare an. Diese runden Dein angeeignetes Wissen perfekt ab und erleichtern Dir mit ergänzenden Informationen, Tipps und Tricks Deinen persĂśnlichen Lern-Endspurt! Die Seminare werden von kompetenten Doktoranden geleitet, die fachlich und didaktisch zu den Besten Ihres Fachgebietes gehĂśren, da sie selbst Ăœbungen leiten und PrĂźfungen an ihren LehrstĂźhlen erstellen. Dadurch wissen sie genau, wo bei den Studierenden der Schuh drĂźckt und wie sie Dir bei Deinen persĂśnlichen Problemfeldern und Verständnisproblemen weiterhelfen kĂśnnen.

Lasse also Dein in den Vorlesungen und Ăœbungen der LMU MĂźnchen erlerntes Wissen mit unseren Unterlagen und Seminaren aufbessern und geniesse eine professionelle Vorbereitungshilfe! Sie wird Deine Lernzeit massgeblich verkĂźrzen und Dich ideal auf Deine PrĂźfungen vorbereiten. Weiter ist es uns ein grosses Anliegen, Dir Tipps und Tricks fĂźrs Lernen, sowie fĂźrs LĂśsen der realen PrĂźfung in unseren Seminaren mitzugeben.

-1-


Einleitung

uniseminar.eu

Ăœber uns uniseminar.eu ist vor 5 Jahren von zwei Studenten der Universität St. Gallen und zwei Doktoranden der ETH ZĂźrich gegrĂźndet worden, um die PrĂźfungsvorbereitung einfacher, ezienter und verständlicher zu gestalten. Seit 2005 sind wir nun an verschiedenen europäischen Universitäten aktiv und wissen aus eigener Erfahrung wie anspruchsvoll das erste Studienjahr sein kann.

Das Team von uniseminar.eu ist ßber die Jahre stark gewachsen und besteht mittlerweile unter anderem aus zahlreichen Mathematikern der ETH, Uni Zßrich und der TU Mßnchen, Statistikern der University of Cambridge, BetriebsÜkonomen der LMU Mßnchen, sowie Volkswirtschaftern der LMU Mßnchen, der Universität Zßrich und der London School of Economics (LSE), die allesamt grosse didaktische und fachspezische Erfahrung mit sich bringen. Alle Dozenten von uniseminar.eu haben langjährige Unterrichtserfahrung in ihrem Fach gesammelt und kÜnnen Dich deshalb in den Seminaren optimal bei Deiner Prßfungsvorbereitung unterstßtzen.

Die Macher von uniseminar.eu haben alle vor kurzem selbst noch studiert und wissen deshalb ßber das Studentenleben und die Prßfungsvorbereitung bestens Bescheid. Zudem haben wir alle grosse Freude am unterrichten und wollen Dir auf angenehme Weise die teilweise etwas komplizierte und trockene Materie so näher bringen, dass Lernen auf einmal Spass macht!

Unterlagen Sämtliche Unterlagen von uniseminar.eu werden ausschliesslich von qualizierten Doktoranden erstellt, die selbst im jeweiligen Fachgebiet doktorieren und damit ßber grosse Erfahrung und Expertise verfßgen. Dadurch kann eine hohe didaktische Qualität der Skripte garantiert werden.

Alle unsere Unterlagen werden zudem jedes Semester in enger Zusammenarbeit mit Studierenden Ăźberarbeitet, die zur Zeit die Vorlesung an der LMU MĂźnchen vor Ort besuchen. Damit kĂśnnen wir Dir garantieren, dass Dir stets der aktuellste Sto in unseren Unterlagen und Seminaren vorgelegt wird! Es wird dabei genau auf diejenigen Schwerpunkte eingegangen, welche den Prioritäten der Professoren entsprechen. Das vorliegende Skript zur Vorlesung Statistik 1 ist deshalb optimal auf die Vorlesungen und Ăœbungen abgestimmt und enthält alle prĂźfungsrelevanten Materialien fĂźr Deine PrĂźfung an der LMU MĂźnchen.

Ebenfalls ist es seit jeher unser hartnäckig verfolgtes Ziel alle unsere Unterlagen laufend zu verbessern und perfekt an den relevanten Prßfungssto anzupassen. Damit ist Dir eine optimale Klausurvorbereitung garantiert! Die Aktualität der Unterlagen ist uns ein grosses Anliegen: Wir wollen, dass Du genau das lernst, und wirklich nur das, was an den Prßfungen schliesslich auch dran kommt. Weder zu viel noch zu wenig!

-2-


Einleitung

uniseminar.eu

Seminare Sämtliche Kurse von uniseminar.eu werden von erfahrenen Doktoranden geleitet und betreut. Alle Dozenten verfßgen ßber langjährige Unterrichtserfahrung an diversen Universitäten und wissen deshalb genau Bescheid, wo Probleme bei den Studierenden auftreten kÜnnen.

Oberstes Ziel unserer Seminare ist es den prßfungsrelevanten Sto anschaulich und verständlich in zwei vierstßndigen SeminarblÜcken zu vermitteln. Zuerst werden die wichtigsten mathematischen Grundlagen und Themen der Vorlesung besprochen, um danach auf die häugst auftretenden Aufgabentypen einzugehen und geeignete Vorgehensweisen an der Prßfung zu erklären.

Während den Seminaren werden zu 30% theoretische Vorlesungsinhalte behandelt und Grundkenntnisse erarbeitet. 70% der Zeit nehmen wir uns, um reale Prßfungsaufgaben zu bearbeiten und eziente Prßfungsstrategien zu besprechen. Es wird somit in den Seminaren zuerst ein theoretisches Fundament gelegt, da grundlegende theoretische Kenntnisse beim LÜsen von Prßfungsaufgaben von grosser Bedeutung sind.

Es ist also unser Ziel nicht nur den prßfungsrelevanten Sto anschaulich zu erklären, sondern auch theoretische Kenntnisse zu vermitteln, die nÜtig sind, um fachliche Zusammenhänge auch wirklich zu verstehen. Theoretische Zusammenhänge erscheinen auf den ersten Blick komplex, dennoch sind sie bis zu einem gewissen Grade nÜtig um Prßfungsaufgaben selbstständig zu lÜsen. Wir sehen es als unsere Aufgabe Dir den nÜtigen Grad an theoretischem Wissen auf mÜglichst einfache und kompakte Weise aufzuzeigen und Dir anzueignen. Mit dem richtigen Mass an Theorie wird Dir das LÜsen der Prßfungsaufgaben viel leichter fallen!

In unseren Seminaren erlernst du somit einfache theoretische Grundkenntnisse, um spezische Aufgabentypen zu lĂśsen, die an der PrĂźfung mit grosser Wahrscheinlichkeit erscheinen werden.

FĂźr das Seminar kannst Du Dich jederzeit unter www.lmu.uniseminar.eu anmelden.

-3-


Einleitung

uniseminar.eu

Aufbau Dieser Ordner soll Dir als Lernhilfe zur ezienten PrĂźfungsvorbereitung der StatistikprĂźfung dienen und umfasst fĂźnf Teile. Wir mĂśchten Dir im Folgenden einen Ăœberblick Ăźber den Aufbau des Ordners geben. 1.

Theorie:

Das Theorieskript fasst in einfacher und Ăźbersichtlicher Form den gesamten

Sto des Sommersemesters 2012 zusammen und erklärt diesen anhand anschaulicher Beispiele. Am Ende ndest Du ein Stichwortverzeichnis, welches Dir bei allfälligen Fragen schnellstmÜglichst Zugri auf das erforderliche Wissen verschat. Das Theorieskript umfasst 6 Kapitel, die im Seminar der Reihe nach bearbeitet werden. 2.

Aufgaben: Zu allen Kapiteln in unserem Theorieskript haben wir abgestimmte Ăœbungsaufgaben erstellt. Wir empfehlen Dir diese Aufgaben parallel zum Durcharbeiten des Ordners zu lĂśsen, um anschliessend Fragen an unsere Dozenten stellen zu kĂśnnen. Diese sind gerne während den Pausen und auch nach den oziellen Seminarstunden fĂźr Dich da, um Dir bei Deinen persĂśnlichen Problembereichen weiterzuhelfen.

3.

Ăœbungen:

Hier ndest du MusterlĂśsungen zu den oziellen Ăœbungsaufgaben zur Vor-

lesung Statistik 1 im Sommersemester 2012 an der LMU MĂźnchen. Die Angaben der Ăœbungen kannst du auf der Vorlesungshomepage herunterladen. Da sich der in der PrĂźfung vorkommende Sto sehr oft an dem der Ăœbungen orientiert, ist es sehr ratsam die Ăœbungen am besten schon während des Semesters aber auf jeden Fall vor der PrĂźfung mindestens einmal komplett durchzurechnen. Um Dir zu ermĂśglichen Deine selbst gefundenen LĂśsungen zu ĂźberprĂźfen und um Dir Tipps zu geben, falls Du einmal nicht genau weisst wie man eine Aufgabe angeht, habe wir dir ausfĂźhrliche LĂśsungen erstellt. 4.

Prßfungen: Beginne frßh damit bisherige Prßfungen zu lÜsen, denn nur so gewinnst Du das nÜtige Verständnis fßr deren Aufbau. Du wirst erkennen, was fßr die Prßfung relevant ist und kannst Dich gezielt darauf vorbereiten. Dazu haben wir Dir alle verfßgbaren Klausuren mit ausfßhrlichen LÜsungswegen zusammengestellt.

5.

Extras: Hier ndest du die aktuellste Formelsamlung. Schau dir die Formelsammlung gut an und merke dir die wichtigsten Formeln! Zusätzlich dazu ndest du hier Notizpapier, damit Du Dir Deine eigenen Ergänzungen machen kannst.

-4-


Extras

Prüfungen

Übungen

Aufgaben

Theorie

T


Theorie Statistik 1 Sommersemester 2012

M端nchen, April 2012


Inhaltsverzeichnis 1 Einleitung - Statistik 1 1.1 Business Statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Kausalität und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Grundbegriffe der Statistik 2.1 Elementare Begriffe . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 Untersuchungseinheit und Grundgesamtheit . . . . . . 2.2 Häufigkeiten und Verteilungen . . . . . . . . . . . . . . . . . . 2.2.1 Absolute Häufigkeit . . . . . . . . . . . . . . . . . . . . 2.2.2 Klassenbildung . . . . . . . . . . . . . . . . . . . . . . 2.2.3 Absolute und relative Häufigkeiten . . . . . . . . . . . 2.3 Graphische Darstellung von Häufigkeitsverteilungen . . . . . . 2.3.1 Säulen- und Balkendiagram . . . . . . . . . . . . . . . 2.3.2 Tortendiagramme . . . . . . . . . . . . . . . . . . . . . 2.3.3 Histogramm . . . . . . . . . . . . . . . . . . . . . . . . 2.3.4 Scatter Plot . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Die empirische Verteilungsfunktion . . . . . . . . . . . . . . . 2.4.1 Ordnungsstatistik . . . . . . . . . . . . . . . . . . . . . 2.4.2 Empirische Verteilungsfunktion für diskrete Merkmale . 2.4.3 Rechenregeln für diskrete Merkmale . . . . . . . . . . . 2.4.4 Empirische Verteilungsfunktion für stetige Merkmale . 2.4.5 Rechenregeln für stetige Merkmale . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

3 Statistische Beschreibung von Daten 3.1 Lagemaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Modus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.2 Median . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.3 Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.4 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.5 Arithmetisches Mittel und gewichtetes arithmetisches Mittel 3.1.6 Harmonisches Mittel . . . . . . . . . . . . . . . . . . . . . . 3.1.7 Geometrisches Mittel . . . . . . . . . . . . . . . . . . . . . . 3.2 Streuungsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Konzentrationsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 Lorenzkurve . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Gini-Koeffizient . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Zusammenhangsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1 Kontingenztafeln . . . . . . . . . . . . . . . . . . . . . . . . 3.4.2 Zusammenhangsmaße für diskrete Merkmale . . . . . . . . 3.5 Zusammenhangsmaße für ordinale Merkmale . . . . . . . . . . . . . 3.6 Zusammenhangsmaße für metrische Merkmale . . . . . . . . . . . . 3.6.1 Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.2 Korrelationskoeffizient nach Bravais-Pearson . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

1 1 2

. . . . . . . . . . . . . . . . .

4 4 4 6 6 6 7 8 8 9 9 11 12 12 13 15 15 17

. . . . . . . . . . . . . . . . . . .

17 18 18 18 19 20 20 21 21 23 26 26 28 29 29 32 37 43 43 44


4 Regressionsanalyse 4.1 Motivation . . . . . . . . . . . . . 4.2 Einfache lineare Regression: Idee 4.3 Vorgehen: Schätzer für α und β . 4.4 Qualität des Modells . . . . . . . 4.5 Kategoriale Regressoren . . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

5 Verhältniszahlen und Indizes 5.1 Verhältniszahlen . . . . . . . . . . . . . . . . . 5.2 Indexzahlen . . . . . . . . . . . . . . . . . . . 5.3 Preisindizes . . . . . . . . . . . . . . . . . . . 5.3.1 Preisindex nach Laspeyres . . . . . . . 5.3.2 Preisindex nach Paasche . . . . . . . . 5.4 Mengenindizes und Umsatzindex . . . . . . . 5.5 Weiterführende Themen der Indexrechnung . . 5.5.1 Erweiterung des Warenkorbs . . . . . . 5.5.2 Substitution von Gütern im Warenkorb 5.5.3 Subindizes . . . . . . . . . . . . . . . .

. . . . .

. . . . . . . . . .

. . . . .

. . . . . . . . . .

6 Zeitreihen 6.1 Zerlegung von Zeitreihen, Komponentenmodell . . 6.1.1 Additives Komponentenmodell . . . . . . . 6.1.2 Multiplikatives Komponentenmodell . . . . 6.2 Gleitende Durchschnitte . . . . . . . . . . . . . . 6.2.1 Gleitende Durchschnitte gerader Ordnung 6.2.2 Gleitende Durchschnitte gerader Ordnung 6.3 Model mit periodischer Saisonaler Komponente . Stichwortverzeichnis

. . . . .

. . . . . . . . . .

. . . . . . .

. . . . .

. . . . . . . . . .

. . . . . . .

. . . . .

. . . . . . . . . .

. . . . . . .

. . . . .

. . . . . . . . . .

. . . . . . .

. . . . .

. . . . . . . . . .

. . . . . . .

. . . . .

. . . . . . . . . .

. . . . . . .

. . . . .

. . . . . . . . . .

. . . . . . .

. . . . .

. . . . . . . . . .

. . . . . . .

. . . . .

. . . . . . . . . .

. . . . . . .

. . . . .

. . . . . . . . . .

. . . . . . .

. . . . .

. . . . . . . . . .

. . . . . . .

. . . . .

. . . . . . . . . .

. . . . . . .

. . . . .

. . . . . . . . . .

. . . . . . .

. . . . .

. . . . . . . . . .

. . . . . . .

. . . . .

. . . . . . . . . .

. . . . . . .

. . . . .

. . . . . . . . . .

. . . . . . .

. . . . .

48 48 49 52 55 57

. . . . . . . . . .

61 61 61 63 64 64 65 66 66 66 67

. . . . . . .

68 68 69 69 69 70 71 71 72


Theorie

1

uniseminar.eu

Einleitung - Statistik 1

In der Vorlesung Statistik 1 geht es primär darum, Daten zu beschreiben und daraus Schlüsse zu ziehen. Um diese Daten auszuwerten, verwenden wir die Werkzeuge der Statistik. Der erste Teil der Vorlesung befasst sich damit, mit welchen Arten von Daten man es zu tun hat, wie wir diese Daten beschaffen, handhaben und darstellen können. Danach wenden wir uns der Analyse von Daten zu und werden dabei das Prinzip der linearen Regression kennenlernen und anwenden.

1.1

Business Statistics

Wozu braucht man überhaupt Statistik? Als Geschäftsfrau oder Geschäftsmann kommt man früher oder später in Kontakt mit Statistik, sei dies als Urheber, welcher Daten sammelt, analysiert oder präsentiert, oder als Konsument, welcher schon ausgewertete Daten betrachtet. Die Statistik, welche für das Management einer Firma wichtig ist, wird unter dem Begriff der Business Statistics zusammengefasst: Definition 1.1. Unter dem Begriff ‘Business Statistics’ verstehen wir die Sammlung, Zusammenfassung, Auswertung und Aufbereitung von Daten, um Entscheidungen im Marketing, in der Produktion, in der Entwicklung, in der Organisation oder in der Finanzwirtschaft vorzubereiten und zu unterstützen. Alles was unter dem Begriff der ‘Business Statistics’ zusammengefasst wird, liefert also entscheidungsrelevante Informationen für das Management. Weiter soll die ‘Business Statistik’ auch Antworten auf Fragen des Managements liefern und so als Entscheidungsgrundlage dienen. Beispiel. In einer Versicherungsgesellschaft werden die Prämien für eine Autoversicherung anhand von verschiedenenen Daten berechnet. So analysiert man bei Autounfällen zum Beispiel jeweils wie alt der Unfallverursacher und was für ein Typ von Auto involviert war. Dementsprechend wird dann die Versicherungsprämie für einen Junglenker eines SUV sehr hoch ausfallen, da ein solcher gemäss den erhobenen Daten überdurchschnittlich oft an Unfällen beteiligt ist. Die Business Statistik gibt hier also die Antwort auf eine Frage des Managements und dient dieser als Entscheidungsgrundlage für die Festsetzung der Prämien. In einer Studie unterscheiden wir dabei zwischen verschiedenenen Typen von Daten: Qualitative Variablen und Quantitative Variablen: Definition 1.2. Eine ‘Qualitative Variable’ beschreibt qualitative Eigenschaften von Objekten oder Personen. Die Variable besagt, in welche Kategorie ein bestimmtes Objekt oder eine bestimmte Person gehören. So ist zum Beispiel das Geschlecht einer Person eine qualitative Variable. Definition 1.3. Unter einer ‘Quantitativen Variablen’ verstehen wir dagegen eine Eigenschaft, deren Wert wir messen können. Wir können also fragen, ‘wieviel dieser Eigenschaft’ ein Objekt oder eine Person besitzt. Dabei unterscheiden wir zwischen diskreten Variablen, welche nur gegebene Werte annehmen können (Ein Kunde in einem Supermarkt kann zum Beispiel Milch nur in 0.5, 1.0, 1.5 und 2 Liter Packungen kaufen) und stetigen Variablen, welche einen beliebigen Wert innerhalb eines Intervalls annehmen können (Ein Wassertank kann zum Beispiel zwischen 0 und 100 Hektolitern Wasser enthalten).

-1-


Theorie

uniseminar.eu

Wir können diese Variablen nun auf verschiedenenen Skalen messen: Nominalskala:

Die Nominalskala dient zur Klassifikation von Daten. Wir unterscheiden zum Beispiel zwischen zwei verschiedenenen Typen von Kunden und identifizieren alle Privatkunden mit einer 1 und alle Geschäftskunden mit einer 2. Für zwei Daten können wir also nur überprüfen, ob sie in derselben Klasse liegen.

Ordinalskala:

Die Ordinalskala stellt eine Rangordnung dar. Die Messwerte lassen sich je nach Grösse anordnen. Für Daten A, B und C können wir also Aussagen wie A < B < C machen. Wir wissen jedoch nicht, wie viel grösser C als A ist.

Intervallskala:

Bei einer Intervallskala lassen sich im Unterschied zu der Ordinalskala die Abstände zwischen den Messwerten exakt bestimmen. Es existiert allerdings kein natürlicher Nullpunkt. Ein Beispiel dazu liefert die Celsius-Temperaturskala. Zwar lassen sich Abstände hier exakt messen, der Nullpunkt ist jedoch willkürlich festgelegt. Für Daten A, B und C können wir also Aussagen wie A < B < C und B − A < C − B oder B − A = C − B machen.

Ratioskala

In dieser Skala können wir Daten sowohl ordnen, als auch die Abstände zwischen den einzelnen Daten angeben. Die Skala besitzt einen absoluten Nullpunkt und Messwertverhältnisse können angegeben werden. Ein Beispiel dafür sind die Jahresumsätze verschiedenener Firmen. Falls A der Jahresumsatz einer Firma ist und B der Jahresumsatz einer anderen Firma, können wir genau sagen, um wie viel grösser der Jahresumsatz der ersten Firma im Vergleich zu dem der zweiten Firma ist. Wir können auf einer Ratioskala eine Zahl t finden, so dass A = t · B gilt. Der Jahresumsatz A ist also t mal so gross wie der Jahresumsatz B.

Im Falle der Intervall- und Ratioskala spricht man auch von metrischen Skalen. Wenn wir nun verschiedenene Variablen miteinander vergleichen und eine Ursache-Wirkungs Analyse erstellen wollen, ist es wichtig zu wissen auf welcher Skala sie gemessen wurden.

1.2

Kausalität und Korrelation

Bei den meisten statistischen Studien, die über eine Beschreibung der Daten hinausgehen versucht man Zusammenhänge zwischen verschiedenenen Eigenschaften oder Variablen zu finden. Gewisse Zusammenhänge können gut beobachtet oder vermutet werden. Deren Interpretation ist jedoch viel schwieriger. Beispiel. Wenn wir von verschiedenenen Personen jeweils deren Schuhgrösse (X) und deren Einkommen (Y ) messen, kann man statistisch zeigen, dass Personen mit einer grösseren Schuhgrösse zu einem höheren Einkommen tendieren. Wir sind nach den Ergebnissen der Studie also geneigt, anzunehmen, dass Leute mit grösseren Füssen generell mehr verdienen, als Leute mit kleineren Füssen. Es stellt sich die Frage, ob dies plausibel ist. Das Beispiel zeigt klar, dass wir zwar eine Korrelation beobachten können, aber daraus keine Kausalität (Grosse Füsse impli-2-


Theorie

uniseminar.eu

zieren ein hohes Einkommen) ableiten können. Warum aber beobachten wir diese Korrelation? Die Antwort liegt in einer versteckten Drittvariablen: Es ist bekannt, dass das Lohnniveau von Frauen generell tiefer liegt als bei Männern. Frauen haben in der Regel auch eine kleinere Schuhgrösse als Männer, daher beeinflusst das Geschlecht die Schuhgrösse und damit das Einkommen. Dieses Beispiel soll zeigen, dass Korrelation nicht Kausalität bedeutet. In Definitionen zusammengefasst bedeutet dies: Definition 1.4. ‘Korrelation’ bedeutet einen Zusammenhang zwischen zwei verschiedene Variablen ohne Ursache-Wirkungs-Beziehung. Definition 1.5. ‘Kausalität’ bedeutet, dass die beiden gemessenen Variablen in einer UrsacheWirkungs-Beziehung stehen. Streng genommen kann kein Verfahren zwischen Korrelation und Kausalität unterscheiden. Es gibt zwar Fälle, bei welchen es klar ist, ob eine Kausalität vorliegt und welche der beiden gemessenen Variablen die unabhängige Variable (die Ursache) und welches die abhängige Variable (die Wirkung) darstellt. Bei anderen kann man das hingegen nicht mit Sicherheit sagen: Beispiel. Wir können in einer Regressionsanalyse zeigen, dass ein Zusammenhang zwischen dem Body Mass Index (BMI) und einem Maß für Depressionen besteht. Heisst dies nun, dass Übergewicht Depressionen verursacht? Nicht zwingend, denn es könnte genauso gut umgekehrt der Fall sein, dass Depressionen Übergewicht verursachen. Nach diesen einführenden Bemerkungen, werden wir nun beginnen die Grundbegriffe der Statistik einzuführen und diese mit Beispielen zu illustrieren.

-3-


Theorie

4

uniseminar.eu

Regressionsanalyse

Wir wenden uns nun der wichtigsten mathematischen Methode dieser Vorlesung zu, der Regressionsanalyse.

4.1

Motivation

Wir haben bereits in der Einleitung gesehen, dass zwischen verschiedenenen Daten eine Korrelation beobachtet werden kann. Wie bereits in Abschnitt 1.2 diskutiert, kann man jedoch dadurch nie auf einen kausalen Zusammenhang schliessen. Dieser müsste auf eine andere Art und Weise bewiesen werden, was aber oftmals gar nicht so leicht ist. Wir interessieren uns jedoch in erster Linie nicht für die Kausalität, sondern für die Korrelation zwischen Daten. In einer Regressionsanalyse versucht man nun diese Korrelation in einem mathematischen Modell genauer zu beschreiben. Wir vermuten für beobachtete Variablen x und y einen Ursache-Wirkungs-Zusammenhang. Die Beobachtungen der Variable x sehen wir im Folgenden als die Ursache (oftmals auch unabhängige Variable genannt) und y als die Wirkung (abhängige Variable). Mathematisch drückt man dies folgendermassen aus: y = f (x). f (x) stellt irgendeine mathematische Funktion dar. Wir versuchen nun diese Funktion f (x) zu beschreiben. Wir beschränken uns hier auf lineare Funktionen, es sei jedoch erwähnt, dass für f (x) beliebige Funktionen in Frage kommen. Für gewisse Fälle können jedoch die Rechnungen kompliziert werden. In der Praxis versucht man oftmals auch eine Wirkung y durch mehrere Ursachen x1 , x2 , . . . zu beschreiben. Also y = f (x1 , x2 , . . .). Dies nennt man eine multiple Regression. Wir beschränken uns hier im Wesentlichen jedoch auf den Fall mit einer Ursache und einer Wirkung, was man eine einfache (einfach, weil man nur eine Variable x betrachtet) lineare Regression oder auf Englisch ‘simple linear regression’ nennt. Das Prinzip funktioniert so, dass wir versuchen möglichst viele Beobachtungen der zu untersuchenden Variablen x und y zu erhalten. Wir nummerieren zusammengehörende Beobachtungen mit einem Index i, so dass wir am Schluss total n Paare zum Analysieren haben: (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) Aus diesen n Paaren versuchen wir nun die Funktion f (x) zu schätzen. Am besten schliessen wir die Motivation für die Regressionsanalyse mit einem Beispiel aus der Vorlesung ab: Beispiel. Wenn wir verschiedenene Filialen einer Ladenkette betrachten, können wir einen Zusammenhang zwischen der Grösse der Verkaufsfläche einer Filiale und dem durch diese Filiale generierten Jahresumsatz vermuten. Wir sind nun daran interessiert, wie dieser Zusammenhang mathematisch beschrieben werden kann. Wir wählen daher für unsere Analyse verschiedenene Filialen aus (zum Beispiel 12, also n = 12) und messen als Ursache x, die jeweiligen Verkaufsflächen. Wir erhalten also 12 Werte x1 , x2 , . . . , x12 . Jedem dieser Werte ordnen wir den jeweiligen erzielten Jahresumsatz y zu und erhalten so 12 Paare (xi , yi ). Dieser Datensatz dient als Grundlage unserer Analyse. Es sei jedoch nochmals darauf hingewiesen, dass die Begründung dieses Zusammenhangs (die Kausalität) nicht aus der Regressionsanalyse folgt. Diese beschreibt nur die Korrelation. Die -48-


Theorie

uniseminar.eu

Begrßndung folgt aus Ükonomischen, verhaltenswissenschaftlichen oder anderen Theorien. Die Regressionsanalyse liefert jedoch einen Zusammenhang, mit welchem man zum Beispiel Prognosen ßber nicht beobachtete Werte tätigen kann. Ein Ladenbesitzer kann durch eine Regressionsanalyse zum Beispiel abschätzen, um wieviel der Jahresumsatz seiner Filiale steigen wird, wenn er die Verkaufsfläche auf einen Wert vergrÜssert, welcher mit keiner bestehenden Filiale verglichen werden kann. Bevor man eine Regressionsanalyse macht, muss man sich immer drei zentrale Fragen stellen: 1. Sind die vermuteten Zusammenhänge ßberhaupt sinnvoll? 2. Sind die Variablen metrisch skaliert? 3. Was ist die Ursache x und was die Wirkung y?

4.2

Einfache lineare Regression: Idee

Wie schon erwähnt, wollen wir in unseren Regressionsanalysen den Zusammenhang zwischen x und y durch eine lineare Funktion (also eine Gerade: y = m ¡ x + q mit Steigung m und Achsenabschnitt q) beschreiben. Oftmals sieht man bereits durch einen Scatterplot (siehe Abschnitt 2.1), ob eine solche Annahme ßberhaupt Sinn macht. Wir haben bereits im Abschnitt 2.3 (Abbildung 10) gesehen, dass verschiedene Zusammenhänge zwischen den Daten denkbar sind. Falls der Scatterplot nun einen linearen Zusammenhang vermuten lässt, nehmen wir an, dass das wahre Ursache-Wirkungs-Verhältnis zwischen x und y folgendermassen gegeben ist (wir werden uns später damit beschäftigen, wie wir diese Modellannahmen ßberprßfen kÜnnen): Das Modell: Gegeben:

Eine abhängige Variable (Zielvariable, Wirkung), die bis auf Messfehler (oder zufällige Schwankungen) linear von einer â&#x20AC;&#x2122;unabhängigenâ&#x20AC;&#x2DC; oder â&#x20AC;&#x2122;erklärendenâ&#x20AC;&#x2DC; festen Variablen (Ursache) abhängt.

Gesucht:

Die Parameter, welche diese Abhängigkeit beschreiben sowie die Streuung (Varianz) der Fehler.

Das Modell in Formeln: yi = ι + β ¡ xi + i

(i = 1, . . . , n)

(1)

i ist die zufällige Komponente im Modell, es handelt sich also um eine sogenannte Zufallsvariabel. Wir werden unten noch weitere Annahmen an diese i aufstellen. Dieses mathematische Modell kann man mit anderen Worten so erklären: Wenn wir die zu erklärenden Variablen mit yi und die unabhängigen mit xi bezeichnen, fordern wir, dass die xi jeweils feste (nicht zufällige) GrÜssen sind und die yi -Werte bis auf eine zufällige Schwankung oder einem Messfehler linear aus den xi -Werten erklärt werden kÜnnen. Anschaulich heisst das, ohne die Fehler wßrden alle yi auf einer Gerade mit Steigung β und Achsenabschnitt ι zu liegen kommen. Die Fehlerterme beschreiben also die Abweichung von dieser Geraden. Wichtig ist dabei, dass jede einzelne Messung yi einen eigenen Fehlerterm i besitzt, welchen wir jedoch nicht kennen. Die Punkte liegen also immer leicht ßber, oder unter dieser Gerade. Um eine Regressionsanalyse durchfßhren zu kÜnnen, treffen wir folgende Annahmen: -49-


Theorie

uniseminar.eu

1. P Im Durchschnitt erwarten wir keine StĂśrung bzw. Messfehler. Mit anderen Worten: n i=1 i = 0. 2. Die Fehler sind unkorreliert. Das heisst, dass der Fehler der i-ten Beobachtung den Fehler in der j-ten Beobachtung nicht beeinflusst. Mathematisch: Cov(i , j ) = 0 fĂźr alle i 6= j 3. Die Fehler haben alle die gleiche Streuung (â&#x20AC;&#x2DC;Homoskedastieâ&#x20AC;&#x2122;). Mathematisch: Var(i ) = Ď&#x192; 2 fĂźr alle i. 4. Die Fehler sind alle gemäss einer Normalverteilung verteilt: i â&#x2C6;ź N (0, Ď&#x192; 2 ) fĂźr alle i. Wir werden in Abschnitt 3.4 genauer auf diese Annahmen eingehen und auch sehen, wie wir diese ĂźberprĂźfen kĂśnnen. FĂźr den Moment nehmen wir einfach an, dass unser Datensatz diese Annahmen erfĂźllt. Angemerkt sei noch, dass zum Teil auf die vierte Annahme verzichtet wird. Unser Ziel besteht nun darin, die Parameter Îą und β der Funktion in (1), also der Geraden, um welche die Beobachtungen jeweils liegen, zu beschreiben. Wir versuchen also eine Gerade durch die beobachteten Daten zu legen, welche mĂśglichst nahe an der wahren Geraden zu liegen kommt. Um diese Theorie zu veranschaulichen wenden wir uns wieder dem Beispiel mit der Ladenfläche und dem Jahresumsatz zu. Wir nehmen an, dass wir fĂźr unsere Ladenkette (12 Filialen) folgende Daten erhoben haben: Filiale 1 2 3 4 5 6 7 8 9 10 11 12

Verkaufsfläche (1000 m2 ) 0.31 0.98 1.21 1.29 1.12 1.49 0.78 0.94 1.29 0.48 0.24 0.55

Jahresumsatz (Mio e): 2.93 5.27 6.25 7.01 7.02 8.35 4.33 5.77 7.68 3.16 1.52 3.15

Wir haben also folgenden Datensatz (ergänzt durch Ergebnisse von Rechnungen, die wir später noch benÜtigen): Wenn wir diese Werte in einem Scatter-Plot darstellen, sehen wir, dass der Zusammenhang ziemlich linear erscheint:

-50-


Theorie

uniseminar.eu i 1 2 3 4 5 6 7 8 9 10 11 12 Total:

xi 0.3100 0.9800 1.2100 1.2900 1.1200 1.4900 0.7800 0.9400 1.2900 0.4800 0.2400 0.5500 10.6800

yi 2.9300 5.2700 6.2500 7.0100 7.0200 8.3500 4.3300 5.7700 7.6800 3.1600 1.5200 3.1500 63.0400

x2i 0.0961 0.9604 1.4641 1.6641 1.2544 2.2201 0.6084 0.8836 1.6641 0.2304 0.0576 0.3025 11.4058

xi ¡ yi yi2 8.5849 0.9083 27.7729 5.1646 46.9225 8.2885 49.1401 9.0429 49.2804 7.8624 69.7225 12.4415 18.7489 3.3774 33.2929 5.4238 58.9824 9.9072 9.9856 1.5168 2.3104 0.3648 9.9225 1.7325 384.6660 66.0307

Abbildung 16: Ein Scatterplot von x und y der Daten aus obiger Tabelle Wir kĂśnnen also annehmen, dass die Gleichung (1) fĂźr Parameter Îą, β und zufällige Fehlerterme i erfĂźllt ist. Doch wie finden wir nun diese Parameter? Wie mĂźssen wir den Achsenabschnitt Îą und die Steigung β der Geraden wählen, um ein mĂśglichst gutes Resultat zu erhalten? Was heisst Ăźberhaupt ein â&#x20AC;&#x2122;gutes Resultatâ&#x20AC;&#x2DC; ? Um diese Fragen zu beantworten betrachten wir zuerst einmal die Grundstruktur unseres Modells: -51-


Theorie

5

uniseminar.eu

Verhältniszahlen und Indizes

5.1

Verhältniszahlen

Im Gegensatz zu den Indexzahlen werden die Verhältniszahlen in der Vorlesung nur am Rande erwähnt und haben deshalb auch nur bedingte Relevanz für die Prüfungsvorbereitung. Verhältniszahlen werden benutzt um zwei statistische Grössen in ein Verhältnis zueinander zu setzen. Bekannte Beispiele sind. • Arbeitslosenquote =

Zahl der Arbeitslosen Zahl der Erwerbspersonen

Beispiel für eine Gliederungszahl (gleiche Grundgesammtheit) • Sterbeziffer =

Zahl der Verstorbenen Gesamtbevölkerung

Beispiel für eine Verursachungszahl ( Bewegungsmasse ) Bestandsmasse • Bevölkerungsdichte =

Zahl der Einwohner fläche in km2

Beispiel für eine Entsprechungszahl (kein Bezug auf einen Bestand möglich)

5.2

Indexzahlen

Indexzahlen werden benutzt um den Zusammenhang zwischen den Ergebnissen einer Maßzahl zu beschreiben, welche zu verschiedenen Zeitpunkten während der zeitlichen Entwicklung einer Grundgesamtheit gemessen wird. Das am besten bekannte Beispiel für eine Indexzahl ist wohl der deutsche Aktien Index, kurz: DAX, welcher eine Maßzahl für die Entwicklung des gesamten deutschen Aktienmarktes sein soll.

Einfache Indexzahlen beschreiben den Zusammenhang zwischen Ergebnissen einer Maßzahl gemessen zu verschiedenen Zeitpunkten (Berichtsperioden) t1 , t2 , ..., tn der Entwicklung der Grundgesamtheit. Es liegen dann n Werte der Maßzahl xt1 , xt2 , ..., xtn für die n Berichtsperioden vor. Setzt man diese in Bezug zum Wert der Maßzahl xt0 in der Basisperiode t0 erhält man eine Zeitreihe von Indexzahlen xt I0t = . xt Dabei wird die Indexzahl normalerweise in Prozent angegeben: I0t =

xt · 100% xt

Beispiele für einfache Indexzahlen sind:

-61-


Theorie

uniseminar.eu

• Preisindex: P0t =

pt p0

wobei pt den Preis eines bestimmten Produkts oder einer Dienstleistung zur Berichtsperiode t bezeichnet. • Quantität- oder Mengenindex: Q0t =

qt q0

wobei qt die produzierte oder verkaufte Menge eines bestimmten Produktsoder einer Dienstleistung zur Berichtsperiode ti bezeichnet. Durch den Bezug auf die Basisperiode wird eine Zeitreihe von Messungen sozusagen ’normiert’ um die Messreihe aussagekräftiger zu machen. Bei längeren Zeitreihen kann es unter Umständen Sinn machen die Basisperiode zu wechseln. Dies ist der Fall wenn sogenannte Strukturbrüche (z.B. Krisen, Kriege, Naturkatastrophen etc.) vorliegen. Legt man die neue Basisperiode k mit k > 0 fest, so bekommt man für die Indexzahl Ikt : xt · x= I0t xt = = Ikt = xk x0 · xk I0k was sich auch durch die folgende Verkettungsregel ausdrücken lässt: I0t = I0k · Ikt Als Beispiel betrachten wir die zeitliche Entwicklung der PKW Produktion bei einem Münchner Automobilkonzern wobei als Basisperiode das Jahr 2004 zu Grunde gelegt wird: t 2004 2005 2006 2007 2008 2009

qti 1208732 1327992 1344190 1541503 1439918 1286310

Q2004,t 1.00000 1.09867 1.11207 1.27531 1.19126 1.06418

Legt man nun das Jahr 2007 als neue Basisperiode fest um der Weltwirtschaftskrise Rechnung zu tragen, bekommt man folgende Situation t 2007 2008 2009

qti Q2007,t 1541503 1.00000 1439918 0.9341 1286310 0.834452

Die Verkettungsregel liefert : Q2004,2009 = Q2004,2007 · Q2007,2009 = 1.27531 · 0.834452 = 1.06418 -62-


Theorie

5.3

uniseminar.eu

Preisindizes

Hat man gleichartige Indexreihen für n verschiedene Produkte oder Dienstleistungen zur Verfügung, lassen sich diese auch zu sogenannten zusammengesetzten Indexzahlen kombinieren. Die Zusammenfassung dieser n Güter nennt man auch Warenkorb. Hat man nun n Güter für einen Warenkorb ausgewählt, dann bezeichnet • p00 = (p0 (1, ..., p0 (n))) den Vektor der Preise der Güter des Warenkorbs in der Basisperiode • p0t = (pt (1, ..., pt (n))) den Vektor der Preise der Güter des Warenkorbs in der Berichtsperiode • q00 = (q0 (1, ..., q0 (n))) den Vektor der produzierten oder konsumierten Menge der Güter des Warenkorbs in der Basisperiode • p00 = (p0 (1, ..., p0 (n))) den Vektor der produzierten oder konsumierten Menge der Güter des Warenkorbs des Warenkorbs in der Berichtsperiode Die einfachste zusammengesetzte Indexzahl die sich aus diesen Vektoren konstruieren lässt, ist das arithmetische Mittel der einfachen Preis- bzw. Mengenindizes in der Periode t bzw. 0: n

P0t =

1X p pt (i) p I0t (i), mit I0t (i) = n i=1 p0 (i)

Das Problem hierbei ist, dass die Güter im Warenkorb nicht gewichtet werden (z.B. mit der Absatzmenge, etc.). Aus diesem Grund geht man dazu über gewichtete arithmetische Mittel als Preisindizes zu benutzen. Allgemein hat ein gewichteter Preisindex die Form: P0t =

pt (1) w(1) p0 (1)

+ ... +

pt (n) w(n) p0 (n)

w(1) + ... + w(n)

welche man durch Normierung der Gewichte w(i) → w(i): ˜ w(i) w(i) ˜ = Pn j=1 w(j) auf die alternative Form p p (1)w(1) ˜ + ... + I0t (n)w(n) ˜ P0t = I0t

bringen kann. Hierbei gilt, dass n X

w(j) ˜ = 1.

j=1

Einfach gesprochen berechnet man den zusammengesetzten Preisindex als gewichtete Summe der einfachen Preisindizes, wobei die Gewichte kleiner als 1 sind und sich zu 1 bzw. 100% aufsummieren. Für die Wahl der Gewichte w(i) stehen jedoch unterschiedliche Methoden zur Verfügung.

-63-


Extras

Prüfungen

Übungen

Aufgaben

A


Aufgaben Statistik 1 Sommersemester 2012

M端nchen, April 2012


Inhaltsverzeichnis 1 Aufgaben 1.1 Lage- und Streuungsmaße, Histogramm und empirische Verteilungsfunktion 1.2 Boxplot, Konzentrationsmaße und Lorenzkurve . . . . . . . . . . . . . . . . 1.3 Wachstumsprozesse und geometrisches Mittel . . . . . . . . . . . . . . . . 1.4 Kontingenztafel, Odds-ratio und Korrelation . . . . . . . . . . . . . . . . . 1.5 Korrelationskoeffizient, Regression und Zeitreihen . . . . . . . . . . . . . . 1.6 Preis- und Mengenindizes . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . .

. . . . . .

. . . . . .

1 1 5 8 9 11 13

2 Lösungen 2.1 Lage- und Streuungsmaße, Histogramm und empirische Verteilungsfunktion 2.2 Boxplot, Konzentrationsmaße und Lorenzkurve . . . . . . . . . . . . . . . . 2.3 Wachstumsprozesse und geometrisches Mittel . . . . . . . . . . . . . . . . 2.4 Kontingenztafel, Odds-Ratio und Korrelation . . . . . . . . . . . . . . . . . 2.5 Korrelationskoeffizient, Regression und Zeitreihen . . . . . . . . . . . . . . 2.6 Preis- und Mengenindizes . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . .

. . . . . .

. . . . . .

15 15 22 28 30 34 40


Lösungen

2

uniseminar.eu

Lösungen

2.1

Lage- und Streuungsmaße, Histogramm und empirische Verteilungsfunktion

Aufgabe 1 Um welche Art von Merkmalen handelt es sich? Auf welchen Skalen werden Sie gemessen?

1. Studienfach: Bei der Wahl des Studienfaches handelt es sich um ein qualitatives Merkmal, welches auf einer Nominalskala gemessen wird. Begründung: Wie die Augenfarbe ist das Studienfach keine Sache die man messen und eine Zahl zuordnen kann. Deshalb ist es ein qualitatives Merkmal. Ebenso kann man das Studienfach nicht nach der Grösse oder Intensität ordnen. Deshalb wird es auf einer Nominalskala ’gemessen’.

2. Mathematiknote: Bei der Note in Mathematik handelt es sich um ein qualitatives Merkmal, welches auf einer Ordinalskala gemessen wird. Begründung: Obwohl Noten zwar in ’Zahlen’ angegeben werden, macht die Frage ’wie viel’ keinen Sinn, da Noten nur eine Rangordnung von Leistungen angeben. Sie lassen sich also nach ihrer ’Intensität’ ordnen (1, 2, 3, 4, 5, 6) ⇒ Ordinalskala. 3. Einkommen: Beim Einkommen handelt es sich um ein quantitatives, stetiges Merkmal, welches auf einer Ratioskala gemessen wird. Begründung: Das jährliche Einkommen kann gemessen werden (⇒ quantitativ) und kann theoretisch jeden Wert zwischen 0 und ∞ annehmen (⇒ stetig). Aus diesen Gründen wird es auf einer Ratio- bzw. Verhältnisskala gemessen.

-15-


Lösungen

uniseminar.eu

Gibt es Lage- und Streuungsmaße durch die sich die Verteilungen der Merkmalsausprägungen geeignet charakterisieren lassen?

1. Studienfach: Da dieses Merkmal auf einer Nominalskala gemessen wird, macht als Lagemaß einzig der Modus (häufigste Wert) Sinn, weil man bei einem nominalskalierten Merkmal keine Ordnung, die Grundlage für die Quantile aufstellen kann. Auch die Bildung von Mittelwerten hat hier natürlich keine Bedeutung. Der Modus der Verteilung ist: x1 = ’BWL’ mit absoluter Häufigkeit n1 = 5. Für nominal skalierte Merkmale existieren keine geeigneten Streuungsmaße. 2. Mathematiknote: Da die Mathematiknote ein ordinales Merkmal ist, lässt sich neben dem Modus auch der Median (das 50% − Quantil) als Lagemaß benutzen. Das bedeutet dass 50% der Merkmalsausprägungen kleiner oder gleich dem Median x˜0.5 sind. Dazu ordnet man die Merkmalsausprägungen der Grösse nach (Ordnungsstatistik): x(1) = 1, x(2) = 1, x(3) = 2, x(4) = 2, x(5) = 3, x(6) = 3, x(7) = 3, x(8) = 4, x(9) = 5, x(10) = 5, Für eine Gerade Anzahl an Ausprägungen n = 10 ist der Median gegeben durch: 3+3 1 =3 x˜ = (xn/2 + xn/2+1 ) = 2 2 Natürlich könnte man als Lagemaß anstatt des Medians auch andere α−Quantile angeben. Als Streuungsmaß für ein ordinales Merkmal bietet sich der Quartilabstand, IQR = x˜0.75 − x˜0.25 oder die Mittlere P absolute Abweichung vom Median (siehe Formelsammlung Seite 2 links) d = n1 ni=1 |x(i) − x˜0.5 | an. Berechnen wir zuerst das obere und untere Quartil aus der Ordnungsstatistik:

Für α ∈ [0, 1] ist das α-Quantil allgemein gegeben durch: x˜α = xk falls α · n keine ganze Zahl ist wobei k dann die kleinste ganze Zahl ist, die grösser ist als n · α. Für das obere Quartil haben wir: 0.75 · 10 = 7.5 und deshalb x˜0.75 = x(8) = 4. Für das untere Quartil haben wir 0.25 · 10 = 2.5 und deshalb x˜0.25 = x(3) = 2. Der Quartilabstand ist dann gegeben durch IQR = 4 − 2 = 2. Für das zweite erwähnte Streuungsmaß bekommt man (mit x˜0.5 = 3): d=

1 11 (2 + 2 + 1 + 1 + 0 + 0 + 0 + 1 + 2 + 2) = 10 10

-16-


Lösungen

uniseminar.eu

3. Einkommen: Da es sich beim Einkommen um ein stetiges Merkmal handelt, macht wohl der Mittelwert als Lagemaß und die Standardabweichung als Streuungsmaß am meisten Sinn. Wir bekommen: x¯ =

1 (10 + 25 + 13 + 18 + 8 + 22 + 14 + 16 + 15 + 9) · 1000 = 15000 10

und für die Standardabweichung: v u 10 u1 X t σ= (xi − 15000)2 = 5234.5 10 i=1 Welche graphischen Darstellungen eignen sich zur Beschreibung der drei Verteilungen? Begründen sie Ihre Auswahl! 1. Studienfach: Da es sich hier um ein qualitatives Merkmal handelt, eignet sich das Balken-, bzw. Säulendiagramm sowie das Tortendiagramm. 2. Note: Da wir bereits den Median und die Quartile ausgerechnet haben, würde sich der Boxplot anbieten. 3. Einkommen: Obwohl n = 10 ein bisschen wenig Beobachtungen dafür sind, ist das Histogramm normalerweise die Graphik für metrisch skalierte Merkmale. Auch der Boxplot wäre eine Möglichkeit.

-17-


Lösungen

uniseminar.eu

Wie gross ist der Anteil der Personen, die mindestens 10000.- Euro und höchstens 15000.- Euro zur Verfügung haben? Mit einem Einkommen zwischen 10000.- Euro und 15000.- finden sich 4 Studenten. Der Anteil ist also 4/10 = 2/5 = 40%. Das Merkmal ’Einkommen’ lässt sich in drei Klassen einteilen: - Klasse 1: [0, 10000) - Klasse 2: [10000, 20000) - Klasse 3: [20000, ∞) Wie lautet die Antwort zur Frage 4 für die klassierten Daten? Für klassierte Daten benötigt man die empirische Verteilungsfunktion:  0, falls x < e0  F (ei−1 ) + x−edii−1 ri , falls x ∈ [ei−1 , ei ) F (x) =  1 falls x ≥ ek wobei bei uns k = 3, ei die Klassengrenzen, di die Klassenbreiten und ri die relativen Klassenhäufigkeiten bezeichnet. Für diese Grössen haben wir: e0 = 0, e1 = 10000, e2 = 20000, e3 = ∞, d1 = 10000, d2 = 10000, d3 = inf ty sowie

6 2 2 = 0.2, r2 = = 0.6, r3 = = 0.2 10 10 10 Der Anteil an Studenten, die zwischen 10000.− und 15000.− Euro zur Verfügung haben, ist gegeben durch: r1 =

F (x = 15000)−F (x = 10000) = (F (e1 )+

15000 − e1 15000 − 10000 ·0.6)−F (e1 ) = ·0.6 = 0.5·0.6 = 0.3 10000 10000

-18-


Lösungen

uniseminar.eu

Aufgabe 2 Was entspricht in einem Histogramm der relativen Häufigkeit einer Klasse? Wie gross ist die Fläche des Histogramms? In einem Histogramm ist die Fläche der jeweiligen Balken gleich der relativen Häufigkeit der zugehörigen Klasse. Dies hat zur Folge, dass die Fläche des gesamten Histogramms gleich 1 ist. Deshalb nennt man das Histogramm auch eine empirische Wahrscheinlichkeitsverteilung. Die relativen Klassenhäufigkeiten geben die empirischen Wahrscheinlichkeiten dafür an, dass eine Merkmalsausprägung innerhalb einer Klasse liegt und die Gesamtwahrscheinlichkeit ist gleich 1.

Bestimmen Sie die relativen Häufigkeiten der einzelnen Klassen! Es gilt also für die relativen Klassenäufigkeiten ri : ri = Höhe · Breite = hi · di Man bekommt also: r1 = h1 · d1 = 0.5 · 0.3 = 0.15 r2 = h2 · d2 = 0.5 · 0.3 = 0.15 r3 = h3 · d3 = 0.5 · 0.6 = 0.3 r4 = h4 · d4 = 0.5 · 0.45 = 0.225 r5 = h5 · d5 = 0.5 · 0.35 = 0.175

Wie gross sind die absoluten Klassenhäufigkeiten wenn der Stichprobenumfang gleich 4000 ist? Die absoluten Klassenhäufigkeiten ni erhält man indem man die relativen Häufigkeiten ri mit dem Stichprobenumfang n multipliziert: n1 = 4500 · r1 = 4000 · 0.15 = 600 n2 = 4500 · r2 = 4000 · 0.15 = 600 n3 = 4500 · r3 = 4000 · 0.30 = 1200 n4 = 4500 · r4 = 4000 · 0.225 = 900 n5 = 4500 · r5 = 4000 · 0.175 = 700 Aufgabe 3 Berechnen und zeichnen sie die empirische Verteilungsfunktion F (x).

-19-


Lösungen

uniseminar.eu Klassennummer i 1 2 3 4 5

Klasse absolute Häufigkeit ni [0,20) 75 [20,40) 23 [40,60) 7 [60,80) 34 [80,100] 61

Die empirische Verteilungsfunktion ist für klassierte  0,  F (ei−1 ) + x−edii−1 ri , F (x) =  1

stetige Merkmale definiert durch: falls x < e0 falls x ∈ [ei−1 , ei ) falls x ≥ ek

Um diese nun zu zeichnen, berechnet man den Wert von F (x) an den Klassengrenzen, zeichnet diese Punkte in ein Koordinatensystem ein und verbindet sie mit Strecken. Es entsteht eine stückweise lineare Funktion, ein sogenannter Polygonzug. Die Werte an den Klassengrenzen sind gegeben durch: F (0) = 0 75 = 0.375 F (20) = r1 = 200 F (40) = r1 + r2 = 75+23 = 0.49 200 75+23+7 F (60) = r1 + r2 + r3 = 200 = 0.525 F (80) = r1 + r2 + r3 + r4 = 75+23+7+34 = 0.695 200 F (100) = 1 Nun lässt sich F (x) zeichnen:

FHxL 1.0 0.8 0.6 0.4 0.2 Punkte 20

40

60

-20-

80

100


Lösungen

uniseminar.eu

Berechnen Sie das arithmetische Mittel.

Für klassierte Daten berechnet man das arithmetische Mittel wie folgt: k

x¯ =

k

X 1X n i · ai = ri · mi , n i=1 i=1

wobei ai die Klassenmitte (also ai = ei−1 · unsere Verteilung bekommen wir also:

di ) 2

bezeichnet und k die Anzahl an Klassen. Für

x¯ = 0.375 · 10 + 0.115 · 30 + 0.035 · 50 + 0.17 · 70 + 0.305 · 90 = 48.3 Berechnen Sie die Varianz. Für klassierte Daten ist die Varianz gegeben durch: V ar(x) = σ 2 =

k k 1 X 2 1X (ai − x¯)2 ni = ( a ni − x¯n) n i=1 n i=1 i

In unserem Fall bekommen wir für die Varianz: k 5 1 X 2 1 X 2 ( a ni − x¯n) = ( a ni − 48.32 · 200) = n i=1 i 200 i=1 i

= 1/200 · ((102 · 75 + 302 · 23 + 502 · 7 + 702 · 34 + 902 · 61) − 200 · 48.32 ) = 1199.11

Welcher Anteil an Studienteilnehmern würde den Miesbacher Bauernkäse wahrscheinlich nicht kaufen, (< 50 Punkte) aber dennoch essen (> 20Punkte)? Der gesuchte Anteil H(20 < x < 50) lässt sich über die empirische Verteilungsfunktion berechnen: H(20 < x < 50) = F (50) − F (20) = (F (40) +

50 − 40 7 ) − F (20) = 20 200

= (0.49 + 0.5 · 0.035) − 0.375 = 0.1325 Also würden 13.25% den Käse zwar essen, jedoch nicht kaufen.

-21-


Extras

Prüfungen

Übungen

Ü


Ă&#x153;bungen Statistik 1 Sommersemester 2012

MĂźnchen, April 2012


Inhaltsverzeichnis 1

Übungsblatt 1

1

2

Übungsblatt 2

5

3

Übungsblatt 3

11

4

Übungsblatt 4

17

5

Übungsblatt 5

22

6

Übungsblatt 6

31

7

Übungsblatt 7

38

8

Übungsblatt 8

43

9

Übungsbaltt 9

48

10 Übungsblatt 10

55

11 Übungsblatt 11

60

12 Übungsblatt 12

65


Übungen

2

uniseminar.eu

Übungsblatt 2

In diesem Übungsblatt geht es um die graphische Darstellung von Daten, sowie um die Einteilung von Daten in Klassen und das Erstellen von Histogrammen und der empirischen Verteilungsfunktion. Besonders die Aufgaben zu den Histogrammen und der Verteilungsfunktion sind prüfungsrelevant.

Aufgabe 1 Bei der Landtagswahl in Bayern 2008 ergab sich folgende Sitzverteilung für den Landtag: Partei CSU SPD Freie Wähler Grüne FDP

Anzahl Sitze 92 39 21 19 16

Zeichnen Sie zu diesen Daten ein Balken- sowie Kreisdiagramm. Erläutern Sie dabei die korrekte Berechnung für das Kreisdiagramm.

Lösung:

Balkendiagramm: Für das Balkendiagramm eignet sich die Prozent-skalierung. Dazu teilen wir die Anzahl Sitze von Partei i, ni durch die Gesamtanzahl Sitze n = 187 und erhalten die relativen Häugkeiten ri = nni : CSU: r1 = 0.492 = 49.2% SPD: r2 = 0.209 = 20.9% Freie: r3 = 0.112 = 11.2% Grüne: r4 = 0.102 = 10.2% FDP: r5 = 0.086 = 8.6% Man erhält das folgende Balkendiagramm: 0.5 92

0.4

0.3

0.2

39

0.1

21 19 16

CSU

SPD

Freie Wä hler

-5-

Grüne

FDP


Übungen

uniseminar.eu

Kreisdiagramm: Für das Kreisdiagramm müssen wir berechnen wie viel Grad einem Prozent entsprechen. Der ganze Kreis hat 360◦ . Also entspricht 100 Prozent 360◦ . Daraus schliesen wir, dass 1 Prozent 3.6◦ entspricht. Somit erhalten wir die folgenden Entsprechungen:

r1 = 0.492 → α1 = 49.2 · 3.6◦ = 177.12◦ r2 = 0.209 → α2 = 20.9 · 3.6◦ = 75.24◦ r3 = 0.112 → α3 = 11.2 · 3.6◦ = 40.32◦ r4 = 0.102 → α4 = 10.2 · 3.6◦ = 36.72◦ r5 = 0.086 → α5 = 8.6 · 3.6◦ = 30.96◦ und damit das folgende Kreisdiagramm:

CSU

FDP

SPD Grüne

Freie Wä hler

Aufgabe 2 Bei einer Schulklasse bestehend aus 10 Kindern wurden im Sportunterricht beim Weitsprung folgende Weiten notiert (in m gemessen): 2.76, 3.21, 2.65, 2.40, 2.83, 1.98, 2.20, 3.08, 2.60, 2.55 a) Wie ist das hier betrachtete Merkmal skaliert und warum? b) Zeichnen Sie die empirische Verteilungsfunktion. Die Daten werden nun auf folgende Weise in Klassen eingeteilt:

[1.0, 2.0], (2.0, 2.4], (2.4, 2.8], (2.8, 3.1], (3.1, 3.3]

-6-


Übungen

uniseminar.eu

c) Erstellen Sie für diese Klasseneinteilung eine Häugkeitstabelle für die absoluten Häugkeiten. d) Zeichnen Sie fÜr diese Klasseneinteilung das Histogramm! Erläutern Sie dabei das Prinzip der Flächentreue beim Histogramm! Worin unterscheiden sich Säulendiagramme und Histogramme?

Lösung:

Aufgabe 2.a): Das Merkmal X hat eine metrische Skala, einen natürlichen Nullpunkt und eine feste Einheit (Meter). Deshalb handelt es sich hier um eine Absolutskala (siehe Theorie 2.1). Aufgabe 2.b): Da jede Merkmalsausprägung xi nur einmal vorkommt hat jede die relative Häugkeit

ri =

1 . 10

Wir ordnen jetzt die Ausprägungen der Grösse nach (→ Ordnungsstatistik x(i) )

1.98, 2.20, 2.40, 2.55, 2.60, 2.65, 2.76, 2.83, 3.08, 3.21 und berechnen die kumulierten relativen Häugkeiten

ki =

n X

r(i)

j=1

Da ja jede Ausprägung nur einmal vorkommt, sind diese natürlich gegeben durch:

k1 =

1 10

k2 =

2 10

k3 =

3 10

...

k10 =

10 10

=1

-7-


Übungen

uniseminar.eu

Nun können wir die empirische Verteilungsfunktion F (x) zeichnen in dem wir die Punkte (x(i) , ki ) in ein Koordinatensystem eintragen und dann eine 'Treppenfunktion' zeichnen: 1.0

0.8

0.6

0.4

0.2

1.5

2.0

2.5

3.0

3.5

4.0

Aufgabe 2.c) Zum erstellen der Häugkeitstabelle müssen wir einfach zählen wie viele Beobachtungen in die jeweilige Klasse fallen. Die Intervallschreibweise [a, b) bedeutet, dass die Klassengrenze a noch in der Klasse liegt, b jedoch nicht. Wir erhalten also die folgende Tabelle: Klasse absolute Häugkeit ni [1.0, 2.0] 1 (2.0, 2.4] 2 (2.4, 2.8] 4 (2.8, 3.1] 2 (3.1, 3.3] 1

relative Häugkeit ri 0.1 0.2 0.4 0.2 0.1

wobei die relativen Häugkeiten gegeben sind durch ri = n = 10.

ni , n

mit der Gesamtanzahl an Kindern

Aufgabe 2.d) Um ein Histogramm zu zeichnen, trägt man auf der x-Achse (Abszisse) die Skala des Merkmals (Meter) ab und markiert die Klassen. Die Höhe der Histogrammbalken kann man nun aus den relativen Häugkeiten ri und den Klassenbreiten di berechnen. Da die Fläche (Höhe mal Breite) der Histogrammbalken gleich der relativen Häugkeit der zugehörigen Klasse ist, gilt für die Höhe hi der Klasse i: ri ( ⇐⇒ hi · di = ri ) hi = di Wir erhalten also: h1 = 0.1/1.0 = 0.1 h2 = 0.2/0.4 = 0.5 h3 = 0.4/0.4 = 1.0 h4 = 0.2/0.3 = 0.67 h5 = 0.1/0.2 = 0.5

-8-


Übungen

uniseminar.eu

Nun lässt sich das Histogramm zeichnen:

1.2 1.0 0.8 0.6 0.4 0.2

0.5

1.0

1.5

2.0

2.5

3.0

Unter der Flächentreue vesteht man, dass die Gesamtäche des Histogramms stets gleich 1 ist, egal wie man die Klassen wählt. Bei einem Säulen- bzw. Balkendiagramm ist nicht die Fläche des Balkens einer Klasse gleich der relativen Häugkeit der Klasse sondern die Höhe des Balkens. Es gilt also:

• Histogramm: hj =

rj dj

• Balkendiagramm: hj = rj Beim Balkendiagramm gilt somit die Flächentreue nicht.

Aufgabe 3 In einer Studie wird neben weiteren Merkmalen auch die Körpergröÿe der untersuchten Probanden erhoben. Dabei werden für die an der Studie beteiligten Frauen folgende Körpergröÿen (in cm) gemessen: 168, 160, 169, 159, 162, 160, 177, 160, 164, 165, 169, 165, 169, 164, 164, 171, 173, 166, 166, 169 Für die an der Studie beteiligten Männer misst man folgende Körpergröÿen (in cm): 177, 182, 177, 182, 179, 181, 179, 183, 189, 180, 184, 181, 185, 199, 183, 180, 180, 184, 187, 179 Zeichnen Sie ein Stamm-Blatt-Diagramm aller 40 beobachteten Werte! Was fällt Ihnen dabei auf?

-9-


Extras

Pr端fungen

P


Pr端fungen Statistik 1 Sommersemester 2012

M端nchen, April 2012


Inhaltsverzeichnis 1 Übungsklausur LMU 2009/2010 1.1 Angabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Lösung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1 1 6

2 Klausur zur Vorlesung ’Einführung in die deskriptive Statistik’ (WS 07/08) 17 2.1 Angabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2 Lösung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3 Einstündige Klausur Statistik 1 für Wirtschaftswissenschaftler August 2007 31 3.1 Angabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.2 Lösung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4 Einstündige Klausur Statistik 1 für Wirtschaftswissenschaftler August 2006 43 4.1 Angabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 4.2 Lösung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 5 Übungsklausur von Uniseminar.eu 57 5.1 Angabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 5.2 Lösung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61


Prüfungen

1.2

uniseminar.eu

Lösung

Aufgabe 1 Beantworten Sie folgende Fragen mit richtig oder falsch: 1. Die Rechtsecksflächen im Histogramm sind stets proportional zu den relativen Häufigkeiten. 2. Bei gleitenden Durchschnitten ungerader Ordnung gehen die Randwerte nur mit halbem Gewicht ein. 3. Der Kontingenzkoeffizient ist eine geiegnete Masszahl um Stärke und Richtung eines Zusammenhangs zu beschreiben. 4. Ein Paasche-Index von P0tP = 1.47 bedeutet, dass die Ausgaben für den Warenkorb qt der Berichtsperiode um 47 Prozent gestiegen sind. 5. Im linearen Regressionsmodell ist die Summe der geschätzten Residuen gleich null.

Lösung: 1. Richtig. Im Histogramm (siehe Theorie 2.3.3) werden die Daten eines metrisch skalierten Merkmals in Klassen eingeteilt. Die Fläche des Rechtecks einer Klasse entspricht der relativen Häufigkeit der Klasse. 2. Falsch. Bei gleitenden Durchschnitten ungerader Ordnung (siehe Formelsammlung, letzte Seite) gehen die Randwerte xt−k und xt+k ebenfalls mit vollem Gewicht ein. Bei gerader Ordnung wäre die Aussage richtig. 3. Falsch. Der Kontingenzkoeffizient macht nur eine Aussage über die Stärke eines Zusammenhangs jedoch nicht über die Richtung (er ist immer positiv). 4. Richtig. Der Paasche-Index (siehe Formelsammlung 5.3.2) ist der Quotient aus dem Preis eines Warenkorbes in der Zusammensetzung des Berichtsjahres zu Preisen des Berichtsjahres und dem Preis des gleichen Warenkorbes zu Preisen des Basisjahres. Dieser Quotient ist nun gleich 1.47, was bedeutet, dass die Ausgaben um 47 Prozent gestiegen sind. 5. Richtig, (siehe Formelsammlung Seite 5, links)

-6-


Prüfungen

uniseminar.eu

Aufgabe 2 Eine Erhebung bei den Bibliotheken von 12 Universitäten ergab folgende wöchentlichen Öffnungszeiten (in Stunden): 87, 78, 93, 111, 90, 92, 104, 69, 80, 88, 77, 91

a) Berechnen Sie die fünf Kenngrössen die für einen Boxplot notwendig sind!

Lösung:

In einem Boxplot (siehe Theorie Kapitel 3.1.4) entspricht die Box dem Bereich, in dem die mittleren 50 Prozent der Daten liegen. Sie wird also durch das obere und das untere Quartil (siehe Theorie 3.1.3) begrenzt. Der Median wird als durchgehender Strich in der Box eingezeichnet. Zusätzlich benötigen wir den kleinsten und grössten Wert des Merkmals. Diese werden als sogenannte ’Whisker’ in den Boxplot eingezeichnet, sofern sie nicht mehr als 1.5 Boxlängen von der Box entfernt sind. Im ersten Schritt sortieren wir die Daten der Grösse nach: 69, 77, 78, 80, 88, 87, 90, 91, 92, 93, 104, 111 Für den Boxplot benötigen wir nun die folgenden Kenngrössen: • xmin = x1 = 69, • Unteres Quartil (siehe Formelsammlung Seite 1, links): 1 1 1 x˜0.25 = (x0.25·n + x0.25·n+1 ) = (x3 + x4 ) = (78 + 80) = 79, 2 2 2 wobei n = 12 und sich der Index in xi auf die Position der geordneten Daten bezieht. • Median: x˜0.5 =

1 1 1 (x0.5·n + x0.5·n+1 ) = (x6 + x7 ) = (88 + 90) = 89, 2 2 2

• Oberes Quartil:

x˜0.75 =

1 1 1 (x0.75·n + x0.75·n+1 ) = (x9 + x10 ) = (92 + 93) = 92.5, 2 2 2

• xmax = x12 = 111, Bemerkung: Vergleiche die Formeln für Median und α-Quantile; Fallunterscheidungen in n!

-7-


Prüfungen

uniseminar.eu

b) Berechnen Sie die Varianz der Daten!

Lösung: Die Varianz einer endlichen (n < ∞) Verteilung ist definiert als: n

σ2 =

1X (xi − x¯)2 , n i=1

wobei x¯ das arithmetische Mittel bezeichnet. Wir gehen nun wie folgt vor: Schritt 1: Berechne das arithmetische Mittel x¯ =

N 1 X 1 xi = (69 + 77 + 78 + 80 + 88 + 87 + 90 + 91 + 92 + 93 + 104 + 111) = 88.33 N i=1 12

Schritt 2: Berechne nun die Varianz N

1 X 1 σ = (xi − x¯)2 = ((69 − 88.33)2 + ... + (111 − 88.33))2 = 123.722 12 i=1 12 2

-8-


Prüfungen

uniseminar.eu

Aufgabe 3 In einem Betrieb wurden 216 Personen danach gefragt, ob sie eine positive Einschätzung (+) oder eine negative Einschätzung (-) zum Betriebsklima in ihrem Betrieb haben. Von den 135 Befragten, die eine positive Einschätzung besitzen, sind 55 männlich. Von den restlichen Befragten, die eine negative Einschätzung besitzen, sind 32 weiblich. a) Vervollständigen Sie die folgende Kontingenztafel: Männer

Frauen

P

+ -P Lösung: Schritt 1: Trage die bekannten Grössen in die Tafel ein

+ -P

Männer 55

Frauen

P 135

32 216

Schritt 2: Berechne die restlichen Felder Männer + 55 -P 49 104

Frauen 80 32 112

P 135 81 216

wobei zuerst das Feld positiv, weiblich aus 135−55 = 80 berechnet wird, dann das Feld negativ, männlich aus 216 − 55 − 80 − 32 = 49 usw. b) Berechnen Sie den Odds-Ratio:

Lösung: Den Odds-Ratio (siehe Theorie 3.4.2) berechnen wir aus der Kontingenztafel wie folgt : OR =

a·d 55 · 32 = = 0.449. b·c 80 · 49

Interpretation des Odds-Ratio: Es besteht (in der gegebenen Anordnung der Merkmale) ein negativer Zusammenhnag zwischen ’Geschlecht’ und ’Einschätzung des Betriebsklimas’

-9-


Prüfungen

uniseminar.eu

c) Berechnen sie die χ2 -Statistik und den korrigierten Kontingenzkoeffizienten. Interpretieren sie beide anschliessend.

Lösung: Die χ2 -Statistik (siehe Theorie 3.4.2) lässt sich auf zwei Möglichkeiten berechnen: 1. Möglichkeit: Wir benutzen die einfachere Formel für die χ2 -Statistik für 2x2 Kontingenztafeln (siehe Formelsammlung Seite 4, links ): χ2 =

n(ad − bc)2 216(55 · 32 − 80 · 49)2 = = 7.91, (a + b)(c + d)(a + c)(b + d) (55 + 80)(49 + 32)(55 + 49)(80 + 32)

wobei n die Anzahl von Personen (Untersuchungseinheiten) bezeichnet. 2.Möglichkeit: Es ist auch möglich die allgemeine Formel für die χ2 -Statistik einer (k,l) Kontingenztafel (siehe Formelsammlung Seite 4, links) zu benutzen. Da diese jedoch ein wenig aufwendiger ist , wird sie für eine (2,2) Kontingenztafel wie in unserem Fall nicht empfohlen. Der korrigierte Kontingenzkoeffizient ist definiert als: s s r r min(k, l) χ2 2 7.91 Ckorr = · = · = 0.27, min(k, l) − 1 χ2 + n 2−1 7.91 + 216 wobei k die Anzahl der Zeilen und l die Anzahl der Spalten der Kontingenztafel bezeichnet. Interpretation: Für die Interpretation der beiden Masszahlen benötigen wir deren Wertebereich. Für Ckorr gilt: Ckorr ∈ [0, 1] und für χ2 : χ2 ∈ [0, χ2max ], wobei χ2max = n(min(k, l) − 1) = 216 · (2 − 1) = 216. Daraus lässt sich folgern dass ein schwacher bis mittlerer Zusammenhang vorliegt. d) Ändert sich das Ergebnis von Aufgaben b) wenn alle Einträge nij der Kontingenztafel mit 2 multipliziert werden?

Lösung: Nein, da im Odds-Ration OR = 2a·2d sowohl Nenner als auch Zähler mit 4 multipliziert werden. 2b·2c Somit ändert sich am Odds-Ratio nichts (Kürzen!).

-10-


Prüfungen

uniseminar.eu

Aufgabe 4 Vier Personen gründen eine GmbH mit folgenden Einlagen: 1 2 3 4 Person Einlage in 100 Euro 80 1030 470 222

a) Berechnen und skizzieren Sie die Lorenzkurve!

Lösung: Für die Lorenzkurve (siehe Theorie 3.3.1) müssen wir die Einlagen der Grösse nach ordnen. Dann berechnen wir die relativen Einlagen der Partner und daraus die kumulierte Einlage. Um die relativen Einlagen zu berechnen, brauchen wir noch die Gesamteinlage xg = (80 + 222 + 470 + 1030) = 1802. Die relativen Einlagen sind dann gegeben durch: Ri = erstellen: i Einlage xi Anteil an Personen kumulierter Anteil ui relative Einlage Ri kumulierte rel. Einlage vi

xi . xg

1 80 1/4 1/4 0.044 0.044

Es lässt sich nun die folgende Tabelle

2 222 1/4 2/4 0.123 0.167

3 470 1/4 3/4 0.261 0.428

4 1030 1/4 1 0.572 1

wobei bis auf drei Nachkommastellen gerundet wurde. Die Lorenzkurve lässt sich nun zeichnen indem man die Wertepaare (ui , vi ) in ein Koordinatensystem einträgt und die Punkte mit geraden Strichen verbindet. 1.0

æ à

0.8

v_i

0.6

æ

0.4

0.2 æ

æ

0.0

æ à 0.0

0.2

0.4

0.6 u_i

Abbildung 2: Lorenzkurve

-11-

0.8

1.0


Prüfungen

uniseminar.eu

b) Berechnen Sie die Konzentration mit Hilfe des normierten Gini-Koeffizienten! Lösung: Der nicht normierte Gini-Koeffizient (siehe Theorie 3.3.2 und Formelsammlung Seite 3, rechts) ist definiert als: n

1 1X (vi−1 +vi ) = 1− ((0+0.044)+(0.044+0.167)+(0.167+0.428)+(0.428+1)) = 0.43 G = 1− n i=1 4 wobei v0 = 0. Der normierte Gini-Koeffizient berechnet sich daraus über: G+ =

4 n G = · 0.43 = 0.57 n−1 3

c) Ändert sich G+ wenn jeder der Freunde nur die Hälfte an Einlagen tätigt? Die Antwort muss begründet werden! Lösung: Nein, da sich G+ aus den (kumulierten) relativen Einlagen berechnet und diese bei Halbierung der Einlagen gleich bleiben. Das sieht man sofort an den relativen Einlagen: Ri0 =

1 x 2 i 1 x 2 g

=

-12-

xi = Ri . xg


Extras

E


Formelsammlung Statistik 1 Sommersemester 2012

M端nchen, April 2012


Formelsammlung

1

uniseminar.eu

Empirische Verteilungsfunktion

Diskrete Merkmalsausprägungen ai : X

F (x) =

ri

ai ≤x

gruppiert: F (x) =

 

0, x−e F (ei−1 ) + dii−1 ri ,  1

falls x < e0 falls x ∈ [ei−1 , ei ) falls x ≥ ek

wobei ri die relative Häufigkeit der i-ten Merkmalsausprägung (diskret) oder der i-ten Klasse bezeichnet. ei−1 und ei sind die Grenzen der Klasse Ki und di = ei − ei−1 ist die Breite der Klasse Ki .

2

Lage- und Streuungsmasse

Modalwert Arithmetisches Mittel diskret: x ¯=

x ¯M = ai , genau dann wenn, ni = max(n1 , n2 , ..., nk ) gruppiert: ei−1 + ei 2 wobei ei−1 und ei die Grenzen der Klasse Ki sind für welche gilt ni = max(n1 , n2 , ..., nk )

n 1X xi n i=1

gruppiert:

x ¯M =

x ¯=

k 1X ni · ai , n i=1

wobei ai die Klassenmitte der i-ten Klasse ist.

Median Geometrisches Mittel  x ˜0.5 =

1

x(n/2) , 1 (x(n/2) + x(n/2+1) ) 2

x ¯G = (x1 · x2 · x3 · .... · xn ) n = (

falls n ungerade falls n gerade

n Y

1

xi ) n

i=1

gruppiert:

gruppiert: x ˜0.5 = em−1 +

0.5 −

Pm−1 i=1

ri

rm

x ¯G = (

dm ,

k Y

1

i n an i ) ,

i=1

wobei m die Klasse bezeichnet in der der Median liegt; dm ist die Breite dieser Klasse.

wobei ai die Klassenmitte der i-ten Klasse ist. geometrisches Mittel von Beständen: Bn = B0 · x1 · x2 · ... · xn , xt : Wachstumsfaktoren

α-Quantile

x ˜α =

 x ,   (k)  

1 (x(n/2) 2

+ x(n/2+1) )

Harmonisches Mittel

falls nα keine ganze Zahl. k ist dann die kleinste ganze Zahl grösser als nα falls n gerade

x ¯ H = Pk

ni i=1 xi

gruppiert:

gruppiert: x ˜α = em−1 +

α−

Pm−1 i=1

rm

ri

n

x ¯ H = Pk

n

ni i=1 ai

dm ,

wobei ai die Klassenmitte der i-ten Klasse ist.

wobei m die Klasse bezeichnet in der der das α-Quantil liegt; dm ist die Breite dieser Klasse.

-1-


Formelsammlung

uniseminar.eu

Spannweite, Range R = xmax − xmin

wobei ai die Klassenmitte der i-ten Klasse ist. Allgemein gilt: 2 σ 2 = σ02 + σinnerhalb

Quartilabstand, IQR IQR = x ˜0.75 − x ˜0.25

mit 2 σinnerhalb =

Mittlere absolute Abweichung vom Median d=

1 n

n X

σi2 = |xi − x ˜0.5 |

d=

1 X (xi − x ¯ i )2 ni x ∈K i

i=1

σ02 =

gruppiert: n 1X |ai − x ˜0.5 |ni n i=1

k 1X ni σi2 n i=1

j

k 1X (¯ xi − x ¯)2 n i=1

Standardabweichung

Varianz v u n u1 X σ=t (xi − x ¯)2 n i=1

n n 1X 1 X 2 σ2 = (xi − x ¯ )2 = ( xi − n¯ x2 ) n i=1 n i=1

gruppiert:

Variationskoeffizient

n n 1 X 2 1X (ai − x ¯)2 ni = ( ai ni − n¯ x2 ) σ = n i=1 n i=1 2

v=

-2-

σ x ¯


LMU_HS12_Statistik_Ordner_Issuu  
Read more
Read more
Similar to
Popular now
Just for you