Übungen Overall
Einleitung
Datengrundlage
Der National Health and Nutrition Survey (NHANES) ist ein Studienprogramm zur Erhebung von Gesundheits- und Ernährungsstatus von Erwachsenen und Kindern in den USA. Die Erhebung enthält zahlreiche Daten aus Befragungen und physischen Untersuchungen. Das Vorhaben wird vom National Center for Health Statistics (NCHS) als Teil des Centers for Disease Control and Prevention (CDC) durchgeführt. Das Programm startete in den frühen 1960er Jahren und umfasst Stichproben um die 5000 Personen pro Jahr. Die Daten des laufenden NHANES Programms werden alle zwei Jahre erhoben und reichen zurück bin ins Jahr 1999. Die Datensätze sind frei zugänglich. Aus den Daten gibt es auch Peer-Review Publikationen (z.B. McClure et al. (2020)) welche zur Evidenz im Fachgebiet betragen.
Sinn und Zweck der Uebung
Die Erfahrungen in der Vermittlung von Wissen aus dem Bereich der Statistik zeigen, dass es zugänglicher ist, wenn auch in der Ausbildung mit echten Daten gearbeitet wird. Ebenfalls scheint es wichtig zu sein selbst mit Daten zu arbeiten um einen starken Bezug zur Anwendung zu schaffen und das Wissen zu festigen. Daher werden wir uns nun konkret mit dem Datenauszug 2015-2016 aus der NHANES Erhebung auseinandersetzen, wobei nur mit einem Bruchteil der Datengrundlage gearbeitet wird um das Wissen in angewandter Statistik zu festigen. Folgende Ziele werden damit verfolgt:
- Die Studierenden wenden das Wissen aus den vergangenen Lerneinheiten an.
- Die Studierenden nehmen eine forschende Haltung um anhand von Daten neue Erkenntnisse zu gewinnen.
- Die Studierenden führen bezüglich der Fragestellung(en) geeignete Analysen mit Hilfe der Methoden der beschreibenden und schliessenden Statistik durch.
- Durch die eigenständige Arbeit von der Fragestellung bis zur Analyse entwickeln die Studierenden ihre Problemlösungskompetenz.
Bemerkungen zur Limitierung
Die NHANES Erhebung ist sehr umfassend und wir werden uns zu Ausbildungszwecken nur mit einem Bruchteil der erhobenen Informationen beschäftigen. Dies ebenfalls nur im Rahmen der vermittelten Methoden der Statistik innerhalb dieses Moduls. Die Übungen haben daher nicht das Ziel komplexe statistische Analysen durchzuführen um valide und abschliessende Schlussfolgerungen aus den Daten zu ziehen.
Beispieldatensatz aus NHANES 2015-2016
Demographics
- https://wwwn.cdc.gov/nchs/nhanes/Search/DataPage.aspx?Component=Demographics&CycleBeginYear=2015
- List of variables: https://wwwn.cdc.gov/nchs/nhanes/Search/variablelist.aspx?Component=Demographics&CycleBeginYear=2015
- File: DEMO_I.XPT; Codebook: https://wwwn.cdc.gov/Nchs/Nhanes/2015-2016/DEMO_I.htm
Verwendete Variablen
- Geschlecht: Geschlecht m/f (riagendr)
- Alter: Alter in Jahren (ridageyr)
- 80: 80 Jahre und älter
- Ausbildung: Ausbildung - Höchster Abschluss (dmdeduc2)
- 1: < 9. Grad
- 2: 9.-11. Grad
- 3: High-school Abschluss
- 4: Some college oder AA Grad
- 5: College-Abschluss oder höherer Abschluss
- Haushaltseinkommen pro Jahr als Bereich US Dollar (indhhin2)
- 1: $0 to $4'999
- 2: $5'000 to $9'999
- 3: $10'000 to $14'999
- 4: $15'000 to $19'999
- 5: $20'000 to $24'999
- 6: $25'000 to $34'999
- 7: $35'000 to $44'999
- 8: $45'000 to $54'999
- 9: $55'000 to $64'999
- 10: $65'000 to $74'999
- 14: $75'000 to $99'999
- 15: $100'000 and Over
- Familieneinkommen pro Jahr als Bereich US Dollar (indfmin2)
- 1: $0 to $4'999
- 2: $5'000 to $9'999
- 3: $10'000 to $14'999
- 4: $15'000 to $19'999
- 5: $20'000 to $24'999
- 6: $25'000 to $34'999
- 7: $35'000 to $44'999
- 8: $45'000 to $54'999
- 9: $55'000 to $64'999
- 10: $65'000 to $74'999
- 14: $75'000 to $99'999
- 15: $100'000 and Over
Examination data
- https://wwwn.cdc.gov/nchs/nhanes/Search/DataPage.aspx?Component=Examination&CycleBeginYear=2015
- Blood pressure file: BPX_I.XPT; Codebook: https://wwwn.cdc.gov/Nchs/Nhanes/2015-2016/BPX_I.htm
- Body measures file: BMX_I.XPT; Codebook: https://wwwn.cdc.gov/Nchs/Nhanes/2015-2016/BMX_I.htm
Die Messungen wurden im Sitzen nach 5 Minuten ruhig Sitzen durchgeführt.
Verwendete Variablen aus Blutdruck Messungen
- Puls in Schlägen pro Minute (bpxpls)
- BlutdruckSys1: Systolischer Blutdruck 1. Messung in mm Hg (bpxsy1)
- BlutdruckSys2: Systolischer Blutdruck 2. Messung in mm Hg (bpxsy2)
- BlutdruckSys3: Systolischer Blutdruck 3. Messung in mm Hg (bpxsy3)
- BlutdruckSys4: Systolischer Blutdruck 4. Messung in mm Hg (bpxsy4)
- BlutdruckDia1: Diastolischer Blutdruck 1. Messung in mm Hg (bpxdi1)
- BlutdruckDia2: Diastolischer Blutdruck 2. Messung in mm Hg (bpxdi2)
- BlutdruckDia3: Diastolischer Blutdruck 3. Messung in mm Hg (bpxdi3)
- BlutdruckDia4: Diastolischer Blutdruck 4. Messung in mm Hg (bpxdi4)
Verwendete Variablen aus Körpermessungen
- Koerpergewicht: Körpergewicht in kg (bmxwt)
- Koerpergroese: Körpergrösse in cm (bmxht)
- BMI: Body-Mass-Index in kg/m² (bmxbmi)
- Taillenumfang: Taillenumfang in cm (bmxwaist)
Dietary data
- https://wwwn.cdc.gov/nchs/nhanes/Search/DataPage.aspx?Component=Dietary&CycleBeginYear=2015
- Day 1 total file: DR1TOT_I.XPT; Codebook: https://wwwn.cdc.gov/Nchs/Nhanes/2015-2016/DR1TOT_I.htm
- Day 2 total file: DR2TOT_I.XPT; 3-10 day after day 1; Codebook: https://wwwn.cdc.gov/Nchs/Nhanes/2015-2016/DR2TOT_I.htm
- Day 1 individual food file: DR1IIF_I.XPT; Codebook: https://wwwn.cdc.gov/Nchs/Nhanes/2015-2016/DR1IFF_I.htm
- Day 2 individual food file: DR2IIF_I.XPT; Codebook: https://wwwn.cdc.gov/Nchs/Nhanes/2015-2016/DR2IFF_I.htm
Bei den Ernährungsdaten ist zu beachten, dass die Erhebung zwei mal erfolgte. Die zweite Messung erfolgte im Abstand von drei bis zehn Tagen auf die erste Messung (Praefix dr1t, respektive dr2t). Die Messwerte beziehen sich jeweils auf die Nahrungsaufnahe innhalb der letzten 24 Stunden. Die Individual Food Files schlüsseln die Angaben in den Total Files zusätzlich nach verschiedenen Lebensmitteln auf.
Verwendete Variablen aus Ernährungsdaten (Day 1 and 2 total files)
OnDiet: Spezielle Diät? Ja/Nein (drqsdiet)
Energie1: Energieaufnahme in kcal Messung 1 (dr1tkcal)
Protein1: Proteinaufnahme in g Messung 1 (dr1tprot)
Kohlenhydrate1: Kohlenhydrataufnahme in g Messung 1 (dr1tcarb)
Zucker1: Zuckeraufnahme in g Messung 1 (dr1tsugr)
Nahrungsfaser1: Nahrungsfaseraufnahme in g Messung 1 (dr1tfibe)
Fett1: Fettaufnahme in g Messung 1 (dr1ttfat)
FS1: Aufnahme Gesättigte Fettsäuren in g Messung 1 (dr1tsfat)
MUFA1: Aufnahme einfach (mono) ungesättigte Fettsäuren in g Messung 1 (dr1tmfat)
PUFA1: Aufnahme mehrfach (poly) ungesättigte Fettsäuren in g Messung 1 (dr1tpfat)
Cholesterin1: Cholesterinaufnahme in mg Messung 1 (dr1tchol)
Energie2: Energieaufnahme in kcal Messung 2 (dr2tkcal)
Protein2: Proteinaufnahme in g Messung 2 (dr2tprot)
Kohlenhydrate2: Kohlenhydrataufnahme in g Messung 2 (dr2tcarb)
Zucker2: Zuckeraufnahme in g Messung 2 (dr2tsugr)
Nahrungsfaser2: Nahrungsfaseraufnahme in g Messung 2 (dr2tfibe)
Fett2: Fettaufnahme in g Messung 2 (dr2ttfat)
FS2: Aufnahme Gesättigte Fettsäuren in g Messung 2 (dr2tsfat)
MUFA2: Aufnahme einfach (mono) ungesättigte Fettsäuren in g Messung 2 (dr2tmfat)
PUFA2: Aufnahme mehrfach (poly) ungesättigte Fettsäuren in g Messung 2 (dr2tpfat)
Cholesterin2: Cholesterinaufnahme in mg Messung 2 (dr2tchol)
Verwendete Variablen aus Individual Food Files
Keine
Questionaire data
- https://wwwn.cdc.gov/nchs/nhanes/search/datapage.aspx?Component=Questionnaire&CycleBeginYear=2015
- Diet Behavior & Nutrition file: DBQ_I.XPT; Codebook: https://wwwn.cdc.gov/Nchs/Nhanes/2015-2016/DBQ_I.htm
- Weight History file: WHQ_I.XPT; Codebook: https://wwwn.cdc.gov/Nchs/Nhanes/2015-2016/WHQ_I.htm
- Alcohol Use file: ALQ_I.XPT; Codebook: https://wwwn.cdc.gov/Nchs/Nhanes/2015-2016/ALQ_I.htm
- Smoking - Cigarette Use file: SMQ_I.XPT; Codebook: https://wwwn.cdc.gov/Nchs/Nhanes/2015-2016/SMQ_I.htm
Verwendete Variablen aus Alcolol Use
Keine
Verwendete Variablen aus Smoking - Cigarette Use
- Rauchen100: Bisher min. 100 Zigaretten geraucht (smq020)
- AlterRauchenRegel: Alter in welchem mit regelmässig Rauchen begonnen wurde in Jahren (smd030)
- Rauchen: Rauchen Sie jetzt? (smq040)
- 1: Jeden Tag
- 2: Gelegentlich
- 3: Nie
Verwendete Variablen aus Diet Behavior & Nutrition
- Gesund: Wie gesund ist die Ernährung? (dbq700)
- 1: Exzellent
- 2: Sehr gut
- 3: Gut
- 4: Ausreichend
- 5: Schlecht
- MahlzeitenAuswaerts7d: Anzahl Mahlzeiten (Morgenessen, Mittagessen, Abendessen) nicht zu Hause zubereitet in den letzten 7 Tagen (dbd895)
- 5555: Mehr als 21 pro Woche
- MahlzeitenFastFood7d: Anzahl der Mahlzeiten auswärts Fast Food (dbd900)
- 5555: Mehr als 21 pro Woche
- ReadyToEat30d: Anzahl “ready-to-eat” Lebensmittel (z.B. Salat, Suppe, Sandwiches) aus Supermarkt in den letzten 30 Tagen (dbd905)
- 5555: Mehr als 21 pro Woche
- FrozenMeals30d: Anzahl tiefgefrohrener Menus/Pizza in den letzten 30 Tagen {dbd910)
- 5555: Mehr als 21 pro Woche
Verwendete Variablen aus Weight History
- GewichtSelf: Abgefragtes Gewicht in kg (whd020)
- GewichtSelf: Abgefragtes Gewicht in kg (whd010)
- 7777: Antwort verweigert
- 9999: Weiss nicht
- .: Missing
- KoerpergroesseSelf: Abgefragte Koerpergroesse in cm (whd010)
- KoerpergroesseSelf: Abgefragte Koerpergroesse in cm (whd020)
- EinordnungGewicht: Einordnung des Gewichtes (whq030)
- 1: Übergewicht
- 2: Untergewicht
- 3: Normalgewicht
- GewichtAendern: Will mehr, weniger oder gleich viel wiegen (whq040)
- 1: mehr
- 2: weniger
- 3: gleich
- GewichtSelf1y: Abgefragtes Gewicht in kg von vor einem Jahr (whd050)
- GewichtSelf10y: Abgefragtes Gewicht in kg von vor 10 Jahren (whd110)
- GewichtSelf25y: Abgefragtes Gewicht in kg mit 25 Jahren (whd120)
- GewichtMax: Abgefragtes maximales Gewicht in kg (whd140)
- AlterGewichtMax: Alter bei maximalem Gewicht in Jahren (whq150)
- 80: 80 Jahre und älter
- GewichtReduzieren: Versuchte im vergangenen Jahr Gewicht zu reduzieren (whq070)
- 1: Ja
- 2: Nein
- WenigerEssen (whd080a)
- Weniger Essen (Menge) um Gewicht zu reduzieren
- WenigerKalorien (whd080b)
- Nahrungsmittel mit weniger Kalorien um Gewicht zu reduzieren
- WenigerFett (whd080c)
- Weniger Fett essen um Gewicht zu reduzieren
- Bewegung (whd080d)
- Bewegung um Gewicht zu reduzieren
- MahzeitenAuslassen (whd080e)
- Mahlzeiten auslassen um Gewicht zu reduzieren
- Diaetprodukte (whd080f)
- “Diät” Nahrungsmittel oder Produkte um Gewicht zu reduzieren
- Fluessigdiaet (whd080g)
- Flüssignahrung (slimfast, optifast) um Gewicht zu reduzieren
- Coachingprogramm (whd080h)
- Gewichtsreduktionsprogramm um Gewicht zu reduzieren
- Diaetpillen (whd080i)
- Diätpillen durch Arzt verchrieben um Gewicht zu reduzieren
- AndereSupplemente (whd080j)
- Nicht verschreibungspflichtige Pillen, Medikamente, Kräuter oder andere Supplemente um Gewicht zu reduzieren
- LaxativeErbrechen (whd080k)
- Abführmittel oder Erbrechen um Gewicht zu reduzieren
- Wassertrinken (whd080m)
- Viel Wasser trinken um Gewicht zu reduzieren
- Spezialdiaet (whd080n)
- Spezialdiät um Gewicht zu reduzieren
- WenigerKohlenhydrate (whd080o)
- Weniger Kohlenhydrate essen um Gewicht zu reduzieren
- BeginnRauchen (whd080p)
- Begonnen (wieder) zu Rauchen um Gewicht zu reduzieren
- FruechteGemuese (whd080q)
- Mehr Früchte, Gemüse, Salat essen um Gewicht zu reduzieren
- Essverhalten (whd080r)
- Essverhalten geändert um Gewicht zu reduzieren
- WenigerZucker (whd080s)
- Weniger Zucker essen um Gewicht zu reduzieren
- WenigerFastfood (whd080t)
- Weniger Fast Food essen um Gewicht zu reduzieren
- Operation (whd080u)
- Operativer Eingriff um Gewicht zu reduzieren
Load packages
Code
library(tidyverse) # Funktionen für moderne Datenmanipulation und Plotting
library(broom) # Statistische Analyseobjekte in Tidy Tibbles konvertieren
library(mosaic) # Praktsiche Funktion für deskriptive Statistik
library(jmv) # jamovi library
library(scatr) # scatter plot like in jamovi
# library(flexplot)
Datenimport
Die Datenniveaus werden beim Datenimport gleich richtig eingestellt. Alles was kategoriell ist wird als Faktor abgebildet.
Code
df1 = read.csv("NHANES-Exercise-Data.csv")
df1$Ausbildung = as_factor(df1$Ausbildung)
df1$Haushaltseinkommen = as_factor(df1$Haushaltseinkommen)
df1$Familieneinkommen = as_factor(df1$Familieneinkommen)
df1$Gesund = as_factor(df1$Gesund)
df1$EinordnungGewicht = as_factor(df1$EinordnungGewicht)
df1$GewichtAendern = as_factor(df1$GewichtAendern)
df1$WenigerEssen = as_factor(df1$WenigerEssen)
df1$WenigerKalorien = as_factor(df1$WenigerKalorien)
df1$WenigerFett = as_factor(df1$WenigerFett)
df1$Bewegung = as_factor(df1$Bewegung)
df1$MahlzeitenAuslassen = as_factor(df1$MahlzeitenAuslassen)
df1$Diaetprodukte = as_factor(df1$Diaetprodukte)
df1$Fluessigdiaet = as_factor(df1$Fluessigdiaet)
df1$Coachingprogramm = as_factor(df1$Coachingprogramm)
df1$Diaetpillen = as_factor(df1$Diaetpillen)
df1$AndereSupplemente = as_factor(df1$AndereSupplemente)
df1$LaxativeErbrechen = as_factor(df1$LaxativeErbrechen)
df1$Wassertrinken = as_factor(df1$Wassertrinken)
df1$Spezialdiaet = as_factor(df1$Spezialdiaet)
df1$WenigerKohlenhydrate = as_factor(df1$WenigerKohlenhydrate)
df1$BeginnRauchen = as_factor(df1$BeginnRauchen)
df1$FruechteGemuese = as_factor(df1$FruechteGemuese)
df1$Essverhalten = as_factor(df1$Essverhalten)
df1$WenigerZucker = as_factor(df1$WenigerZucker)
df1$WenigerFastfood = as_factor(df1$WenigerFastfood)
df1$Operation = as_factor(df1$Operation)
Übersicht
Code
summary(df1)
seqn Geschlecht Alter Ausbildung
Min. :83754 Length:150 Min. :16.00 1 :11
1st Qu.:86984 Class :character 1st Qu.:28.00 2 :10
Median :89160 Mode :character Median :49.00 3 :27
Mean :89285 Mean :46.43 4 :49
3rd Qu.:92034 3rd Qu.:63.00 5 :33
Max. :93687 Max. :80.00 NA's:20
Haushaltseinkommen Familieneinkommen Puls BlutdruckSys1
6 :25 6 :26 Min. : 50.00 Min. : 88.0
15 :21 15 :21 1st Qu.: 64.00 1st Qu.:112.0
9 :12 14 :12 Median : 70.00 Median :120.0
14 :12 7 :11 Mean : 73.14 Mean :124.3
7 :11 2 :10 3rd Qu.: 80.00 3rd Qu.:134.0
(Other):51 (Other):53 Max. :114.00 Max. :204.0
NA's :18 NA's :17 NA's :3 NA's :11
BlutdruckSys2 BlutdruckSys3 BlutdruckSys4 BlutdruckDia1
Min. : 88.0 Min. : 90.0 Min. :124.0 Min. :48.00
1st Qu.:110.0 1st Qu.:110.5 1st Qu.:128.0 1st Qu.:62.00
Median :120.0 Median :120.0 Median :142.0 Median :70.00
Mean :123.7 Mean :123.9 Mean :139.4 Mean :69.87
3rd Qu.:134.0 3rd Qu.:134.0 3rd Qu.:145.5 3rd Qu.:76.00
Max. :188.0 Max. :186.0 Max. :158.0 Max. :98.00
NA's :5 NA's :4 NA's :140 NA's :11
BlutdruckDia2 BlutdruckDia3 BlutdruckDia4 Koerpergewicht Koerpergroesse
Min. :46.00 Min. :44.0 Min. :56.0 Min. : 45.20 Min. :146.4
1st Qu.:64.00 1st Qu.:64.0 1st Qu.:78.5 1st Qu.: 65.17 1st Qu.:157.8
Median :70.00 Median :70.0 Median :82.0 Median : 78.75 Median :166.6
Mean :70.65 Mean :70.1 Mean :80.2 Mean : 80.77 Mean :166.7
3rd Qu.:78.00 3rd Qu.:78.0 3rd Qu.:85.5 3rd Qu.: 89.67 3rd Qu.:174.4
Max. :98.00 Max. :96.0 Max. :98.0 Max. :154.20 Max. :194.3
NA's :5 NA's :4 NA's :140 NA's :2 NA's :2
BMI Taillenumfang OnDiet Energie1
Min. :17.20 Min. : 66.50 Length:150 Min. : 415
1st Qu.:24.18 1st Qu.: 86.40 Class :character 1st Qu.:1376
Median :27.95 Median : 97.45 Mode :character Median :1896
Mean :28.94 Mean : 98.24 Mean :2084
3rd Qu.:32.70 3rd Qu.:109.97 3rd Qu.:2615
Max. :49.80 Max. :148.90 Max. :7574
NA's :2 NA's :10 NA's :8
Protein1 Kohlenhydrate1 Zucker1 Nahrungsfaser1
Min. : 13.25 Min. : 54.44 Min. : 8.61 Min. : 1.800
1st Qu.: 46.85 1st Qu.:158.78 1st Qu.: 52.42 1st Qu.: 9.225
Median : 74.23 Median :220.31 Median : 88.47 Median :14.050
Mean : 82.13 Mean :250.58 Mean :108.32 Mean :16.539
3rd Qu.:106.75 3rd Qu.:298.35 3rd Qu.:138.74 3rd Qu.:18.975
Max. :287.18 Max. :818.16 Max. :512.25 Max. :57.900
NA's :8 NA's :8 NA's :8 NA's :8
Fett1 FS1 MUFA1 PUFA1
Min. : 8.98 Min. : 3.653 Min. : 2.629 Min. : 1.838
1st Qu.: 49.15 1st Qu.:13.951 1st Qu.:16.635 1st Qu.: 9.559
Median : 74.91 Median :25.018 Median :25.402 Median :16.018
Mean : 81.00 Mean :26.241 Mean :29.068 Mean :18.047
3rd Qu.:106.47 3rd Qu.:35.605 3rd Qu.:38.878 3rd Qu.:23.035
Max. :241.06 Max. :81.658 Max. :98.785 Max. :69.320
NA's :8 NA's :8 NA's :8 NA's :8
Cholesterin1 Energie2 Protein2 Kohlenhydrate2
Min. : 18.0 Min. : 271 Min. : 2.69 Min. : 25.2
1st Qu.: 141.5 1st Qu.:1385 1st Qu.: 52.66 1st Qu.:153.6
Median : 220.5 Median :1854 Median : 70.40 Median :230.9
Mean : 307.8 Mean :1948 Mean : 75.86 Mean :238.7
3rd Qu.: 416.8 3rd Qu.:2472 3rd Qu.: 92.36 3rd Qu.:313.7
Max. :1238.0 Max. :4296 Max. :250.15 Max. :563.7
NA's :8 NA's :35 NA's :35 NA's :35
Zucker2 Nahrungsfaser2 Fett2 FS2
Min. : 4.27 Min. : 0.00 Min. : 0.63 Min. : 0.01
1st Qu.: 52.42 1st Qu.: 8.85 1st Qu.: 47.50 1st Qu.: 14.12
Median : 93.13 Median :14.30 Median : 68.04 Median : 20.81
Mean : 99.87 Mean :17.32 Mean : 74.59 Mean : 24.05
3rd Qu.:135.37 3rd Qu.:22.00 3rd Qu.: 97.19 3rd Qu.: 30.65
Max. :358.97 Max. :63.50 Max. :190.02 Max. :101.61
NA's :35 NA's :35 NA's :35 NA's :35
MUFA2 PUFA2 Cholesterin2 Gesund
Min. : 0.072 Min. : 0.005 Min. : 0.0 1:14
1st Qu.:15.214 1st Qu.: 9.676 1st Qu.: 150.0 2:23
Median :24.427 Median :15.592 Median : 234.0 3:61
Mean :26.459 Mean :17.223 Mean : 291.7 4:43
3rd Qu.:34.602 3rd Qu.:22.230 3rd Qu.: 406.0 5: 9
Max. :78.843 Max. :52.409 Max. :1107.0
NA's :35 NA's :35 NA's :35
MahlzeitenAuswaerts7d MahlzeitenFastFood7d ReadyToEat30d FrozenMeals30d
Min. : 0.000 Min. : 0.000 Min. : 0.000 Min. : 0.00
1st Qu.: 0.000 1st Qu.: 1.000 1st Qu.: 0.000 1st Qu.: 0.00
Median : 2.000 Median : 1.000 Median : 0.000 Median : 0.00
Mean : 2.787 Mean : 2.362 Mean : 2.966 Mean : 2.43
3rd Qu.: 4.000 3rd Qu.: 3.000 3rd Qu.: 3.000 3rd Qu.: 2.00
Max. :21.000 Max. :21.000 Max. :90.000 Max. :30.00
NA's :45 NA's :2 NA's :1
KoerpergroesseSelf GewichtSelf EinordnungGewicht GewichtAendern
Min. :147.3 Min. : 47.63 1 :77 1:16
1st Qu.:160.0 1st Qu.: 63.50 2 : 4 2:89
Median :167.6 Median : 77.11 3 :68 3:45
Mean :168.5 Mean : 79.82 NA's: 1
3rd Qu.:175.3 3rd Qu.: 88.90
Max. :200.7 Max. :149.69
NA's :3 NA's :5
GewichtSelf1y GewichtSelf10y GewichtSelf25y GewichtMax
Min. : 44.45 Min. : 48.99 Min. : 39.01 Min. : 51.71
1st Qu.: 63.50 1st Qu.: 65.77 1st Qu.: 56.70 1st Qu.: 72.12
Median : 77.11 Median : 76.43 Median : 63.50 Median : 83.01
Mean : 79.57 Mean : 79.29 Mean : 69.68 Mean : 86.96
3rd Qu.: 90.72 3rd Qu.: 90.72 3rd Qu.: 79.38 3rd Qu.: 97.52
Max. :154.22 Max. :137.44 Max. :127.01 Max. :158.76
NA's :6 NA's :56 NA's :39 NA's :15
AlterGewichtMax GewichtReduzieren WenigerEssen WenigerKalorien WenigerFett
Min. :12.00 Length:150 0:108 0:130 0:130
1st Qu.:25.25 Class :character 1: 42 1: 20 1: 20
Median :40.00 Mode :character
Mean :41.10
3rd Qu.:55.00
Max. :80.00
NA's :16
Bewegung MahlzeitenAuslassen Diaetprodukte Fluessigdiaet Coachingprogramm
0:102 0:135 0:145 0:144 0:148
1: 48 1: 15 1: 5 1: 6 1: 2
Diaetpillen AndereSupplemente LaxativeErbrechen Wassertrinken Spezialdiaet
0:149 0:146 0:149 0:112 0:146
1: 1 1: 4 1: 1 1: 38 1: 4
WenigerKohlenhydrate BeginnRauchen FruechteGemuese Essverhalten WenigerZucker
0:135 0:150 0:117 0:124 0:125
1: 15 1: 33 1: 26 1: 25
WenigerFastfood Operation Rauchen100 RauchenAlterRegel
0:115 0:149 Length:150 Min. : 9.00
1: 35 1: 1 Class :character 1st Qu.:15.00
Mode :character Median :17.50
Mean :19.19
3rd Qu.:21.50
Max. :58.00
NA's :92
Rauchen
Length:150
Class :character
Mode :character
Aufgabe 1 - Zweigruppenvergleich unabhängig
Es soll untersucht werden ob sich der BMI zwischen den Personen, welche sich als normal- oder übergewichtig einordnen, unterscheidet. Es ist ein Signifikanzniveau von 0.05 anzunehmen.
Aufgaben:
- Formulieren der Hypothesen
- Deskriptive Statistik
- Zusammenfassende Beschreibung der Daten mit Kennzahlen
- Visualisierung
- Schliessende Statistik
- Auswahl des statistischen Tests mit Begründung
- Interpretation
- Welchen Fehler könnte man bei der Testentscheidung begehen?
Die Hypothesen sind wie folgt:
- H0: Der BMI unterscheidet sich nicht zwischen Personen, welche sich selbst als normal- oder übergewichtig eingeschätzt haben.
- H1: Der BMI unterscheidet sich zwischen Personen, welche sich selbst als normal- oder übergewichtig eingeschätzt haben.
Vorbereitung
Der Codierungstabelle ist folgende Zuordnung zu entnehmen:
- 1: Übergewicht
- 2: Untergewicht
- 3: Normalgewicht
Die Zahlen werden umcodiert, damit die Interpretation weniger fehleranfällig ist.
Code
df1$EinordnungGewicht <- recode_factor(df1$EinordnungGewicht,
`1`="Übergewicht", `2` = "Untergewicht", `3` = "Normalgewicht")
Wir sind nur an den Kategorien Über- und Normalgewicht interessiert. Also werden nur diese ausgewählt.
Code
df2 <- filter(df1, EinordnungGewicht %in% c("Übergewicht","Normalgewicht"))
Deskriptive Statistik
Code
descriptives(formula = BMI ~ EinordnungGewicht, df2,
sd = TRUE,
skew = TRUE,
sw = TRUE,
box = TRUE,
hist = TRUE,
dens = TRUE,
qq = TRUE)
DESCRIPTIVES
Descriptives
─────────────────────────────────────────────────────────
EinordnungGewicht BMI
─────────────────────────────────────────────────────────
N Übergewicht 77
Untergewicht 0
Normalgewicht 67
Missing Übergewicht 0
Untergewicht 0
Normalgewicht 1
Mean Übergewicht 32.85974
Untergewicht NaN
Normalgewicht 24.90448
Median Übergewicht 32.40000
Untergewicht NaN
Normalgewicht 25.00000
Standard deviation Übergewicht 5.530686
Untergewicht NaN
Normalgewicht 3.948741
Minimum Übergewicht 21.80000
Untergewicht NaN
Normalgewicht 17.60000
Maximum Übergewicht 49.80000
Untergewicht NaN
Normalgewicht 34.20000
Skewness Übergewicht 0.7281557
Untergewicht NaN
Normalgewicht 0.3426969
Std. error skewness Übergewicht 0.2739081
Untergewicht NaN
Normalgewicht 0.2928363
Shapiro-Wilk W Übergewicht 0.9581745
Untergewicht NaN
Normalgewicht 0.9736623
Shapiro-Wilk p Übergewicht 0.0126317
Untergewicht NaN
Normalgewicht 0.1657697
─────────────────────────────────────────────────────────



Es gibt 77 Beobachtungen für übergewichtige und 67 Beobachtungen für normalgewichtige Gewichtseinschätzungen. Anhand der Boxplots scheint es so, dass jene Personen, die sich als normalgewichtig eingeschätzt haben, auch einen tieferen BMI zu haben scheinen.
Schliessende Statistik
Es handelt sich um kleine Umfänge (N < 100) unabhängiger Daten. Die Annahmen Normalverteilung und Gleichheit der Varianzen müssen geprüft werden um über das geeignete Testverfahren zu entscheiden.
Die Verteilung wird über die Kennzahlen, Histogramm und QQ-Plot aus der deskriptiven Statistik beurteilt. Beim Vergleich von unabhängigen Gruppen muss die Normalverteilung in beiden Gruppen gegeben sein. Also muss die Voraussetzung in beiden Gruppen überprüft werden. In der Gruppe “Übergewicht” weist das Histogramm auf eine rechtsschiefe Verteilung hin, was ein Hinweis auf Abweichung von der Normalverteilung ist. In der Gruppe “Normalgewicht” hingegen, scheint die Verteilung recht symmetrisch zu sein. Die Asymmetrie bei der übergewichtigen Gruppe ist auch im Boxplot und den Lagekennzahlen erkennbar, mit den Ausreissern gegen oben und dem Mittelwert, welcher gegenüber dem Median durch die Ausreisser grösser ist. Der Wert für die Schiefe (Skewness) von der deskriptiven Statistik bestätigt die Eindrücke der Asymmetrie. Sie beträgt 0.73 für die übergewichtige und 0.34 für die normalgewichtige Gruppe. Betrachtet man den QQ-Plot der übergewichtigen Gruppe, weisen Abweichungen von der Linie am rechten oberen Ende auf eine Verletzung der Voraussetzung der Normalverteilung hin. Dies bestätigt auch der Shapiro-Wilk Test bei der deskriptiven Statistik, welcher für die übergewichtige Gruppe signifikant ist (p < 0.05).
Da eine der Gruppen die Voraussetzung der Normalverteilung nicht zu erscheinen füllt, entscheiden wir uns also für ein nicht-parametrisches Testverfahren und verwenden den Mann-Whitney U Test für den Gruppenvergleich. Da man so oder so ein nicht-parametrisches Testverfahren anwendet wird die Voraussetzung der Gleichheit der Varianzen hinfällig, das dies nur beim parametrischen Testen relevant ist.
Code
results = ttestIS(formula = BMI ~ EinordnungGewicht, data = df2,
welchs = TRUE,
mann = TRUE,
eqv = TRUE,
meanDiff = TRUE,
ci = TRUE)
results$ttest
Independent Samples T-Test
────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
Statistic df p Mean difference SE difference Lower Upper
────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
BMI Student's t 9.797820 142.0000 < .0000001 7.955263 0.8119421 6.350206 9.560319
Welch's t 10.02287 136.9910 < .0000001 7.955263 0.7937114 6.385752 9.524773
Mann-Whitney U 595.0000 < .0000001 7.699990 6.299943 9.299933
────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
Note. Hₐ μ <sub>Group 1</sub> ≠ μ <sub>Group 2</sub>
Code
results$assum$eqv
Homogeneity of Variances Test (Levene's)
─────────────────────────────────────────────
F df df2 p
─────────────────────────────────────────────
BMI 3.516039 1 142 0.0628311
─────────────────────────────────────────────
Note. A low p-value suggests a
violation of the assumption of equal
variances
Die Mann-Whitney-U Teststatistik weist darauf hin, dass es einen signifikanten Unterschied im BMI zwischen den sich selbstständig als normal- oder übergewichtig einschätzenden Personen gibt (p < 0.001). Man lehnt also die Nullhypothese ab und nimmt die Alternativhypothese an. Die normalgewichtigen Personen weisen im Mittel einen um 7.7 kg/m^2 geringeren BMI auf als die übergewichtigen Personen. Die normalgewichtigen Personen haben mit 95% Vertrauenswahrscheinlichkeit einen zwischen 6.3 kg/m^2 und 9.3 kg/m^2 geringeren BMI als übergewichtige Personen.
Möglicherweise begeht man einen Fehler 1. Art, mit dem man die Nullhypothese fälschlicherweise ablehnen würde. Diese Wahrscheinlichkeit entspricht gerade dem p-Wert und ist damit sehr klein. Es ist also sehr unwahrscheinlich, dass das vorliegende Testergebnis durch Zufall entstanden ist. Es ist anzunehmen, dass der Unterschied in Wirklichkeit tatsächlich vorliegt.
Bemerkungen zum statistischen Testverfahren
Vergleicht man die Resultate des nicht-parametrichen Mann-Whitney-U Test mit den parametrsichen Vergleich (Student’s t), stellt man fest, dass dies nichts am statistischen Schluss und nur wenig am geschätzten Effekt ändert. Die Mittelwertsdifferenz wird nur wenig grösser geschätzt mit dem parametrsichen Verfahren. Das zeigt, dass die angenommene Abweichung von der Normalverteilung in der übergewichtigen Gruppe nicht so gravierend ist. Würde man davon absehen, nicht-parametrsich zu testen, müsste man die Gleichheit der Varianzen beurteilen. Anhand des nicht signifikanten Resultats des Levene-Test (p = 0.063 und damit p > 0.05) kann man sagen, dass die Varianzen als gleich angenommen werden können. Also dürfte man, unter Annahme der Voraussetzung der Normalverteilung in beiden Gruppen, den Student’s t-Test für den Zweigruppenvergleich anwenden. Wären die Varianzen nicht gleich, würde man den Welch’s t-Test für den Zweigruppenvergleich anwenden.
Aufgabe 2 - Zweigruppenvergleich abhängig (N > 100)
Es soll untersucht werden ob sich das selbst eingeschätzte Körpergewicht vom gemessenen Körpergewicht unterscheidet. Es ist ein Signifikanzniveau von 0.05 anzunehmen.
Aufgaben:
- Formulieren der Hypothesen
- Deskriptive Statistik
- Zusammenfassende Beschreibung der Daten mit Kennzahlen
- Visualisierung
- Schliessende Statistik
- Auswahl des statistischen Tests mit Begründung
- Interpretation
- Welchen Fehler könnte man bei der Testentscheidung begehen?
- Nehme an du kennst lediglich die mittlere Differenz von 0.83 kg zwischen geschätztem und gemessenem Körpergewicht und den Standardfehler von 0.42 kg. Da es sich um eine grosse Stichprobe handelt kannst du die z-Verteilung verwenden (nicht die t-Verteilung). Berechne den z-Wert und den zweiseitigen p-Wert von Hand.
Die Hypothesen sind wie folgt:
- H0: Das gemessene Gewicht unterscheidet sich nicht vom selbst geschätzten Körpergewicht.
- H1: Das gemessene Gewicht unterscheidet sich vom selbst geschätzten Körpergewicht.
Deskriptive Statistik
Code
descriptives(df1, vars(Koerpergewicht, GewichtSelf), sd = TRUE)
DESCRIPTIVES
Descriptives
───────────────────────────────────────────────────────
Koerpergewicht GewichtSelf
───────────────────────────────────────────────────────
N 148 145
Missing 2 5
Mean 80.76689 79.81662
Median 78.75000 77.11070
Standard deviation 20.93905 21.01586
Minimum 45.20000 47.62720
Maximum 154.2000 149.6855
───────────────────────────────────────────────────────
Schaut man sich die deskriptive Statistik an (Mittelwert und Median), ist zu erwarten, dass sich das geschätzte nicht vom gemessenen Körpergewicht untnerscheidet. Denn das gemessene Körpergewicht ist Mittel um nur etwa 1 kg höher bei einer Streuung um 20 kg. Die Streuungskennzahlen und die Extremwerte liegen für beide Variablen ebenfalls im selben Bereich.
Schliessende Statistik
Bei diesem Vergleich handelt es ich um abhängige Daten, da jede Person gemessen wurde und sich zusätzlich selbst geschätzt hat. Heisst, die Messwerte stammen jeweils von der gleichen Person. Aus der deskriptiven Statistik ist zu sehen, dass der Stichprobenumfang, mit 148 respektive 145 Beobachtungen pro Variable, deutlich mehr als 100 beträgt. Damit müssen wir die Voraussetzung der Normalverteilung der Differenzen nicht prüfen und dürfen direkt den t-Test für abhängige Daten anwenden.
Code
ttestPS(df1, pairs = list(list(i1 = 'Koerpergewicht', i2 = 'GewichtSelf')),
meanDiff = T,
ci = T,
plots = T,
effectSize = T)
PAIRED SAMPLES T-TEST
Paired Samples T-Test
──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
statistic df p Mean difference SE difference Lower Upper Effect Size
──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
Koerpergewicht GewichtSelf Student's t 1.975934 142.0000 0.0501004 0.8282534 0.4191706 -3.677174e-4 1.656875 Cohen's d 0.1652359
──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
Note. Hₐ μ <sub>Measure 1 - Measure 2</sub> ≠ 0

Der p-Wert liegt gerundet bei 0.05 und ist jedoch nicht kleiner als des Signifikanzniveaus von 0.05. Damit gibt es keinen signifikanten Unterschied zwischen dem gemessenen und dem geschätzten Körpergewicht. Die Nullhypothese wird nicht verworfen und als plausibel betrachtet. Es ist anzunehmen, dass es keinen Unterschied zwischen dem gemessenen und dem geschätzten Körpergewicht gibt. Der Punktschätzer für die mittlere Differenz zwischen gemessenem und geschätztem Körpergewicht beträgt 0.8 kg (gemessen ist im Mittel höher; siehe deskriptive Statistik). Das gemessene Körpergewicht unterscheidet sich mit einer Wahrscheinlichkeit von 95% zwischen 0 kg und 1.7 kg vom geschätzten Körpergewicht. Eine Differenz von Null ist im Vertrauensintervall drin. Das heisst, die Mittelwertsdifferenz könnte auch Null betragen, was den Entscheid stützt, dass die Nullhypthese als plausibel anzunehmen ist und sich die Gruppen nicht unterscheiden. Da die Null jedoch nur undeutlich im Vertrauensintervall drin ist, unterscheiden sich die Gruppen nur undeutlich nicht. Der Effekt zwischen Messung und Schätzung ist schwach, da die Effektstärke (Cohen’s d) mit 0.16 unterhalb von 0.2 liegt (vgl. Handout LE4_StatTest Slide Nr. 40). Die Effektstärke von 0.17 beduetet, dass sich die Gruppenmittelwerte nur um 0.17 Standardabweichungen unterscheiden.
Möglicherweise begeht man einen Fehler 2. Art und behält die Nullhypothese fälschlicherweise bei. Das heisst, man würde nicht entdecken, dass sich das gemessene und geschätzte Körpergewicht im Mittel in Wirklichkeit unterscheiden.
Den z-Wert erhält man, indem man den beobachteten Effekt durch den zugehörigen Fehler teilt. Im vorliegenden Fall also die mittlere Differenz, dividiert durch den Standardfehler:
$$ z = \frac{0.83}{0.42} = 1.976 $$Der zweiseitige p-Wert ist die Summe der Fläche unterhalb der z-Verteilung (Standardnormalverteilung) für $z \leq 1.97$ und $z \geq 1.97$:
Code
2*pnorm(-1.976, mean = 0, sd = 1)
[1] 0.04815478
Aufgabe 3 - Zweigruppenvergleich abhängig (N < 100)
In Aufgabe 2 hat man gesehen, dass das sich das geschätzte nicht vom gemessenen Körpergewicht unterscheidet. Nun will man untersuchen ob das auch so ist, wenn man nur die Männer betrachtet.
Man wählt nur die männlichen Personen aus:
Code
df2 = filter(df1, Geschlecht == "m")
Deskriptive Statistik
Code
descriptives(df2, vars(Koerpergewicht, GewichtSelf), sd = T)
DESCRIPTIVES
Descriptives
───────────────────────────────────────────────────────
Koerpergewicht GewichtSelf
───────────────────────────────────────────────────────
N 77 77
Missing 2 2
Mean 86.01818 85.38729
Median 83.60000 81.19303
Standard deviation 20.27620 20.74908
Minimum 52.40000 53.07031
Maximum 154.2000 149.6855
───────────────────────────────────────────────────────
Schaut man sich die deskriptive Statistik an (Mittelwert und Median), ist zu erwarten, dass sich das geschätzte nicht vom gemessenen Körpergewicht untnerscheidet. Denn das gemessene Körpergewicht ist Mittel um nur etwa 0.6 kg höher bei einer Streuung um 20 kg. Die Streuungskennzahlen und die Extremwerte liegen für beide Variablen ebenfalls im ähnlichen Bereich.
Da man nun weniger als 100 Bebachtungen hat muss man die Annhame der Normalverteilung der Differenzen berücksichtigen. Wichtig ist, dass sich beim Vergleich von abhängigen Daten, die Voraussetzung der Normalverteilung auf die Differenzen zwischen den Variablen und nicht auf die Variablen selbst bezieht. Um dies zu überprüfen müsste man nun also die Differenzen berechnen und diese einer neuen Variablen zuweisen, welche man anschliessend auf die Kriterien der Normalverteilung überprüft. Das ist etwas umständlich und geht in jamovi einfacher, indem man beim Zweigruppenvergleich in jamovi unter Assumption Checks die Hacken für Normality test und Q-Q Plot setzt.
Code
ttestPS(df2, pairs = list(list(i1 = 'Koerpergewicht', i2 = 'GewichtSelf')),
wilcoxon = T,
meanDiff = T,
ci = T,
plots = T,
norm = T,
qq = T)
PAIRED SAMPLES T-TEST
Paired Samples T-Test
─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
statistic df p Mean difference SE difference Lower Upper
─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
Koerpergewicht GewichtSelf Student's t 0.2559242 74.00000 0.7987194 0.1790421 0.6995901 -1.214922 1.573006
Wilcoxon W 1458.000 0.8637375 0.04613330 0.6995901 -0.6201685 0.8073135
─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
Note. Hₐ μ <sub>Measure 1 - Measure 2</sub> ≠ 0
Normality Test (Shapiro-Wilk)
─────────────────────────────────────────────────────────────────
W p
─────────────────────────────────────────────────────────────────
Koerpergewicht - GewichtSelf 0.7377508 < .0000001
─────────────────────────────────────────────────────────────────
Note. A low p-value suggests a violation of the assumption
of normality


Der Shapiro-Wilk Normalitätstest (p < 0.05) und der QQ-Plot weisen auf eine Verletzung der Voraussetzung der Normalverteilung hin. Man muss also den Wilcoxon-Test für den Zweigruppenvergleich anwenden. Die Differenz zwischen dem gemessenen und geschätzten Körpergewicht beträgt mit einer Vertrauenswahrscheinlichkeit von 95% zwischen -0.6 kg und 0.8 kg. Die Differenz liegt im Mittel bei 0.05 kg um welche das gemessene Körpergewicht höher ist als das geschätzte Körpergewicht. Der p-Wert ist nicht kleiner als 0.05 und die Null ist im Vertrauensintervall enthalten. Das heisst es könnte gut sein, dass die Mittelwertsdifferenz Null beträgt. Die Nullhypothese wird beibehalten und es kann gesagt werden, dass bei den Männern das gemessene Körpergewicht sich nicht vom geschätzten Körpergewicht unterscheidet. Wäre man von einer Normalverteilung der Differenzen ausgegangen und hätte parametrsich getestet, wäre man zum selben Schluss gekommen.
Aufgabe 4 - Korrelation
In Aufgabe 3 hat man gesehen, dass sich das geschätzte Gewicht im Mittel nicht vom das gemessenen Gewicht unterscheidet. Nun soll mit einer Korrelationsanalyse untersucht werden ob beispielsweise schwere Personen sich auch effektiv schwerer schätzen. Heisst, man sucht nach einem Zusammenhang zwischen gemessenem und geschätztem Körpergewicht.
Im ersten Schritt müssen die Daten visualisiert werden um eine subjektive Einschätzung über einen möglichen Zusammenhang zu machen. Dazu eignet sich das Streudiagramm.
Code
ggplot(df1, aes(x = GewichtSelf, y = Koerpergewicht)) +
geom_point() +
labs(x = 'GewichtSelf (kg)', y = 'Körpergewicht (kg)')

Im Streudiagramm ist ein deutlicher positiver linearer Zusammenhang zu erkennen. Wenn das Körpergewicht kleiner geschätzt wird, scheint es auch gemessen kleiner zu sein. Wenn das Körpergewicht grösser geschätzt wird, scheint es auch gemessen grösser zu sein. Visuell beurteilt scheint also ein recht starker Zusammenhang vorhanden zu sein, welcher linear beschrieben werden kann. Es macht also durchaus Sinn die Stärke des linearen Zusammenhangs mit dem Korrelationskoeffizienten zu quantifizieren.
In den Daten sind keine Ausreisser sichtbar, welche den Korrelationskoeffizienten offensichtlich beinflussen würden. Man kann davon ausgehen, dass der Korrelationskoeffizient nach Pearson gut dafür geeignet ist.
Code
corrMatrix(df1, vars = vars(GewichtSelf, Koerpergewicht),
spearman = T,
ci = T,
sig = F)
CORRELATION MATRIX
Correlation Matrix
─────────────────────────────────────────────────────────────────────
GewichtSelf Koerpergewicht
─────────────────────────────────────────────────────────────────────
GewichtSelf Pearson's r —
95% CI Upper —
95% CI Lower —
Spearman's rho —
Koerpergewicht Pearson's r 0.9719765 —
95% CI Upper 0.9797995 —
95% CI Lower 0.9611833 —
Spearman's rho 0.9673711 —
─────────────────────────────────────────────────────────────────────
Der Pearson Korrelationskoeffizient für den linearen Zusammenhang des geschätzen und gemessenen Körpergewichtes beträgt 0.972. Mit 95% Vertrauenswahrscheienlichkeit liegt der Korrelationskoeffizient der Population zwischen 0.961 und 0.980. Die Stärke des linearen Zusammenhang kann als stark bezeichnet werden da der Korrelationkoeffizient über 0.7 liegt (siehe Handout LE Slide Nr. 22). Der Korrelationskoeffizient nach Pearson ist positiv, also liegt ein starker positiver linearer Zusammenhang vor.
Zusätzlich wurde der Rangkorrelationskoeffizient nach Spearman berechnet und er unterscheidet sich praktisch nicht vom Korrelationkoeffizieten nach Pearson. Dass die Werte nahe beieinander liegen bestätigt die Einschätzung, dass es keine massgeblichen Ausreisser gibt welche den Korrelationskoeffizienten nach Pearson beinflussen könnten. Wäre dies der Fall würden sich die beiden Korrelationskoeffizienten deutlich unterscheiden.
Aufgabe 5 - Regression
In Aufgabe 4 konnte festgestellt werden, dass es einen starken positiven linearen Zusammenhang zwischen dem geschätzten und dem gemessenen Körpergewicht gibt. Man will nun ein Modell berechnen, mit welchem das gemessene Körpergewicht basierend auf dem geschätzten Körpergewicht vorausgesagt, respektive der Zusammenhang beschrieben, werden kann.
Um die Aufgabe zu lösen, braucht man die einfache lineare Regression. “Einfach” darum, weil die Voraussage basierend auf einer Variablen gemacht wird (dem geschätzten Körpergewicht).
Im Unterschied zur Korrelationsanalyse, wird bei der linearen Regression ein Modell berechnet, welches die Daten beschreibt. Dabei muss zwischen abhängigen und unabhängigen Variablen unterschieden werden. Im vorliegenden Fall soll das wahre Körpergewicht (das gemessene) anhand des geschätzten Körpergewichtes vorausgesagt werden. Die Variable, welche das Modell voraussagt, bezeichnet man als abhängige Variable (“Dependent” in jamovi) und die Variable, welche zur Voraussage genutzt wird, bezeichnet man als unabhängige Variable (“Covariate” in jamovi).
Code
ggplot(df1, aes(x = GewichtSelf, y = Koerpergewicht)) +
geom_point() +
geom_smooth(method=lm , color="red", se=FALSE) +
labs(x = 'GewichtSelf (kg)', y = 'Körpergewicht (kg)')

Code
linReg(data = df1, dep = Koerpergewicht, covs = GewichtSelf,
blocks = list(list('GewichtSelf')),
ci = T,
qqPlot = T,
resPlots = T)
LINEAR REGRESSION
Model Fit Measures
───────────────────────────────────
Model R R²
───────────────────────────────────
1 0.9719765 0.9447383
───────────────────────────────────
Note. Models estimated using
sample size of N=143
MODEL SPECIFIC RESULTS
MODEL 1
Model Coefficients - Koerpergewicht
───────────────────────────────────────────────────────────────────────────────────────────────
Predictor Estimate SE Lower Upper t p
───────────────────────────────────────────────────────────────────────────────────────────────
Intercept 2.8291586 1.64120966 -0.4154005 6.073718 1.723825 0.0869312
GewichtSelf 0.9749630 0.01985797 0.9357051 1.014221 49.096815 < .0000001
───────────────────────────────────────────────────────────────────────────────────────────────
ASSUMPTION CHECKS




Die einfache lineare Regression liefert als Ergebnis die zwei nötigen Parameter um eine Gerade zu beschreiben (die Koeffizenten des Regressionsmodells), den Achsenabschnitt (Intercept) und die Steigung. Die Steigung ist benannt mit der unabhängigen Variablen, hier GewichtSelf. Das Regressionsmodell hat also mit den auf zwei Nachkommastelle gerundeten Koeffizienten folgende Form:
$$ Koerpergewicht = 2.83 + 0.98*GewichtSelf $$Interpretation der Koeffizienten
Der Achsenabschnitt sagt, wie schwer eine Person wäre, die sich 0 kg schätzen würde. Dies zu interpretieren ist natürlich nicht sinnvoll, da niemand 0 kg wiegt.
Die Steigung sagt, um wie viel die abhängige Variable, pro Zunahme der unabhängigen Variable um eine Einheit, zunimmt. Für das vorliegende Beispiel also zum Beispiel, um wie viel das gemessene Körpergewicht zunimmt, wenn das geschätzte Körpergewicht um ein Kilogramm zunimmt. Würde das gemessene Körpergewicht gleich viel zunehmen wie das geschätzte Körpergewicht wäre die Steigung 1. Das Modell ist also plausibel, denn die Steigung von 1 ist im Vertrauensintervall enthalten.
Vorhersage
Mit dem Modell lässt sich nun das tatsächliche (d.h. gemessene) Körpergewicht voraussagen wenn man das geschätzte Körpergewicht kennt. Gehen wir davon aus, eine Person schätzt sich auf 68 kg. Das Modell lässt uns nun voraussagen wie schwer die Person tatsächlich ist, indem man die 68 kg in die obige Gleichung einsetzt:
$$ Koerpergewicht = 2.83 + 0.98*68 $$Code
2.83 + 0.98*68
[1] 69.47
Wenn eine Person sich also auf 68 kg schätzt, wird sie laut dem Modell 69.47 kg wiegen.
Modellprüfung
Es ist wichtig zu bedenken, dass es sich um ein Modell handelt und ein Modell immer ein vereinfachtes Abbild der Realität darstellt. Das Modell beschreibt den linearen Zusammenhang so, wie er im Mittel aufgrund der vorliegenden Daten in der Population erwartet werden kann. Wie bei allem was in der schliessenden Statistik gemacht wird, handelt es sich bei den Koeffizienten des Modells um Schätzer, welche fehlerbehaftet sind, da man ja nicht die gesamte Population kennt. Das wiederspiegelt sich in den jeweiligen Vertrauensintervallen. Der Achsenabschnitt des Modells der Population liegt mit 95% Vertrauenswahrscheinlichkeit zwischen -0.42 und 6.07 und die die Steigung mit 95% Vertrauenswahrscheinlichkeit zwischen 0.94 und 1.01.
Mit den Vertrauensintervallen bewegt man sich natürlich in der schliessenden Statistik und damit auch bei der statistischen Signifikanz. Damit lässt sich also Prüfen ob ein Koeffizient signifikant unterschiedlich von Null ist. Wie weiter oben bei der Interpretation der Modellkoeffizienten besprochen, macht es im Beispiel keinen Sinn, dies für den Achsenabschnitt zu interpretieren, da es unmöglich ist, dass eine Person Null Kilogramm wiegt. Hingegen lässt sich die Prüfung der Steigung auf den Unterschied zu Null interpretierten. Die Null ist deutlich nicht im Vertrauensintervall enthalten und der p-Wert liegt deutlich unterhalb des Signifikanzniveaus. Daher ist es sehr unwahrscheinlich, dass die Steigung Null beträgt und es damit sehr wahrscheinlich einen linearen Zusammenahng zwischen dem geschätzten und gemessenen Körpergewicht gibt.
Wie gut “passt” Modell?
Wie im vorherigen Abschnitt erwähnt, ist ein Modell immer eine Vereinfachung. Somit muss beurteilt werden wie gut das Modell zu den Daten passt. Die geschieht übers Bestimmtheitsmass $R^2$, welches 0.95 beträgt. Dieser Wert besagt, dass das lineare Modell 95% der Variation des gemessenen Körpergewichts erklären kann. Also den Grossteil und damit passt das Modell sehr gut. Erstrebenswert sind natürlich 100%, denn in diesem Fall wäre der Zusammenhang perfekt linear (alle Punkte auf einer Linie) und das Modell könnte die Daten komplett erklären. Ist $R^2 > 0.5$ kann man von einem starken linearen Zusammenhang sprechen (siehe Handout LE5 Slide Nr. 38). Das ist hier der Fall und der Zusammenhang kann als sehr stark bezeichnet werden. Dies widerspiegelt sich im Wert $R = 0.97$, welcher bei der linearen Regression gerade dem Pearson-Korrelationskoeffizienten entspricht. Der Wert ist der selbe wie bei Aufgabe 4 und man kommt zum Schluss, dass es sich um einen starken positiven linearen Zusammenhang zwischen dem geschätzen und gemessenen Körpergewicht handelt.
Prüfung der Annahmen
Wir haben gelernt, dass die Schlüsse aus inferenzstatistsichen Verfahren nur unter gewissen Voraussetzungen valide sind (z.B. Annahme der Normalverteilung in beiden Gruppen beim parametrsichen Vergleich von zwei unabhängigen Gruppen). Ähnliche Voraussetzungen gelten auch bei der linearen Regression und müssen zur weiteren Beurteilung der Güte des Modells berücksichtigt werden.
Linearer Zusammenhang?
Zuerst muss natürlich visuell geprüft werden ob es sich überhauput um einen möglichen linearen Zusamemnhang handelt. Das ist laut dem Streudiagramm offensichtlich der Fall (man kann sich sehr gut eine Gerade in die Punktewolke “hineindenken”). Die lineare Regression scheint also für den Beschrieb des Zusammenhangs geeignet zu sein.
Normalverteilung der Residuen
Die Residuen (vgl. Handout LE5 Slide Nr. 37), also alle Abweichungen der Daten von der Regressionsgeraden, sollten normalverteilt sein. Dies wird über den QQ-Plot beurteilt und sieht für unser Beispiel nicht ganz so optimal aus.
Konstante Variabilität der Residuen
Die Residuen sollten keine Streuungsmuster entlang der Regressionslinie vorweisen. Das heisst, sie sollten entlang der Regressionsgeraden immer gleichmässig um die Gerade herum gestreut sein. Dies überprüft man am besten mit dem Diagramm wo die Residuals gegenüber den Fitted (Werten des Modells) aufgetragen sind. Die Bedingung scheint für unser Beispiel gut erfüllt, denn die Streuung scheint ziemlich kosntant über den Wertebereich der Werte des Modells.
Literatur
McClure, Scott T., Haley Schlechter, Susan Oh, Karen White, Beiwen Wu, Scott Jordan Pilla, Nisa M. Maruthur, Hsin-Chieh Yeh, Edgar R. Miller, and Lawrence J. Appel. 2020. “Dietary Intake of Adults with and Without Diabetes: Results from NHANES 2013-2016.” BMJ Open Diabetes Research & Care 8 (October). https://doi.org/10.1136/bmjdrc-2020-001681.