Antagandena som ingår i statistisk modellering beskriver en uppsättning sannolikhetsfördelningar, av vilka några antas approximera fördelningen adekvat. En specifik uppsättning data väljs från definitionen. Sannolikhetsfördelningarna som är inneboende i statistisk modellering är det som skiljer statistiska modeller från andra, icke-statistiska, matematiska modeller.
Anslutning till matematik
Denna vetenskapliga metod är främst förankrad i matematik. Statistisk modellering av system ges vanligtvis av matematiska ekvationer som relaterar en eller flera slumpvariabler och eventuellt andra icke-slumpvariabler. Således är en statistisk modell en "formell representation av en teori" (Hermann Ader, citerar Kenneth Bollen).
Alla statistiska hypotestester och alla statistiska uppskattningar härleds från statistiska modeller. Mer allmänt är statistiska modeller en del av grunden för statistisk slutledning.
Statistiska metodermodellering
Informellt sett kan en statistisk modell ses som ett statistiskt antagande (eller en uppsättning statistiska antaganden) med en viss egenskap: detta antagande tillåter oss att beräkna sannolikheten för vilken händelse som helst. Som ett exempel, betrakta ett par vanliga sexsidiga tärningar. Vi kommer att studera två olika statistiska antaganden om benet.
Det första statistiska antagandet utgör den statistiska modellen, eftersom vi med endast ett antagande kan beräkna sannolikheten för vilken händelse som helst. Det alternativa statistiska antagandet utgör inte en statistisk modell, eftersom vi med endast ett antagande inte kan beräkna sannolikheten för varje händelse.
I exemplet ovan med det första antagandet är det lätt att beräkna sannolikheten för en händelse. Men i vissa andra exempel kan beräkningen vara komplex eller till och med opraktisk (det kan till exempel kräva miljontals år av beräkning). För antagandet som utgör en statistisk modell är denna svårighet acceptabel: att utföra beräkningen behöver inte vara praktiskt genomförbart, bara teoretiskt möjligt.
Exempel på modeller
Anta att vi har en befolkning av skolbarn med jämnt fördelade barn. Ett barns längd kommer att vara stokastiskt relaterad till ålder: när vi till exempel vet att ett barn är 7 år, påverkar detta sannolikheten att barnet blir 5 fot högt (ca 152 cm). Vi skulle kunna formalisera detta förhållande i en linjär regressionsmodell, till exempel: tillväxt=b0 + b1agei+ εi, där b0 är skärningspunkten, b1 är parametern som åldern multipliceras med när tillväxtprognosen erhålls, εi är feltermen. Detta innebär att höjden förutsägs av ålder med vissa fel.
En giltig modell måste matcha alla datapunkter. Så en rät linje (heighti=b0 + b1agei) kan inte vara en ekvation för en datamodell - om den inte passar alla datapunkter exakt, dvs alla datapunkter ligger perfekt på linjen. Feltermen εi måste inkluderas i ekvationen för att modellen ska passa alla datapunkter.
För att göra en statistisk slutledning måste vi först anta några sannolikhetsfördelningar för εi. Till exempel kan vi anta att fördelningarna av εi är Gaussiska, med noll medelvärde. I det här fallet kommer modellen att ha 3 parametrar: b0, b1 och variansen för den gaussiska fördelningen.
Allmän beskrivning
En statistisk modell är en speciell klass av matematiska modeller. Det som skiljer en statistisk modell från andra matematiska modeller är att den är icke-deterministisk. Den används för att modellera statistiska data. Således, i en statistisk modell definierad med matematiska ekvationer, har vissa variabler inga specifika värden, utan har istället sannolikhetsfördelningar; det vill säga att vissa variabler är stokastiska. I exemplet ovan är ε en stokastisk variabel; utan denna variabel var modellenskulle vara deterministiskt.
Statistiska modeller används ofta i statistisk analys och modellering, även om den fysiska processen som modelleras är deterministisk. Till exempel är att kasta mynt i princip en deterministisk process; ändå modelleras den vanligtvis som stokastisk (via en Bernoulli-process).
Parametriska modeller
Parametriska modeller är de mest använda statistiska modellerna. När det gäller semi-parametriska och icke-parametriska modeller sa Sir David Cox: "De inkluderar i allmänhet färre antaganden om fördelningens struktur och form, men innehåller vanligtvis starka antaganden om oberoende." Liksom alla andra nämnda modeller används de också ofta i den statistiska metoden för matematisk modellering.
Flernivåmodeller
Flernivåmodeller (även kända som hierarkiska linjära modeller, kapslade datamodeller, blandade modeller, slumpmässiga koefficienter, slumpeffektmodeller, slumpmässiga parametermodeller eller partitionerade modeller) är statistiska parametermodeller som varierar på mer än en nivå. Ett exempel är en elevprestationsmodell som innehåller mått för enskilda elever samt mått för klassrum där eleverna är grupperade. Dessa modeller kan ses som generaliseringar av linjära modeller (särskilt linjär regression), även om de också kan utvidgas till icke-linjära modeller. Dessa modeller har blivitmycket mer populär när tillräcklig datorkraft och programvara blev tillgänglig.
Modeller för flera nivåer är särskilt lämpade för forskningsprojekt där data för deltagare är organiserad på mer än en nivå (dvs kapslade data). Analysenheter är vanligtvis individer (på en lägre nivå) som är kapslade i kontext-/aggregatenheter (på en högre nivå). Även om den lägsta nivån av data i flernivåmodeller vanligtvis är individuell, kan upprepade mätningar av individer också övervägas. Flernivåmodeller tillhandahåller således en alternativ typ av analys för univariat eller multivariat upprepad mätanalys. Individuella skillnader i tillväxtkurvor kan övervägas. Dessutom kan flernivåmodeller användas som ett alternativ till ANCOVA, där beroende variabelpoäng justeras för kovariater (t.ex. individuella skillnader) innan man testar för behandlingsskillnader. Flernivåmodeller kan analysera dessa experiment utan antagandet om enhetliga regressionslutningar som krävs av ANCOVA.
Flernivåmodeller kan användas för data med många nivåer, även om tvånivåmodeller är de vanligaste och resten av den här artikeln fokuserar på dessa. Den beroende variabeln bör undersökas på den lägsta analysnivån.
modellval
Val av modellär uppgiften att välja från en uppsättning kandidatmodeller givet data, utfört inom ramen för statistisk modellering. I de enklaste fallen övervägs en redan befintlig datamängd. Uppgiften kan dock också innebära att utforma experiment så att den insamlade datan är väl lämpad för modellvalsuppgiften. Med tanke på kandidatmodeller med liknande prediktiv eller förklaringsförmåga är den enklaste modellen sannolikt det bästa valet (Occams rakkniv).
Konishi & Kitagawa säger, "De flesta statistiska slutledningsproblem kan betraktas som problem relaterade till statistisk modellering." På samma sätt sa Cox, "Hur översättningen av ämnet till den statistiska modellen går till är ofta den viktigaste delen av analysen."
Val av modell kan också hänvisa till problemet med att välja några få representativa modeller från en stor uppsättning beräkningsmodeller för besluts- eller optimeringsändamål under osäkerhet.
Grafiska mönster
Grafisk modell, eller probabilistisk grafisk modell, (PGM) eller strukturerad probabilistisk modell, är en probabilistisk modell för vilken grafen uttrycker strukturen för ett villkorligt samband mellan slumpvariabler. De används ofta inom sannolikhetsteori, statistik (särskilt Bayesiansk statistik) och maskininlärning.
Ekonometriska modeller
Ekonometriska modeller är statistiska modeller som används iekonometri. En ekonometrisk modell definierar de statistiska sambanden som tros existera mellan olika ekonomiska storheter relaterade till ett visst ekonomiskt fenomen. En ekonometrisk modell kan härledas från en deterministisk ekonomisk modell som tar hänsyn till osäkerhet, eller från en ekonomisk modell som i sig är stokastisk. Det är dock också möjligt att använda ekonometriska modeller som inte är bundna till någon speciell ekonomisk teori.