Metoder för logistisk regression och diskriminantanalys används när det är nödvändigt att tydligt differentiera respondenterna efter målkategorier. I det här fallet representeras själva grupperna av nivåer av en parameter med en enda variant. Låt oss titta närmare på den logistiska regressionsmodellen och ta reda på varför den behövs.
Allmän information
Ett exempel på ett problem där logistisk regression används är klassificeringen av respondenter i grupper som köper och inte köper senap. Differentiering görs i enlighet med sociodemografiska egenskaper. Dessa inkluderar i synnerhet ålder, kön, antal anhöriga, inkomst etc. Inom verksamheten finns differentieringskriterier och en variabel. Den senare kodar de målkategorier som de tillfrågade faktiskt ska delas in i.
Nyanser
Det ska sägas att utbudet av fall där logistisk regression tillämpas är mycket snävare än för diskriminantanalys. I detta avseende övervägs användningen av den senare som en universell metod för differentieringmer föredraget. Dessutom rekommenderar experter att man börjar klassificeringsstudier med diskriminantanalys. Och endast vid osäkerhet om resultaten kan du använda logistisk regression. Detta behov beror på flera faktorer. Logistisk regression används när det finns en klar förståelse för typen av oberoende och beroende variabler. Följaktligen väljs en av de 3 möjliga procedurerna. I diskriminant analys sysslar forskaren alltid med en statisk operation. Det involverar en beroende och flera oberoende kategoriska variabler med vilken typ av skala som helst.
Visningar
Uppgiften för en statistisk studie som använder logistisk regression är att bestämma sannolikheten för att en viss respondent kommer att tilldelas en viss grupp. Differentiering utförs enligt vissa parametrar. I praktiken, enligt värderingarna av en eller flera oberoende faktorer, är det möjligt att klassificera respondenterna i två grupper. I detta fall sker binär logistisk regression. De angivna parametrarna kan också användas vid indelning i grupper om fler än två. I en sådan situation sker multinomial logistisk regression. De resulterande grupperna uttrycks i nivåer av en enda variabel.
Exempel
Låt oss säga att det finns respondenternas svar på frågan om de är intresserade av erbjudandet om att köpa en tomt i Moskvas förorter. Alternativen är "nej"och ja. Det är nödvändigt att ta reda på vilka faktorer som har en övervägande inverkan på potentiella köpares beslut. För att göra detta ställs respondenterna frågor om territoriets infrastruktur, avståndet till huvudstaden, området på platsen, närvaron / frånvaron av ett bostadshus, etc. Med hjälp av binär regression är det möjligt att distribuera respondenterna i två grupper. Den första kommer att inkludera de som är intresserade av förvärvet - potentiella köpare, och den andra, respektive de som inte är intresserade av ett sådant erbjudande. För varje respondent kommer dessutom sannolikheten att tilldelas en eller annan kategori att beräknas.
Jämförande egenskaper
Skillnaden från de två alternativen ovan är olika antal grupper och typen av beroende och oberoende variabler. Vid binär regression studeras till exempel en dikotom faktors beroende av ett eller flera oberoende förhållanden. Dessutom kan den senare ha vilken typ av våg som helst. Multinomial regression anses vara en variant av detta klassificerings alternativ. I den hör mer än 2 grupper till den beroende variabeln. De oberoende faktorerna måste ha antingen en ordningsskala eller en nominell skala.
Logistisk regression i spss
I statistikpaketet 11-12 introducerades en ny version av analys - ordinal. Denna metod används när den beroende faktorn tillhör samma namn (ordnings-) skala. I detta fall väljs oberoende variabler av en specifik typ. De måste vara antingen ordinala eller nominella. Klassificeringen i flera kategorier anses mestuniversell. Denna metod kan användas i alla studier som använder logistisk regression. Det enda sättet att förbättra kvaliteten på en modell är dock att använda alla tre teknikerna.
Ordinal klassificering
Det ska sägas att det tidigare i statistikpaketet inte fanns någon typisk möjlighet att utföra specialiserad analys för beroende faktorer med en ordinalskala. För alla variabler med fler än 2 grupper användes den multinominella varianten. Den relativt nyligen införda ordningsanalysen har ett antal funktioner. De tar hänsyn till skalans särdrag. Samtidigt, i läromedel, betraktas ofta inte ordinär logistisk regression som en separat teknik. Detta beror på följande: ordningsanalys har inte några betydande fördelar jämfört med multinomial. Forskaren kan mycket väl använda den senare i närvaro av både en ordinal och en nominell beroende variabel. Samtidigt skiljer sig själva klassificeringsprocesserna nästan inte från varandra. Det betyder att en ordningsanalys inte kommer att orsaka några svårigheter.
Analys alternativ
Låt oss överväga ett enkelt fall - binär regression. Anta att efterfrågan på utexaminerade från ett visst storstadsuniversitet bedöms i samband med marknadsundersökningar. I frågeformuläret fick respondenterna frågor, inklusive:
- Är du anställd? (ql).
- Ange examensår (f 21).
- Vad är genomsnittetexamenspoäng (genomsnitt).
- Kön (q22).
Logistisk regression kommer att utvärdera effekten av oberoende faktorer aver, q 21 och q 22 på variabeln ql. Enkelt uttryckt kommer syftet med analysen att vara att fastställa den sannolika anställningen av akademiker baserat på information om fältet, examensår och GPA.
Logistisk regression
För att ställa in parametrar med binär regression, använd menyn Analysera►Regression►Binär logistik. I fönstret Logistic Regression väljer du den beroende faktorn från listan över tillgängliga variabler till vänster. Det är ql. Denna variabel måste placeras i fältet Dependent. Efter det är det nödvändigt att införa oberoende faktorer i Covariates plot - q 21, q 22, medelvärde. Sedan måste du välja hur du ska ta med dem i din analys. Om antalet oberoende faktorer är mer än 2, används metoden för samtidig introduktion av alla variabler, som är inställd som standard, men steg för steg. Det mest populära sättet är Backward:LR. Genom att använda knappen Välj kan du inte ta med alla respondenter i studien, utan bara en specifik målkategori.
Definiera kategoriska variabler
Kategorisk-knappen ska användas när en av de oberoende variablerna är nominell med fler än 2 kategorier. I den här situationen, i fönstret Definiera kategoriska variabler, placeras just en sådan parameter i avsnittet Kategoriska kovariater. I det här exemplet finns det ingen sådan variabel. Därefter följer i rullgardinsmenyn Contrastvälj alternativet Avvikelse och tryck på knappen Ändra. Som ett resultat kommer flera beroende variabler att bildas från varje nominell faktor. Deras antal motsvarar antalet kategorier i det initiala villkoret.
Spara nya variabler
Med hjälp av knappen Spara i studiens huvuddialogruta ställs nya parametrar in. De kommer att innehålla de indikatorer som beräknats i regressionsprocessen. I synnerhet kan du skapa variabler som definierar:
- Tillhör en specifik klassificeringskategori (gruppmedlemskap).
- Sannolikhet att tilldela en respondent till varje studiegrupp (Probabilities).
När du använder knappen Alternativ får forskaren inga betydande alternativ. Följaktligen kan den ignoreras. Efter att ha klickat på knappen "OK" kommer analysresultaten att visas i huvudfönstret.
Kvalitetskontroll för tillräcklighet och logistisk regression
Tänk på tabellen Omnibus Testsof Model Coefficients. Den visar resultaten av analysen av kvaliteten på approximationen av modellen. På grund av det faktum att ett steg-för-steg- alternativ ställdes in, måste du titta på resultaten från det sista steget (steg 2). Ett positivt resultat kommer att övervägas om en ökning av Chi-kvadratindikatorn hittas vid övergång till nästa steg med en hög grad av signifikans (Sig. < 0,05). Kvaliteten på modellen utvärderas i modelllinjen. Om ett negativt värde erhålls, men det inte anses signifikant med modellens övergripande höga materialitet, kommer det sistakan anses praktiskt lämplig.
Bord
Model Summary gör det möjligt att uppskatta det totala variansindexet, vilket beskrivs av den konstruerade modellen (R Square index). Det rekommenderas att använda Nagelker-värdet. Nagelkerke R Square-parametern kan betraktas som en positiv indikator om den är över 0,50. Därefter utvärderas resultaten av klassificeringen, där de faktiska indikatorerna för att tillhöra en eller annan kategori som studeras jämförs med de som förutspås utifrån regressionsmodellen. För detta används klassificeringstabellen. Det tillåter oss också att dra slutsatser om huruvida differentieringen är korrekt för varje grupp som övervägs.
Följande tabell ger en möjlighet att ta reda på den statistiska signifikansen för de oberoende faktorer som ingår i analysen, såväl som varje icke-standardiserad logistisk regressionskoefficient. Baserat på dessa indikatorer är det möjligt att förutsäga tillhörigheten för varje respondent i urvalet till en viss grupp. Med knappen Spara kan du ange nya variabler. De kommer att innehålla information om att tillhöra en viss klassificeringskategori (Predictedcategory) och sannolikheten att ingå i dessa grupper (Predicted probabilities membership). Efter att ha klickat på "OK" kommer beräkningsresultaten att visas i huvudfönstret för Multinomial Logistic Regression.
Den första tabellen, som innehåller indikatorer som är viktiga för forskaren, är Model Fitting Information. En hög nivå av statistisk signifikans skulle tyda på hög kvalitet ochlämpligheten att använda modellen för att lösa praktiska problem. En annan viktig tabell är Pseudo R-Square. Det låter dig uppskatta andelen total varians i den beroende faktorn, som bestäms av de oberoende variabler som v alts ut för analys. Enligt tabellen Likelihood Ratio Tests kan vi dra slutsatser om den senares statistiska signifikans. Parameteruppskattningar återspeglar icke-standardiserade koefficienter. De används i konstruktionen av ekvationen. För varje kombination av variabler bestämdes dessutom den statistiska signifikansen av deras inverkan på den beroende faktorn. Samtidigt, i marknadsundersökningar, blir det ofta nödvändigt att differentiera respondenterna efter kategori, inte individuellt, utan som en del av målgruppen. För detta används tabellen Observedand Predicted Frequency.
Praktisk tillämpning
Den övervägda analysmetoden används i stor utsträckning i handlarens arbete. 1991 utvecklades den logistiska sigmoidregressionsindikatorn. Det är ett lättanvänt och effektivt verktyg för att förutsäga sannolika priser innan de "överhettas". Indikatorn visas på diagrammet som en kanal som bildas av två parallella linjer. De är lika åtskilda från trenden. Korridorens bredd beror enbart på tidsramen. Indikatorn används när man arbetar med nästan alla tillgångar - från valutapar till ädelmetaller.
I praktiken har 2 nyckelstrategier för att använda instrumentet utvecklats: för breakout ochen sväng. I det senare fallet kommer handlaren att fokusera på dynamiken i prisförändringar inom kanalen. När värdet närmar sig stöd- eller motståndslinjen, läggs en satsning på sannolikheten att rörelsen startar i motsatt riktning. Om priset kommer nära den övre gränsen kan du bli av med tillgången. Om det är vid den nedre gränsen bör du tänka på att köpa. Breakout-strategin innebär användning av order. De installeras utanför gränserna på ett relativt litet avstånd. Med tanke på att priset i vissa fall bryter mot dem under en kort tid, bör du spela säkert och ställa in stop loss. Samtidigt behöver naturligtvis handlaren, oavsett vald strategi, uppfatta och utvärdera den uppkomna situationen på marknaden så lugnt som möjligt.
Slutsats
Därmed låter användningen av logistisk regression dig snabbt och enkelt klassificera respondenter i kategorier enligt de givna parametrarna. När du analyserar kan du använda vilken speciell metod som helst. I synnerhet är multinomial regression universell. Men experter rekommenderar att du använder alla metoder som beskrivs ovan i kombination. Detta beror på det faktum att i det här fallet kommer kvaliteten på modellen att vara betydligt högre. Detta kommer i sin tur att utöka tillämpningsområdet.