Klustermetoden är uppgiften att gruppera en uppsättning objekt på ett sådant sätt att de i samma grupp är mer lika varandra än objekt i andra branscher. Det är den primära uppgiften för datautvinning och en allmän statistisk analysteknik som används inom många områden, inklusive maskininlärning, mönsterigenkänning, bildigenkänning, informationshämtning, datakomprimering och datorgrafik.
Optimeringsproblem
Klustrmetoden i sig är inte en specifik algoritm, utan en allmän uppgift som måste lösas. Detta kan uppnås med olika algoritmer som skiljer sig markant när det gäller att förstå vad som utgör en grupp och hur man hittar den effektivt. Användningen av klustringsmetoden för bildandet av metasubjekt inkluderar användningen av en grupp medsmå avstånd mellan medlemmar, täta områden i rymden, intervaller eller vissa statistiska fördelningar. Därför kan klustring formuleras som ett optimeringsproblem med flera mål.
Lämplig metod och parameterinställningar (inklusive objekt som avståndsfunktionen som ska användas, densitetströskeln eller antalet förväntade kluster) beror på den individuella datamängden och den avsedda användningen av resultaten. Analys som sådan är inte en automatisk uppgift, utan en iterativ process av kunskapsupptäckt eller interaktiv multi-objektiv optimering. Denna klustringsmetod inkluderar försök och fel. Det är ofta nödvändigt att ändra dataförbearbetning och modellparametrar tills resultatet uppnår önskade egenskaper.
Förutom termen "klustring" finns det ett antal ord med liknande betydelser, inklusive automatisk klassificering, numerisk taxonomi, bothryologi och typologisk analys. Subtila skillnader ligger ofta i användningen av klustringsmetoden för att bilda metasubjektsrelationer. Även om de resulterande grupperna är intressanta vid dataextraktion, är det redan i automatisk klassificering den diskriminerande makten som utför dessa funktioner.
Klusteranalys baserades på många verk av Kroeber 1932. Det introducerades i psykologin av Zubin 1938 och av Robert Tryon 1939. Och dessa verk har använts av Cattell sedan 1943 för att ange klassificeringen av klustringsmetoder i teorin.
period
Begreppet "kluster" kan inte definieras exakt. Detta är en av anledningarna till att det finns så många klustringsmetoder. Det finns en gemensam nämnare: en grupp dataobjekt. Men olika forskare använder olika modeller. Och var och en av dessa användningar av klustringsmetoder involverar olika data. Konceptet som hittas av olika algoritmer skiljer sig markant i sina egenskaper.
Att använda klustringsmetoden är nyckeln till att förstå skillnaderna mellan instruktionerna. Typiska klustermönster inkluderar:
- Centroid s. Detta är till exempel när k-betyder klustring representerar varje kluster med en medelvektor.
- Anslutningsmodell s. Detta är till exempel hierarkisk klustring, som bygger modeller baserade på distansuppkoppling.
- Distributionsmodell s. I det här fallet modelleras kluster med hjälp av klustringsmetoden för att bilda statistiska metasubjektfördelningar. Som multivariat normalseparation, som är tillämplig på algoritmen för förväntningsmaximering.
- Densitetsmodell s. Dessa är till exempel DBSCAN (Spatial Clustering Algorithm with Noise) och OPTICS (Order Points for Structure Detection), som definierar kluster som anslutna täta regioner i datarymden.
- Subspace modell c. Vid biklustering (även känd som co-clustering eller tvålägen) modelleras grupper med båda elementen och med lämpliga attribut.
- Modell s. Vissa algoritmer gör det inteförfinat förhållande för deras klustringsmetod för att generera meta-ämnesresultat och helt enkelt tillhandahålla informationsgruppering.
- Modell baserad på grafer. En klick, det vill säga en undergrupp av noder, så att varannan anslutning i kantdelen kan betraktas som en prototyp av klusterformen. Försvagningen av den totala efterfrågan kallas kvasi-klickar. Exakt samma namn presenteras i HCS-klustringsalgoritmen.
- Neurala modeller s. Det mest kända oövervakade nätverket är den självorganiserande kartan. Och det är dessa modeller som vanligtvis kan karakteriseras som liknande en eller flera av ovanstående klustringsmetoder för bildandet av metasubjektresultat. Det inkluderar subrymdsystem när neurala nätverk implementerar den nödvändiga formen av principiell eller oberoende komponentanalys.
Denna term är i själva verket en uppsättning sådana grupper, som vanligtvis innehåller alla objekt i uppsättningen av dataklustringsmetoder. Dessutom kan det indikera förhållandet mellan kluster till varandra, såsom en hierarki av system inbyggda i varandra. Grupperingen kan delas in i följande aspekter:
- Hård centroid-klustringsmetod. Här tillhör varje objekt en grupp eller är utanför den.
- Mjukt eller luddigt system. Vid denna tidpunkt tillhör varje objekt redan i viss utsträckning ett kluster. Det kallas också c-means fuzzy clustering-metoden.
Och mer subtila skillnader är också möjliga. Till exempel:
- Strikt partitioneringsklustring. Härvarje objekt tillhör exakt en grupp.
- Strikt partitioneringsklustring med extremvärden. I det här fallet kanske objekt inte heller tillhör något kluster och anses vara onödiga.
- Överlappande klustring (även alternativ, med flera vyer). Här kan föremål tillhöra mer än en gren. Vanligtvis involverar solida kluster.
- Hierarkiska klustringsmetoder. Objekt som tillhör en underordnad grupp tillhör också det överordnade undersystemet.
- Bildande av delutrymme. Även om de liknar överlappande kluster, inom ett unikt definierat system, bör ömsesidiga grupper inte överlappa varandra.
Instruktioner
Som nämnts ovan kan klustringsalgoritmer klassificeras baserat på deras klustermodell. Följande recension kommer endast att lista de mest framträdande exemplen på dessa instruktioner. Eftersom det kan finnas över 100 publicerade algoritmer tillhandahåller inte alla modeller för sina kluster och kan därför inte lätt klassificeras.
Det finns ingen objektivt korrekt klustringsalgoritm. Men, som noterats ovan, är instruktionen alltid i betraktarens synfält. Den mest lämpliga klustringsalgoritmen för ett visst problem måste ofta väljas experimentellt, om det inte finns ett matematiskt skäl för att föredra en modell framför en annan. Det bör noteras att en algoritm designad för en enda typ vanligtvis inte fungerar meden datauppsättning som innehåller ett radik alt annorlunda ämne. Till exempel kan k-means inte hitta icke-konvexa grupper.
Anslutningsbaserad klustring
Detta förbund är också känt under sitt namn, den hierarkiska modellen. Den bygger på den typiska idén att föremål är mer kopplade till angränsande delar än till de som är mycket längre bort. Dessa algoritmer kopplar samman objekt och bildar olika kluster, beroende på deras avstånd. En grupp kan huvudsakligen beskrivas med det maximala avstånd som behövs för att koppla samman de olika delarna av klustret. På alla möjliga avstånd kommer andra grupper att bildas, som kan representeras med hjälp av ett dendrogram. Detta förklarar var det vanliga namnet "hierarkisk klustring" kommer ifrån. Det vill säga att dessa algoritmer inte tillhandahåller en enda partition av datasetet, utan tillhandahåller istället en omfattande auktoritetsordning. Det är tack vare honom att det finns ett avlopp med varandra på vissa avstånd. I ett dendrogram betecknar y-axeln det avstånd på vilket klustren kommer samman. Och objekten är ordnade längs X-linjen så att grupperna inte blandas.
Anslutningsbaserad klustring är en hel familj av metoder som skiljer sig åt i hur de beräknar avstånd. Utöver det vanliga valet av avståndsfunktioner behöver användaren även bestämma anslutningskriteriet. Eftersom ett kluster består av flera objekt, finns det många alternativ för att beräkna det. Ett populärt val är känt som enspaksgruppering, detta är metodenfullständig länk, som innehåller UPGMA eller WPGMA (oviktad eller viktad ensemble av par med aritmetiskt medelvärde, även känt som medellänkklustring). Dessutom kan det hierarkiska systemet vara agglomerativt (som börjar med enskilda element och kombinerar dem i grupper) eller delar upp (börjar med en komplett datamängd och delar upp den i sektioner).
Distribuerad klustring
Dessa modeller är närmast relaterade till statistik som är baserad på uppdelningar. Kluster kan enkelt definieras som objekt som med största sannolikhet tillhör samma distribution. En praktisk funktion med detta tillvägagångssätt är att det är mycket likt sättet som artificiella datauppsättningar skapas. Genom att sampla slumpmässiga objekt från en distribution.
Även om den teoretiska grunden för dessa metoder är utmärkt, lider de av ett nyckelproblem, känt som övermontering, om inte gränser sätts på modellens komplexitet. En större förening kommer vanligtvis att förklara data bättre, vilket gör det svårt att välja rätt metod.
Gaussisk blandningsmodell
Den här metoden använder alla typer av algoritmer för förväntningsmaximering. Här modelleras datasetet vanligtvis med ett fast (för att undvika att åsidosätta) antal gaussiska distributioner som initieras slumpmässigt och vars parametrar är iterativt optimerade för att bättre passa datamängden. Detta system kommer att konvergera till ett lok alt optimum. Det är därför flera körningar kan geolika resultat. För att få den snävaste klustringen tilldelas funktioner ofta till den gaussiska distribution som de med största sannolikhet hör till. Och för mjukare grupper är detta inte nödvändigt.
Distributionsbaserad klustring skapar komplexa modeller som i slutändan kan fånga korrelationen och beroendet mellan attribut. Men dessa algoritmer lägger en extra börda på användaren. För många datauppsättningar i den verkliga världen kanske det inte finns en kortfattat definierad matematisk modell (om man till exempel antar att en Gauss-fördelning är ett ganska starkt antagande).
Densitetsbaserad klustring
I det här exemplet definieras grupperna i grunden som områden med högre ogenomtränglighet än resten av datamängden. Föremål i dessa sällsynta delar, som är nödvändiga för att separera alla komponenter, betraktas vanligtvis som brus- och kantpunkter.
Den mest populära densitetsbaserade klustringsmetoden är DBSCAN (Spatial Noise Clustering Algorithm). Till skillnad från många nyare metoder har den en väldefinierad klusterkomponent som kallas "density reachability". I likhet med länkbaserad klustring baseras den på anslutningspunkter inom vissa avståndströsklar. Denna metod samlar dock bara in de föremål som uppfyller densitetskriteriet. I originalversionen, definierad som det minsta antalet andra objekt i denna radie, består klustret av alladensitetsrelaterade objekt (som kan bilda en friformsgrupp, till skillnad från många andra metoder), och alla objekt som ligger inom det tillåtna intervallet.
En annan intressant egenskap hos DBSCAN är att dess komplexitet är ganska låg - det kräver ett linjärt antal intervallfrågor mot databasen. Och ovanligt är också att det kommer att hitta i huvudsak samma resultat (detta är deterministiskt för kärn- och bruspunkter, men inte för gränselement) i varje körning. Därför finns det ingen anledning att köra den flera gånger.
Den största nackdelen med DBSCAN och OPTICS är att de förväntar sig en viss minskning av densiteten för att upptäcka klustergränser. Till exempel, i datauppsättningar med överlappande Gauss-fördelningar – ett vanligt användningsfall för konstgjorda objekt – verkar klustergränserna som genereras av dessa algoritmer ofta godtyckliga. Detta beror på att tätheten av grupper kontinuerligt minskar. Och i en Gaussisk blandningsdatauppsättning överträffar dessa algoritmer nästan alltid metoder som EM-klustring, som kan exakt modellera dessa typer av system.
Mean displacement är en klustringsmetod där varje objekt flyttas till det tätaste området i grannskapet baserat på en uppskattning av hela kärnan. I slutändan konvergerar objekten till lokala ogenomtränglighetsmaxima. I likhet med k-betyder klustring kan dessa "densitetsatttraktorer" fungera som representanter för en datauppsättning. Men det genomsnittliga skiftetkan upptäcka godtyckligt formade kluster som liknar DBSCAN. På grund av den dyra iterativa proceduren och densitetsuppskattningen är den genomsnittliga förskjutningen vanligtvis långsammare än DBSCAN eller k-Means. Dessutom är tillämpligheten av den typiska skiftalgoritmen på högdimensionella data svår på grund av det olikformiga beteendet hos kärndensitetsuppskattningen, vilket leder till överdriven fragmentering av klustrets svansar.
Betyg
Att verifiera klustringsresultat är lika svårt som att klustera sig själv. Populära tillvägagångssätt inkluderar "intern" poängsättning (där systemet reduceras till ett enda kvalitetsmått) och, naturligtvis, "extern" poängsättning (där klustringen jämförs med en befintlig klassificering av "ground truth"). Och den mänskliga expertens manuella poäng och indirekta poäng hittas genom att undersöka användbarheten av klustring i den avsedda applikationen.
Interna flaggåtgärder lider av problemet att de representerar egenskaper som i sig kan betraktas som klustermål. Till exempel är det möjligt att gruppera data som ges av Silhouette-koefficienten, förutom att det inte finns någon känd effektiv algoritm för att göra det. Genom att använda ett sådant internt mått för utvärdering är det bättre att jämföra likheten mellan optimeringsproblem.
Det yttre märket har liknande problem. Om det finns sådana etiketter för "grundsanning", så finns det inget behov av att klustra. Och i praktiska tillämpningar finns det vanligtvis inga sådana begrepp. Å andra sidan återspeglar etiketterna endast en möjlig partition av datamängden, vilket inte betyderatt det inte finns någon annan (kanske ännu bättre) klustring.
Så ingen av dessa metoder kan i slutändan bedöma den faktiska kvaliteten. Men detta kräver mänsklig utvärdering, vilket är mycket subjektivt. Ändå kan sådan statistik vara informativ för att identifiera dåliga kluster. Men man bör inte bortse från den subjektiva bedömningen av en person.
Inner märke
När resultatet av en klustring utvärderas baserat på data som själv har klustrats kallas detta för denna term. Dessa metoder tilldelar i allmänhet det bästa resultatet till en algoritm som skapar grupper med hög likhet inom och låg mellan grupper. En av nackdelarna med att använda interna kriterier vid klusterutvärdering är att höga poäng inte nödvändigtvis leder till effektiva tillämpningar för informationssökning. Denna poäng är också partisk mot algoritmer som använder samma modell. Till exempel optimerar k-betyder klustring naturligt funktionsavstånd, och ett internt kriterium baserat på det kommer sannolikt att överskatta den resulterande klustringen.
Därför är dessa utvärderingsmått bäst lämpade för att få en uppfattning om situationer där en algoritm presterar bättre än en annan. Men detta betyder inte att varje information ger mer tillförlitliga resultat än andra. Giltighetsperioden mätt med ett sådant index beror på påståendet att strukturen finns i datamängden. En algoritm utvecklad för vissa typer har ingen chans om uppsättningen innehåller radik altannan sammansättning eller om bedömningen mäter olika kriterier. Till exempel kan k-medelkluster bara hitta konvexa kluster, och många poängindex antar samma format. I en datauppsättning med icke-konvexa modeller är det olämpligt att använda k-medel och typiska utvärderingskriterier.
Extern utvärdering
Med den här typen av bollning utvärderas klustringsresultat baserat på data som inte användes för gruppering. Det vill säga som kända klassetiketter och externa tester. Sådana frågor består av en uppsättning förklassificerade föremål och skapas ofta av experter (människor). Som sådan kan referenssatser ses som guldstandarden för utvärdering. Dessa typer av poängmetoder mäter hur nära klustringen är givna referensklasser. Det har dock nyligen diskuterats om detta är adekvat för verkliga data eller endast för syntetiska uppsättningar med verklig grundsanning. Eftersom klasser kan innehålla intern struktur, och de befintliga attributen kanske inte tillåter separation av kluster. Dessutom, ur kunskapsupptäcktssynpunkt, ger återgivning av kända fakta inte nödvändigtvis det förväntade resultatet. I ett speciellt begränsat klustringsscenario där metainformation (som klassetiketter) redan används i grupperingsprocessen, är det inte trivi alt att behålla all information för utvärderingsändamål.
Nu är det klart vad som inte gäller för klustringsmetoder, och vilka modeller som används för dessa ändamål.