Utvecklingen av informationsteknologi ger praktiska resultat. Men sådana uppgifter som att hitta, analysera och använda information har ännu inte fått ett effektivt verktyg av hög kvalitet. Det finns analyser och kvantitativa verktyg, de fungerar verkligen. Men en kvalitativ revolution i användningen av information har inte skett ännu.
Långt innan datorteknikens tillkomst behövde en person bearbeta stora mängder information och klarade av detta efter bästa möjliga erfarenhet och tillgängliga tekniska kapacitet.
Utvecklingen av kunskaper och färdigheter har alltid motsvarat verkliga behov och motsvarat aktuella uppgifter. Data mining är ett samlingsnamn som används för att referera till en uppsättning metoder för att upptäcka tidigare okänd, icke-trivial, praktiskt användbar och tillgänglig kunskap i data, nödvändig för att fatta beslut inom olika områden av mänsklig aktivitet.
Människa, intelligens, programmering
En person vet alltid hur man agerar i alla situationer. Okunskap eller en obekant situation hindrar honom inte från att fatta ett beslut. Objektiviteten och rimligheten i alla mänskliga beslut kan ifrågasättas, men det kommer att accepteras.
Intelligens bygger på: ärftlig "mekanism", förvärvad, aktiv kunskap. Kunskap används för att lösa problem som uppstår framför en person.
- Intelligence är en unik uppsättning kunskaper och färdigheter: möjligheter och grund för mänskligt liv och arbete.
- Intelligens utvecklas ständigt, och mänskliga handlingar påverkar andra människor.
Programmering är det första försöket att formalisera representationen av data och processen att skapa algoritmer.
Artificiell intelligens (AI) är ett slöseri med tid och resurser, men resultaten av förra seklets misslyckade försök inom AI-området fanns kvar i minnet, användes i olika expertsystem (intelligenta) och förvandlades, i synnerhet till algoritmer (regler) och matematisk (logisk) dataanalys och Data Mining.
Information och det vanliga sökandet efter en lösning
Ett vanligt bibliotek är ett förråd av kunskap, och det tryckta ordet och grafiken har ännu inte gett handflatan till datorteknik. Böcker om fysik, kemi, teoretisk mekanik, design, naturhistoria, filosofi, naturvetenskap, botanik, läroböcker, monografier, vetenskapsmäns verk, konferensmaterial, rapporter om utvecklingsarbete etc. är alltid relevanta och tillförlitliga.
Biblioteket är många olika källor som skiljer sig åtform av presentation av material, ursprung, struktur, innehåll, presentationsstil etc.
Utåt är allt synligt (läsbart, tillgängligt) för förståelse och användning. Du kan lösa alla problem, ställa in uppgiften korrekt, motivera lösningen, skriva en uppsats eller terminsuppsats, välja material för ett diplom, analysera källor om ämnet för en avhandling eller en vetenskaplig och analytisk rapport.
Alla informationsproblem kan lösas. Med vederbörlig uthållighet och skicklighet kommer ett exakt och tillförlitligt resultat att uppnås. I det här sammanhanget är Data Mining ett helt annat tillvägagångssätt.
Utöver resultatet får en person "aktiva länkar" till allt som sågs i processen för att nå målet. De källor som han använde för att lösa problemet kan hänvisas till och ingen kommer att bestrida att källan finns. Detta är ingen garanti för äkthet, men det är ett säkert vittnesmål till vem ansvaret för äktheten är "avtecknat". Ur denna synvinkel innebär Data Mining stora tvivel om tillförlitligheten och inga "aktiva" länkar.
Genom att lösa flera problem får en person resultat och utökar sin intellektuella potential till många "aktiva länkar". Om en ny uppgift "aktiverar" en redan befintlig länk kommer personen att veta hur man löser den: det finns ingen anledning att söka efter något igen.
"Aktiv länk" är en fast association: hur och vad man ska göra i ett visst fall. Den mänskliga hjärnan kommer automatiskt ihåg allt som verkar vara potentiellt intressant, användbart.eller sannolikt kommer att behövas i framtiden. På många sätt sker detta på ett undermedvetet plan, men så fort en uppgift dyker upp som kan förknippas med en "aktiv länk" dyker den omedelbart upp i sinnet och en lösning kommer att erhållas utan ytterligare informationssökning. Data Mining är alltid en upprepning av sökalgoritmen och denna algoritm ändras inte.
Vanlig sökning: "konstnärliga" problem
Matematikbibliotek och att söka information i det är en relativt svag uppgift. Att hitta på ett eller annat sätt att lösa en integral, bygga en matris eller utföra operationen att lägga till två imaginära tal är mödosamt, men enkelt. Du måste sortera igenom ett antal böcker, varav många är skrivna på ett specifikt språk, hitta rätt text, studera den och få den lösning som krävs.
Med tiden kommer uppräkningen att bli bekant, och den samlade erfarenheten gör att du kan navigera i biblioteksinformationen och andra matematiska problem. Detta är ett begränsat informationsutrymme med frågor och svar. En karakteristisk egenskap: en sådan sökning efter information samlar kunskap för att lösa liknande problem. En persons sökande efter information lämnar spår ("aktiva länkar") i hans minne om möjliga lösningar på andra problem.
I skönlitteratur, hitta svaret på frågan: "Hur levde människor i januari 1248?" väldigt hårt. Ännu svårare är det att svara på frågan om vad som fanns i butikshyllorna och hur livsmedelshandeln organiserades. Även om någon författare tydligt och direkt skrev om detta i sin roman, om namnet på denna författare kunde hittas, så tvivlar man påtillförlitligheten hos de mottagna uppgifterna förblir. Tillförlitlighet är en kritisk egenskap hos vilken mängd information som helst. Källan, författaren och bevis som utesluter att resultatet är falskt är viktigt.
Objektiva omständigheter i en viss situation
Människan ser, hör, känner. Vissa specialister är flytande i en unik känsla - intuition. Förklaringen av problemet kräver information, processen att lösa problemet åtföljs oftast av en förfining av problemformuleringen. Detta är det mindre besväret som kommer med att flytta information in i tarmen i ett datorsystem.
Biblioteket och arbetskollegorna är indirekta deltagare i beslutsprocessen. Utformningen av boken (källan), grafiken i texten, funktionerna i att dela upp information i rubriker, fotnoter efter fraser, ämnesindex, listan över primärkällor - allt väcker associationer hos en person som indirekt påverkar lösningsprocessen problemet.
Tid och plats för att lösa problemet är avgörande. En person är så arrangerad att han ofrivilligt uppmärksammar allt som omger honom i processen att lösa ett problem. Det kan vara distraherande, eller det kan vara stimulerande. Data Mining kommer aldrig att "förstå".
Information i virtuellt utrymme
En person har alltid bara varit intresserad av tillförlitlig information om en händelse, ett fenomen, ett objekt, en algoritm för att lösa ett problem. Människan har alltid föreställt sig exakt hur hon kan uppnå det önskade målet.
Utseendet på datorer och informationssystem borde ha gjort livet lättare för en person, men allt har bara blivit mer komplicerat. Information migrerade till tarmarna i datorsystem och försvann ur sikte. För att välja nödvändig data måste du skapa en korrekt algoritm eller formulera en fråga till databasen.
Frågan måste vara korrekt. Först då kan du få svar. Men tvivel om äktheten kvarstår. I denna mening är Data Mining verkligen "utgrävningar", det är "informationsextraktion". Så här är det på modet att översätta den här frasen. Den ryska versionen är datautvinning eller datautvinningsteknik.
I verk av auktoritativa specialister anges uppgifterna för Data Mining enligt följande:
- klassificering;
- clustering;
- association;
- sequence;
- prognos.
Ur den praxis som vägleder en person i den manuella behandlingen av information, är alla dessa ståndpunkter diskutabla. Hur som helst, en person bearbetar information automatiskt och tänker inte på att klassificera data, sammanställa tematiska grupper av objekt (klustring), söka efter tidsmönster (sekvens) eller förutsäga resultatet.
Alla dessa positioner i det mänskliga sinnet representeras av aktiv kunskap, som täcker fler positioner och dynamiskt använder logiken för att bearbeta de ursprungliga data. En persons undermedvetna spelar en viktig roll, särskilt när han är specialist inom ett visst kunskapsområde.
Exempel: Partihandel med datorutrustning
Uppgiften är enkel. Det finns fleradussintals leverantörer av datorutrustning och kringutrustning. Var och en har en prislista i xls-format (Excel-fil), som kan laddas ner från leverantörens officiella webbplats. Det krävs att skapa en webbresurs som läser Excel-filer, konverterar dem till databastabeller och låter kunderna välja önskade produkter till lägsta priser.
Problem uppstår omedelbart. Varje leverantör erbjuder sin egen version av strukturen och innehållet i xls-filen. Du kan få filen genom att ladda ner den från leverantörens webbplats, beställa den via e-post eller få en nedladdningslänk via ditt personliga konto, det vill säga genom att officiellt registrera dig hos leverantören.
Lösningen av problemet (i början) är tekniskt enkel. Laddar filer (initial data), en filigenkänningsalgoritm skrivs för varje leverantör och data placeras i en stor tabell med initial data. Efter att all data har mottagits, efter att mekanismen för kontinuerligt utbyte (dagligen, veckovis eller vid ändring) av färska data har etablerats:
- byt sortiment;
- prisändringar;
- förtydligande av kvantiteten i lager;
- justering av garantivillkor, specifikationer, etc.
Det är här de verkliga problemen börjar. Saken är den att leverantören kan skriva:
- notebook Acer;
- notebook Asus;
- Dell laptop.
Vi pratar om samma produkt, men från olika tillverkare. Hur matchar man notebook=laptop eller hur man tar bort Acer, Asus och Dell från en produktlinje?
Förmänskligt är inget problem, men hur kommer algoritmen att "förstå" att Acer, Asus, Dell, Samsung, LG, HP, Sony är varumärken eller leverantörer? Hur matchar man "skrivare" och skrivare, "skanner" och "MFP", "kopiator" och "MFP", "hörlurar" med "headset", "tillbehör" med "tillbehör"?
Att bygga ett kategoriträd baserat på källdata (källfiler) är redan ett problem när du behöver ställa in allt på automatiskt.
Dataprovtagning: utgrävningar av de "nyhällda"
Uppgiften att skapa en databas över leverantörer av datorutrustning har lösts. Ett träd med kategorier har byggts, ett gemensamt bord med erbjudanden från alla leverantörer fungerar.
Typiska datautvinningsuppgifter i samband med detta exempel:
- hitta en produkt till lägsta pris;
- välj varan med lägst fraktkostnad och pris;
- produktanalys: egenskaper och priser efter kriterier.
I det verkliga arbetet för en chef som använder data från flera dussin leverantörer, kommer det att finnas många varianter av dessa uppgifter, och ännu mer verkliga situationer.
Det finns till exempel en leverantör "A" som säljer ASUS VivoBook S15: förskottsbetalning, leverans 5 dagar efter det faktiska mottagandet av pengar. Det finns en leverantör "B" av samma produkt av samma modell: betalning vid mottagande, leverans efter avtalets ingående inom en dag, priset är en och en halv gånger högre.
Data Mining börjar - "utgrävningar". Bildliga uttryck: "utgrävningar" eller "data mining" är synonymer. Det handlar om hur man får en anledning att fatta ett beslut.
Leverantörer "A" och "B" har en historia av leveranser. Kvalitetförskottsbetalning i det första fallet mot betalning vid mottagandet i det andra fallet med hänsyn till att leveransfelet i det andra fallet är 65 % högre. Risken för påföljder från klienten är högre/lägre. Hur och vad ska man avgöra och vilket beslut man ska fatta?
Å andra sidan: databasen skapades av en programmerare och en chef. Om programmeraren och chefen har ändrats, hur bestämmer man databasens nuvarande tillstånd och lär sig hur man använder den korrekt? Du kommer också att behöva göra datautvinning. Data Mining erbjuder en mängd olika matematiska och logiska metoder som inte bryr sig om vilken typ av data som undersöks. Detta ger rätt lösning i vissa fall, men inte i alla.
Flytta in i virtualitet och hitta mening
Data Mining-metoder blir meningsfulla så fort informationen skrivs in i databasen och försvinner från "synfältet". Handel med datorutrustning är en intressant uppgift, men det är bara en affär. Hur väl han är organiserad i företaget beror på dess framgång.
Klimatförändringar på planeten och vädret i en viss stad är av intresse för alla, inte bara för professionella klimatexperter. Tusentals sensorer tar avläsningar av vind, luftfuktighet, tryck, data från konstgjorda jordsatelliter och det finns en historia av data i år och århundraden.
Väderdata handlar inte bara om att bestämma om man ska ta med ett paraply till jobbet eller inte. Datautvinningsteknik är säkra flygningar för ett flygplan, stabil drift av en motorväg och tillförlitlig tillgång på petroleumprodukter till sjöss.
"Raw" data skickas till informationensystemet. Uppgifterna för Data Mining är att omvandla dem till ett systematiserat system av tabeller, upprätta länkar, markera grupper av homogena data och upptäcka mönster.
Matematiska och logiska metoder sedan kvantitativ analyss dagar OLAP (On-line Analytical Processing) har visat sig praktiskt. Här låter tekniken dig hitta mening, och inte förlora den, som i exemplet med att sälja datorutrustning.
Dessutom i globala uppgifter:
- transnationell verksamhet;
- flygtransportledning;
- studie av jordens tarmar eller sociala problem (på delstatsnivå);
- studie av läkemedels effekt på en levande organism;
- förutsäga konsekvenserna av byggandet av ett industriföretag, etc.
Data Mine-teknik och att förvandla "meningslös" data till riktig data som låter dig fatta objektiva beslut är det enda alternativet.
Mänskliga möjligheter slutar där det finns en stor mängd rå information. Datautvinningssystem förlorar sin användbarhet där det krävs för att se, förstå och känna information.
Rimlig fördelning av funktioner och objektivitet
Människa och dator bör komplettera varandra – det här är ett axiom. Att skriva en avhandling är en prioritet för en person, och ett informationssystem är en hjälp. Här är data som Data Mining-tekniken har heuristik, regler, algoritmer.
Att förbereda en veckovis väderprognos är informationssystemets prioritet. Människan hanterar data, men baserar sina beslut på resultaten av systemets beräkningar. Den kombinerar Data Mining-metoder, specialistdataklassificering, manuell kontroll av tillämpningen av algoritmer, automatisk jämförelse av tidigare data, matematiska prognoser och mycket kunskap och färdigheter hos verkliga personer som är involverade i tillämpningen av informationssystemet.
Sannolikhetsteori och matematisk statistik är inte de mest "favorit" och begripliga kunskapsområdena. Många specialister är väldigt långt ifrån dem, men de metoder som utvecklats inom dessa områden ger nästan 100% korrekta resultat. Genom att tillämpa system baserade på idéer, metoder och algoritmer inom Data Mining kan lösningar erhållas objektivt och tillförlitligt. Annars är det helt enkelt omöjligt att få en lösning.
Faraoner och mysterier från tidigare århundraden
Historien skrevs om med jämna mellanrum:
- stater - för deras strategiska intressens skull;
- auktoritativa vetenskapsmän - för deras subjektiva övertygelsers skull.
Det är svårt att avgöra vad som är sant och vad som är falskt. Användningen av Data Mining gör att vi kan lösa detta problem. Till exempel beskrevs tekniken för att bygga pyramider av krönikörer och studerades av vetenskapsmän under olika århundraden. Allt material finns inte på Internet, allt är inte unikt här, och många data kanske inte har:
- beskriven tidpunkt;
- tid för att skriva beskrivningen;
- datum som beskrivningen är baserad på;
- författare(r), åsikter (länkar) beaktas;
- bekräftelse av objektivitet.
Bbibliotek, tempel och "oväntade platser" kan du hitta manuskript från olika århundraden och materiella bevis från det förflutna.
Intressant mål: att sätta ihop allt och avslöja "sanningen". Problemets särdrag: information kan erhållas från den första beskrivningen av en krönikör, under faraonernas livstid, till det nuvarande århundradet, där detta problem löses med moderna metoder av många vetenskapsmän.
Bakgrund för att använda Data Mining: manuellt arbete är inte möjligt. För många kvantiteter:
- informationskällor;
- representationsspråk;
- forskare som beskriver samma sak på olika sätt;
- datum, evenemang och villkor;
- termkorrelationsproblem;
- analys av statistik efter datagrupper över tid kan skilja sig åt osv.
I slutet av förra seklet, när ännu ett fiasko av idén om artificiell intelligens blev uppenbart inte bara för lekmannen, utan också för en sofistikerad specialist, dök idén upp: "att återskapa personligheten."
Till exempel, enligt Pushkins, Gogols, Tjechovs verk, bildas ett visst system av regler, beteendelogiker och ett informationssystem skapas som kan svara på vissa frågor som en person skulle göra: Pushkin, Gogol eller Tjechov. Teoretiskt sett är en sådan uppgift intressant, men i praktiken är den extremt svår att genomföra.
Idén med en sådan uppgift föreslår dock en mycket praktisk idé: "hur man skapar en intelligent informationssökning." Internet är mycket utvecklingsresurser, en enorm databas och det här är ett utmärkt tillfälle att tillämpa Data Mining i kombination med mänskligalogik i form av gemensam utveckling.
En maskin och en man parat är en utmärkt uppgift och en otvivelaktig framgång inom området "informationsarkeologi", högkvalitativa utgrävningar i data och resultat som kommer att ställa något i tvivel, men utan tvekan kommer att tillåta dig att få ny kunskap och kommer att efterfrågas i samhället.