För flera decennier sedan kunde forskare bara drömma om att automatisera språkforskning. Arbetet gjordes för hand, ett stort antal studenter var inblandade i det, det fanns en betydande sannolikhet för ett "ouppmärksamhets"-fel, och viktigast av allt tog det hela mycket, mycket tid.
Med utvecklingen av datatekniken blev det möjligt att forska mycket snabbare och idag är ett av de lovande områdena inom språkstudier korpuslingvistik. Dess huvudsakliga funktion är användningen av stora mängder textinformation, konsoliderad i en enda databas, markerad på ett speciellt sätt och kallad en korpus.
Idag finns det många korpus skapade för olika ändamål, baserade på olika språkmaterial, som täcker från miljoner till tiotals miljarder lexikaliska enheter. Denna riktning anses lovande och visar på betydande framsteg när det gäller att uppnå tillämpade och forskningsmål. Proffs, på ett eller annat sätt att hanteranaturligt språk, det rekommenderas att du bekantar dig med textkorpus åtminstone på en grundläggande nivå.
Korpuslingvistiks historia
Bildandet av denna riktning är kopplat till skapandet av Brown Corps i USA i början av 60-talet av förra seklet. Samlingen av texter bestod av endast 1 miljon ordformer, och idag skulle en korpus av en sådan volym vara helt konkurrenskraftig. Detta beror till stor del på takten i utvecklingen av datorteknik, såväl som den växande efterfrågan på nya forskningsresurser.
På 90-talet formades korpuslingvistik till en fullfjädrad och självständig disciplin, samlingar av texter sammanställdes och märktes upp för flera dussin språk. Under denna period skapades till exempel British National Corpus för 100 miljoner ordanvändningar.
När denna lingvistik utvecklas, blir volymen texter större (och når miljarder ordförrådsenheter), och uppmärkningen blir mer och mer mångsidig. Idag kan du på Internet hitta korpus av skriftligt och muntligt tal, flerspråkigt och pedagogiskt, fokuserat på skönlitteratur eller akademisk litteratur, såväl som många andra varianter.
Vilka fall finns
Korpustyper i korpuslingvistik kan representeras på flera sätt. Det är intuitivt tydligt att grunden för klassificering kan vara språket i texterna (ryska, tyska), åtkomstläge (öppen källkod, stängd källa, kommersiell), genre för källmaterialet (fiktion).litteratur, dokumentär, akademisk, journalistik).
På ett intressant sätt genomförs genereringen av material som representerar muntligt tal. Eftersom den avsiktliga inspelningen av sådant tal skulle skapa konstgjorda förhållanden för respondenterna, och det resulterande materialet inte kunde kallas "spontant", gick modern korpuslingvistik åt andra hållet. Volontären är utrustad med mikrofon och under dagen spelas alla samtal som han deltar i. De omgivande människorna kan naturligtvis inte veta att de under ett vardagligt samtal bidrar till vetenskapens utveckling.
Senare lagras de mottagna ljudinspelningarna i databanken och åtföljs av tryckt text som en utskrift. På så sätt blir den uppmärkning som behövs för att skapa en korpus av talat vardagligt tal möjlig.
Application
Där det är möjligt att använda språk är det också möjligt att använda textkorpus. Syftet med att använda korpusmetoder inom lingvistik kan vara:
- Skapa sentimentprogram som används i stor utsträckning inom politik och näringsliv för att spåra positiv och negativ feedback från väljare respektive kunder.
- Ansluter informationssystemet till ordböcker och översättare för att förbättra deras prestanda.
- Olika forskningsuppgifter som bidrar till förståelsen av språkets struktur, historien om dess utveckling och förutsägelser om dess förändring inom en nära framtid.
- Utveckling av informationsextraktionssystem baserade på morfologiska,syntaktiska, semantiska och andra funktioner.
- Optimering av arbetet med olika språkliga system, etc.
Använda skal
Resursgränssnittet liknar en vanlig sökmotor och uppmanar användaren att ange ett ord eller en kombination av ord för att söka i infobasen. Utöver det exakta förfrågningsformuläret kan du använda den utökade versionen, som låter dig hitta textinformation utifrån nästan alla språkliga kriterier.
Grunden för sökningen kan vara:
- tillhör en viss grupp av orddelar;
- grammatiska funktioner;
- semantik;
- stilistisk och känslomässig färgsättning.
Du kan också kombinera sökkriterier för en sekvens av ord: hitta till exempel alla förekomster av ett verb i presens, första person, singular följt av prepositionen "in" och ett substantiv i ackusativ. Att lösa en så enkel uppgift tar användaren några sekunder och kräver bara några få musklick i de angivna fälten.
Skapningsprocess
Själva sökningen kan utföras både i alla underkroppar och i en, specifikt utvald, beroende på behoven för att uppnå ett specifikt mål:
- Först och främst bestäms vilka texter som ska ligga till grund för korpusen. För praktiska ändamål används ofta journalistiskt material, tidningsmaterial, internetkommentarer. I forskningsprojekt, de flestaolika typer av korpus, men texterna måste väljas på någon gemensam grund.
- Den resulterande uppsättningen texter är förbehandlade, eventuella fel korrigeras, en bibliografisk och extralingvistisk beskrivning av texten förbereds.
- All icke-textuell information filtreras bort: grafik, bilder, tabeller raderas.
- Tokens, vanligtvis ord, tilldelas för vidare bearbetning.
- Slutligen utförs morfologisk, syntaktisk och annan markering av den resulterande uppsättningen element.
Resultatet av alla utförda operationer är en syntaktisk struktur med en uppsättning element fördelade över den, för var och en av vilka en del av tal, grammatiska och, i vissa fall, semantiska egenskaper definieras.
Svårigheter att skapa ärenden
Det är viktigt att förstå att för att få en korpus räcker det inte att sätta ihop en massa ord eller meningar. Å ena sidan ska en textsamling vara balanserad, det vill säga presentera olika typer av texter i vissa proportioner. Däremot ska innehållet i ärendet markeras på ett speciellt sätt.
Den första frågan löses genom överenskommelse: till exempel innehåller samlingen 60 % av skönlitterära texter, 20 % av dokumentärer, en viss andel ges till skriftlig presentation av muntligt tal, lagstiftningsakter, vetenskapliga artiklar, etc. Det idealiska receptet för en balanserad korpus idag finns inte.
Den andra frågan om innehållsuppmärkning är svårare att lösa. Det finns speciella program och algoritmer som används för automatisk uppmärkning av texter, men de ger inte ett 100% resultat, kan orsaka fel och kräver manuell förfining. Möjligheter och problem för att lösa detta problem beskrivs i detalj i V. P. Zakharovs arbete om korpuslingvistik.
Textuppmärkning utförs på flera nivåer, som vi kommer att lista nedan.
Morfologisk uppmärkning
Från skolbänken minns vi att det på ryska språket finns olika delar av tal, och var och en av dem har sina egna egenskaper. Till exempel har ett verb kategorier av humör och spänning som ett substantiv inte har. En infödd talare avböjer substantiv och konjugerar verb utan att tveka, men manuellt arbete är inte lämpligt för att markera en korpus på 100 miljoner ordanvändningar. Alla nödvändiga operationer kan utföras av en dator, men för detta måste den läras in.
Morfologisk uppmärkning är nödvändig för att datorn ska "förstå" varje ord som en del av talet som har vissa grammatiska egenskaper. Eftersom ett antal vanliga regler fungerar på ryska (som på alla andra) språk, är det möjligt att bygga en automatisk procedur för morfologisk analys genom att lägga in ett antal algoritmer i maskinen. Det finns dock undantag från regeln, samt olika komplicerande faktorer. Som ett resultat är ren datoranalys idag långt ifrån idealisk, och till och med 4 % fel ger ett värde på 4 miljoner ord i en korpus på 100 miljoner enheter, vilket kräver manuell förfining.
Detta problem beskrivs i detalj av V. P. Zakharovs bok "Corpus Linguistics".
Syntaktisk uppmärkning
Syntaktisk analys eller parsning är en procedur som bestämmer förhållandet mellan ord i en mening. Med hjälp av en uppsättning algoritmer blir det möjligt att bestämma ämne, predikat, tillägg och olika talvändningar i texten. Genom att ta reda på vilka ord i sekvensen som är huvudord och vilka som är beroende kan vi effektivt extrahera information från texten och träna maskinen att endast returnera den information vi är intresserade av som svar på en sökförfrågan.
Förresten, moderna sökmotorer använder detta för att ge specifika siffror istället för långa texter som svar på relevanta frågor som: "hur många kalorier är det i ett äpple" eller "avstånd från Moskva till St. Petersburg". Men för att förstå ens grunderna i den beskrivna processen måste du bekanta dig med "Introduktion till Corpus Linguistics" eller en annan grundläggande lärobok.
Semantisk uppmärkning
Et ords semantik är i enkla termer dess betydelse. En allmänt användbar metod inom semantisk analys är tillskrivningen av taggar till ett ord, vilket återspeglar dess tillhörighet till en uppsättning semantiska kategorier och underkategorier. Sådan information är värdefull för att optimera textsentimentanalysalgoritmer, automatisk referens och utföra andra uppgifter med hjälp av korpuslingvistiska metoder.
Det finns ett antal "rötter" i trädet, som är abstrakta ord som harmycket bred semantik. När detta träd förgrenar sig bildas noder som innehåller fler och mer specifika lexikaliska element. Till exempel kan ordet "varelse" associeras med sådana begrepp som "människa" och "djur". Det första ordet kommer att fortsätta att förgrena sig till olika yrken, termer av släktskap, nationalitet och det andra - till klasser och typer av djur.
Användning av system för informationshämtning
Användningssfärer för korpuslingvistik täcker en mängd olika verksamhetsområden. Corpora används för att sammanställa och korrigera ordböcker, skapa automatiska översättningssystem, sammanfatta, extrahera fakta, bestämma känslor och annan textbearbetning.
Dessutom används sådana resurser aktivt i studiet av världens språk och mekanismerna för språkets funktion som helhet. Tillgång till stora volymer av förberedd information bidrar till en snabb och omfattande studie av trender i utvecklingen av språk, bildandet av neologismer och stabila talvändningar, förändringar i betydelsen av lexikaliska enheter, etc.
Eftersom att arbeta med så stora datamängder kräver automatisering finns det idag en nära interaktion mellan dator- och korpuslingvistik.
Ryska språkets nationella korpus
Denna korpus (förkortad som NKRC) innehåller ett antal underkorpuser som gör det möjligt att använda resursen för att lösa en mängd olika uppgifter.
Material i NCRA-databasen är indelade i:
- om publikationer i media på 90- och 2000-talenår, både inhemska och utländska;
- inspelningar av muntligt tal;
- accentologiskt markerade texter (d.v.s. med accenttecken);
- dialekttal;
- poetiska verk;
- material med syntaktisk uppmärkning, etc.
Informationssystemet innehåller även underkorpuser med parallella översättningar av verk från ryska till engelska, tyska, franska och många andra språk (och vice versa).
Databasen har också ett avsnitt med historiska texter som representerar skriftligt tal på ryska under olika perioder av dess utveckling. Det finns också en utbildningskorpus som kan vara användbar för utländska medborgare för att behärska det ryska språket.
Det ryska språkets nationella korpus omfattar 400 miljoner lexikala enheter och ligger på många sätt före en betydande del av de europeiska språkens korpus.
Prospects
Ett faktum för att erkänna detta område som lovande är närvaron av korpuslingvistiska laboratorier vid ryska universitet, såväl som i utländska. Med användning och forskning inom ramen för de övervägda informationsinhämtningsresurserna är utvecklingen av några områden inom området högteknologi, frågesvarssystem förknippad, men detta diskuterades ovan.
Vidareutveckling av korpuslingvistik förutsägs på alla nivåer, från tekniska, när det gäller införandet av nya algoritmer som optimerar processerna för sökning och bearbetning av information, utökar datorernas kapacitet, ökar den operativaminne och slutar med hushåll, eftersom användare hittar fler och fler sätt att använda den här typen av resurser i vardagen och på jobbet.
Avslutningsvis
I mitten av förra seklet verkade 2017 som en avlägsen framtid, där rymdfarkoster surfar på universums vidder och robotar gör allt arbete för människor. I verkligheten är dock vetenskapen full av "tomma fläckar" och gör desperata försök att svara på frågor som har bekymrat mänskligheten i århundraden. Frågor om språkets funktion tar en stor plats här, och korpus- och beräkningslingvistik kan hjälpa oss att besvara dem.
Bearbetning av stora mängder data gör att du kan upptäcka mönster som tidigare var otillgängliga, förutsäga utvecklingen av vissa språkfunktioner, spåra bildningen av ord nästan i re altid.
På en praktisk global nivå kan korpora till exempel betraktas som ett potentiellt verktyg för att bedöma allmänhetens åsikter - Internet är en kontinuerligt uppdaterad databas med olika texter skapade av verkliga användare: dessa är kommentarer, recensioner, artiklar, och många andra former av tal.
Dessutom bidrar arbetet med korpus till utvecklingen av samma tekniska medel som är involverade i informationssökning, bekanta för oss från Google eller Yandex-tjänster, maskinöversättning, elektroniska ordböcker.
Det är säkert att säga att korpuslingvistik bara tar sina första steg och kommer att utvecklas snabbt inom en snar framtid.