PRIMIJENJENA LINGVISTIKA I LINGVISTIČKE TEHNOLOGIJE: IZ UKRAJINSKE PRAKSE

Jevgenij Paščenko, Nika Šimićić, Ante Brala

Problem formiranja lingvističke baze podataka te stvaranje elektroničkog rječnika, ukrajinsko-hrvatskog u našem slučaju, bio je aktualiziran na skupovima Tiskarstva te i dalje ostaje aktualnom temom suvremene hrvatske ukrajinistike. U traganju za modelima poseban interes predstavlja iskustvo ukrajinskih istraživača, što ćemo predočiti na primjeru homonimije prigodom stvaranja ukrajinskog nacionalnog lingvističkog korpusa.
Pri razvoju sustava automatske analize teksta značajno mjesto zauzima problem automatskog uklanjanja homonimije te zahtjeva žurno rješavanje u sklopu suvremene lingvističke prakse. Uspješnost proučavanja morfološke (obličene) homonimije (grafički jednake, a po gramatičkom značenju različite, riječi) u velikoj mjeri ovisi o postojanju lingvističkih izvora, prije svega lingvističke baze podataka. Cilj je stvoriti odgovarajuću metodiku koja bi objedinila suvremeno stanje lingvističkih znanja i kompjuterskih tehnologija. Stvaranje algoritama automatskog uklanjanja višeznačnosti zahtjeva potpunu informaciju o pojavi homonimije. Izvor je takvih informacija za ruski jezik internetski rječnik „Словарь омонимичных словоформ русского языка“, Ž. G. Anoškine.
Za ukrajinski se jezik prva takva baza informacija stvara u Ukrajinskom jezično-informacijskom fondu koji je stvoren i funkcionira pri Nacionalnoj Akademiji znanosti Ukrajine. Stvaranje lingvističke baze podataka, koja će služiti istraživanju morfološke homonimije suvremenog ukrajinskog jezika, temelji se na korpusu rječnika Ukrajinskog nacionalnog lingvističkog korpusa kao i korpusu tekstova. Dobiveni materijal lingvističke baze podataka morfoloških homonima čini korpus koji opisuje pojavu homonimije, uzevši u obzir vezu između rječnika, gramatike i teksta. Pri tom treba imati u vidu, kako specifičnost jezika kao apstraktnog sustava jezičnih znakova, tako i govora kao njegove konkretne realizacije.
Na ovom primjeru specifikum čine tipovi morfoloških homonima, a govor bi bio realizacija istih u tekstovima suvremenog ukrajinskog jezika. Formiranje registra morfoloških homonima te njihovih karakteristika moguće je na temelju specifičnih lingvističkih baza podataka čije su zadaće: predstaviti registar morfološki višeznačnih oblika riječi suvremenog ukrajinskog jezika; dati modele i tipove morfoloških homonima; predstaviti dio njihovih funkcija tekstovima različitih stilova kao i kontekst homografa (istopisnica) u tekstovima.    Prva se od navedenih lingvističkih baza podataka formirala pomoću materijala rječnika oblika riječi, koji je uspostavljen na temelju gramatičkog rječnika Ukrajinskog jezično-informacijskog fonda Nacionalne Akademije znanosti Ukrajine i prilično dobro prezentira morfološku homonimiju u jeziku. Pri tom je izvedeno 610 612 homonimnih redova. U radu  istraživača S. Starykova i O. Šypnivs´ke dân je fragment tablice koja predstavlja tipove morfoloških homonima među vrstama riječi. Kako bi analizirali te tipove u sklopu Ukrajinskog nacionalnog lingvističkog korpusa odabrani su tekstovi znanstvenog, publicističkog i književnog stila od kojih svaki sadrži milijun oblika riječi i 95,06% svih tipova morfoloških homonima, svojstvenih suvremenom ukrajinskom jeziku. Rezultat analize izabranih tekstova otkriva da u tekstovima znanstvenog stila morfološki homonimi čine 67,01%, publicističkog – 60,13%, a književnog – 55, 11%.
U bazu je morfoloških homonima suvremenog ukrajinskog jezika, stvorenu na osnovi gramatičkog rječnika i stilski diferenciranih tekstova, integrirana i lingvistička baza konteksta (pod kontekstom u navedenom slučaju smatramo leksiko-gramatičko okruženje homografa u rečenici) homonima među vrstama riječi. Baza podataka lingvističkog konteksta morfoloških homonima, sastoji se od dvije tablice: tablice leksičko-gramatičkih konteksta morfoloških homonima među vrstama riječi, koja služi formiranju pravila neophodnih za uspostavu algoritama uklanjanja morfološke homonimije i tablice dijagnosticiranog konteksta, koja proizlazi iz rada na prvoj tablici.
Istraživan je opseg konteksta dostatnog za uklanjanje homonimije, položaj dijagnosticirane komponente, gramatičko značenje  dijagnosticiranih konteksta, a također i aktualno gramatičko značenje homografa u navedenom kontekstu. Tako se druga tablica sastoji od polja koja predstavljaju model homografa, lijevi dijagnosticirani kontekst, desni dijagnosticirani kontekst, aktualno gramatičko značenje homografa, dužinu dijagnosticiranog konteksta i dr.
Takav način predstavljanja podataka daje mogućnost, ovisno o podijeljenim poljima, ili prema njihovim kombinacijama,  automatski formirati neophodne podkorpuse dijagnosticiranih konteksta te na temelju dobivenih rezultata formirati pravila analize konteksta za uklanjanje homonimije. Osim toga, na temelju rezultata formiranih lingvističkih baza podataka, napravljen je i elektronski rječnik morfoloških homonima suvremenog ukrajinskog jezika koji sadrži sljedeće informacije: predstavlja registar morfološki višeznačnih oblika riječi suvremenog ukrajinskog jezika – 12880 jedinica; svakom od, u registru navedenih, homonima pridodan je opis morfološke karakteristike njegovih komponenti; za svaku je komponentu homonimijskog modela dân i izvorni oblik te se daje informacija o realizaciji registriranih jedinica u ukrajinskim tekstovima.
Istraživanje morfološke homonimije na temelju korpusa tekstova i pomoću specijalizirane  lingvističke baze podataka pomoglo je formiranju novog registra morfološki višeznačnih oblika riječi kao i sastavljanju pravila automatskog uklanjanja homonimije u tekstu. Osim toga, dobiveni rječnik morfoloških homonima može služiti kao informacijski sustav i pomoć pri odgovaranju na širok raspon pitanja o drugim aspektima homonimije u gramatičkom sustavu jezika.
Predočeni modeli predstavljaju tek jedan od primjera dovoljno dinamičnog razvoja ukrajinske primijenjene lingvistike u rješenju problema stvaranja digitalnoga rječnika. Vračajući se ideji ukrajinsko-hrvatskog (i obrnuto) rječnika, moramo ponovno aktualizirati ovaj problem koji zahtijeva timske suradnje ukrajinskih i hrvatskih jezikoslovaca za što se zalaže hrvatska ukrajinistika. Potonja je sa središtem na Katedri za ukrajinski jezik i književnost Filozofskog fakulteta u Zagrebu, na suvremenoj etapi ostvaruje formiranje fundusa prevedenih tekstova s ukrajinskog na hrvatski – kao važan temelj za dalje ostvarenje projekt.
Ne manje perspektivan je zadatak kompariranja metoda u leksikografskom domenu. Radi se o usporedbi ukrajinskog i hrvatskog jezika koji su vrlo bliski što je malo poznato. I u ovome slučaju problem je stvaranja leksikografske baze značajan. Ukrajinska leksikografija ima svoje početke još u 16. st. u vidu Leksikona Pamve Berynde koji je sadržavao više od osam tisuća leksičkih jedinica, odnosno riječi. Ipak, proteći će četiri stoljeća dok ukrajinska leksikografija ne doživi izdanje prvog velikog rječnika ukrajinskog jezika. Rječnik ukrajinskog jezika, podijeljen u 11 tomova brojio je 134 058 leksičke jedinice i tiskan je punih godina (1970.-1980.). Korpus ovog, svojevremenog leksikografskog giganta za ukrajinske prilike, temeljio se na književnom jeziku počevši od vremena i djela Ivana Kotljarevs'kog (Enejida) pa sve do vremena izdavanja. Krajem devedesetih godina počeo je rad nad novim Rječnikom ukrajinskog jezika, baziranog na spoznajima iz elektronske prakse a dosad su izdana dva prva toma, od planiranih dvadeset. Digitalizacija fonda prvog od dvaju rječnika, te rad na izradi drugog su tema ovog izlaganja. Računalna leksikografija je relativno mlada znanstvena (inter)disciplina koja se počela razvijati u drugoj polovici osamdesetih godina prošlog stoljeća. O računalnoj leksikografiji ne možemo govoriti bez da se prisjetimo novog pravca u lingvistici, koji je de facto otvorio put i računalnoj, pa i suvremenoj korpusnoj lingvistici, - generativne lingvistike. Generativna lingvistika, koja teži pronalasku zakonitosti funkcioniranja jezičnih struktura (mada kreće od sintaktičke razine) se nalazi u centru zanimanja računalne lingvistike, a time i leksikografije:
[...] аналіз лексикографічних структур СУМа [Словника української мови] веде до встановлення певбних фактів, які можна інтерпретувати як закони української мови в цілому, а не лише одного словника.
Upravo traženje zakonitosti u našem slučaju, tj. računalnoj leksikografiji, od velike je važnosti kako bi se pronašli i/ili stvorili algoritmi podobni za obradu tako velikog korpusa. Prve korake bilježimo već početkom devedesetih godina kada se krenulo u digitalizaciju jedanaestotomnog Rječnika (tzv. SUM-11). Metodom rječničkog parsinga (tj. automatiziranim izlučivanjem  teksta na računalnu jedinicu) započet je rad na digitalizaciji SUM-11). Ipak, radilo se u nedjelotvornom pokušaju s obzirom da se rad sveo na skeniranje građe te njeno prebacivanje u rtf datoteku.  Programsko, tj. algoritamsko rješenje je bilo itekako pogodnije za ovaj projekt, te se pristupilo izradi specijaliziranih algoritama za obradu rječničke građe. Kasnije ćemo vidjeti da je ovaj posao doveo čak i do nekih novih otkrića u svjetlu generativne lingvistike. Valja napomenuti da je sama izrada takvih algoritama svojevrsni lingvistički poduhvat s obzirom na to da se temelji na umjetnom, odnosno računalnom jeziku koji posjeduju za svoje ciljeve vlastitu sintaksu. Spomenuti algoritmi, tj. programsko rješenje, ostali su i dan danas osnova za idući projekt – izradu novog Rječnika ukrajinskog jezika u 20 tomova (SUM-20), koji se više ne temelji na kartičnoj obradi podataka već na digitalnoj. Prednost digitalne izrade rječnika nad kartičnom je ta  što se ovaj organizacija potonjeg temelji samo na jednom od mogućih kriterija.
U središtu korpusa SUM-20 nalazi se Ukrajinski jezično-informacijski fond koji djeluje kao znanstvena ustanova Akademije znanosti Ukrajine. 1994. godine umrežavanjem leksikografskih radova (njih više od 60) nastaje projekt Rječnici Ukrajine, a računalna baza uključuje i Ukrajinski nacionalni lingvistički korpus, odnosno bazu podataka pisanih dokumenata (književnih i inih djela) s više od 43 milijuna primjera upotrebe leksičkih jedinica. To je ujedno i najambiciozniji i najveći domet korpusne lingvistike na području Ukrajine.
Razlike između SUM-11 i, još nedovršenog, SUM-20 koincidiraju s dvjema događajima. Prvi je povezan s tehnološkim razvojem, o čemu se i govori ovdje, a drugi događaj je završetak Hladnog rata i raspad SSSR-a. Ukrajinska samostalnost i prekid s komunizmom i sovjetskim dogmama, koje su se izražavale na svim poljima društveno-pravnog života, donose i određene promjene i u leksikografsko polje. Preciznije, nastupilo je deidologiziranje rječnika, povećavanje korpusa Biblijom i djelima koja su bila zabranjena za vrijeme komunističkog režima, ali također i osuvremenjivanje materijala (unošenje novih realija, ali i brisanje dijela starog). Također, ne zaboravimo da i ukrajinski pravopis doživljava manje promjene od kojih je najveća ponovno uvođenje grafema ґ, ali i određene ostale (аргентінськийаргентинський, бразілецьбразилець).
Sama izrada algoritama ima za cilj tzv. L-sistem (leksikografski sistem) koji postaje генерація такого комплексу елементарних інформаційних об’єктів. Prihvatimo li činjenicu da rječnici nisu puki spisi riječi, njihova nabiranja, indeksi i inventari, prihvatili smo i potrebu postojanja određene logičko-semantičke veze koja postoji između lijeve i desne strane pojedine leksikografske jedinice, odnosno postojanje takve veze u dihotomiji označeno-označitelj (defiendum-definiens). Značajkama L-sistema (semiotičnost, semantičnost, jednoznačnost, konzistentnost, integrativnost, algoritmiziranost) možemo pridodati još dvije značajke vrlo značajne važnosti – statističnost i frekventnost. Upravo digitalizacija korpusa, koja je za posljedicu imala elektronski lingvistički korpus uvelike olakšava konstataciju frekventnosti određene leksikografske jedinice. Problemi kao što su alomorfizmi, polisemija i homonimija pronalaze svoje rješenje u empiričkoj mogućnosti dokazivanja frekventnosti na temelju koje se određuje hoće li se pojedina jedinica unijeti u rječnik, odnosno kojem obliku treba dati prednost.
Ukrajinski jezik poznaje serije dubleta na morfofonološkoj razini у – в, і – й, з – із –зі, від – од. Obje forme pronalazimo u rječnicima, no potpuna leksička jedinica najčešće se nalazi pod formom koja počinje na в, і, з, від. Ipak, pronalazimo jednu zanimljivu diferencijaciju; kod glagola koji imaju dubletne početne oblike tipa  у – в, prednost se daje obliku na у kad taj glagol izražava širenje radnje na neku površinu (ВКРИВАТИ, див. укривати), dok kod glagola koji izražavaju usmjerenje radnje u neku sredinu ili unutar neke sredine prednost se daje obliku na в (ВГИНЧУВАТИ (УГВИНЧУВАТИ).
Kad je u pitanju desna strana leksičke jedinice (definiens), uočavamo određenu formulitavnost. Kod imenica uočavamo dva vida hijerarhičnosti. Prvi vid hijerarhičnosti odnosi se na semantičku strukturu tumačenja, dok se drugi odnosi na leksičko-semantičku grupu. Princip hijerarhičnosti gradi se od više k nižoj razini. Na rečeničnoj razini uočavamo konstrukcije для + glagolska imenica i prisutnost relativnih rečenica (Х, який i X, що gdje se X uvijek nalazi na semantički hijerarhijski višem položaju).
Otkriće do kojih se došlo prilikom digitalizacije SUM-11 jest tzv. skrivena simetrija ukrajinskog glagola. Teorija skrivene simetrije glagola temelji se na tri postulata. Postulati se odnose na (1) glagolski vid (2 moguća – svršeni i nesvršeni), (2) paradigmatske blokove istih glagola (maksimalno njih tri), tj. dubletnih (tripletnih) formi te (3) fonološki različite komponente istog glagola, tj. alomorfe (maksimalno njih četiri).  Drugi postulat odnosi se na tvorbene alomorfe, a treći na alomorfe fonološke prirode. Kombinacijom ova tri postulata dolazimo do čak 7124 moguće klase glagola, ali ih je posvjedočeno samo 52. Ono što je zanimljivo, pogotovo u vidu generativne lingvistike, jesu praznine u glagolskom sistemu. Analogijom prema sličnim strukturama izvodimo nepostojeće (neposvjedočene) oblike glagola (pибалити – рибалчити – чибачири - *рибачувати). U krajnju ruku, takvi oblici mogu se pretpostaviti u nekom daljnjem jezičnom plano (bilo vremenskom, bilo prostornom).
Kao zaključak možemo ponuditi mišljenje da rad na daljnjoj digitalizaciji leksikografske građe može se pokazati u budućnosti izuzetno korisnim i zanimljivim ponajprije zbog umrežavanja i povezivanja raznih materijala (od dijakronijskih, geolingvističkih, sociolingvističkih i inih) što uvelike može olakšati istraživanja, ali i omogućiti uvide u neke fenomene koji su zasad bili nevidljivi kao što biva u izreci ne uočiti stablo od šume.

Predočeni modeli još jednom upućuju na nužnost produbljene i kontinuirane suradnje ukrajinske i hrvatske lingvistike sa središtem u Kijevu, posebice u djelatnosti poznatog ukrajinskog jezikoslovca Širokova, s hrvatskom lingvistikom. Izložena su ovdje mišljenja hrvatske ukrajinistike imaju za cilj signalizirati o nužnosti uključivanja u zajednički projekt.

(I. A – B; II. V-Vidsriblytysja).

Лінгвистичні та технологічні основи тлумачної лексикографії: 92

Український мовно-інформаційний фонд

Словники України

Український національний лінгвістичний корпус

 

Patrik Ervells latest collection is ironically titled “Software”ADIDAS ORIGINALS TUBULAR SHADOW. In the notes from the presentation, Ervell says he was interested in developing tension between nostalgia and sci-fi,NIKE ZOOM WINFLO 3 and even included 90s cyberpunk amongst his influences. Ervell developed this point of view by creating an imaginary software company called Idegen software systems. He then re-appropriated the company’AIR JORDAN XXXI MENs logo in several of the collection’s garments. Elsewhere,MBT TARIKI MEN mohair coats with oversized lapels made an appearance alongside mock neck tees,NIKE AIR JORDAN RETRO 5 police-inspired ribbed sweaters,MBT FORA GTX WOMEN flight bombers, and polyurethane leather coats. The setting was also suitably dystopian, and the resulting ambiance was something akin to if the creators of Deutschland 83 and Hackers met up and decided to create a collection… We mean that as a compliment.Yesterday afternoon,JORDAN CP3 IX MEN artist JR spent the day working on his latest collaborative piece with Daniel Arsham in Greenpoint,NIKE AIR MAX 90 Brooklyn,MBT KIMONDO GTX MEN NYC. Connecting the lines between art, architecture, dance and theater, Daniel Arsham has been known to subvert existing architectural structures in unconventional,NIKE CLASSIC CORTEZ NYLON playful ways; confusing and confounding the expectations of space and form. Source: Street Art News .