STATISTIČKA ANALIZA TEKSTNIH PODATAKA
Mira Hercigonja-Szekeres, Nenad Sikirica, Antun Presečki
Sažetak
Tekstni podaci česti su rezultat u raznim istraživanjima, npr. sociologiji, psihologiji, marketingu, socioekonomskim analizama, medicinskim znanostima i dr. Najčešće ih dobivamo kao rezultat neformalnih anketa kroz razgovor (engl. informal conversational interview), tematski ciljanih anketa kroz razgovor (engl. interview guide approach) ili standardiziranih anketa sa slobodnim odgovorima (engl. standardized open-ended interview). Ponekad je upravo tekst cilj istraživanja, npr. kod analiza (socio)političkih govora, literarnih radova i sl. Takvi tekstovi sadrže mnoštvo informacija, ali su problematični za statističku analizu. Naime, kodiranjem takvih tekstova gubi se mnogo informacija.
Metode multivarijatne analize podataka omogućile su veliki napredak u analizi tekstnih podataka. Koristeći te metode, analiza tekstnih podataka pojednostavljena je na statističku analizu riječi kao grafičkih formi, obradu leksičkih formi u totalitetu i učinjena je nezavisnom o jeziku tekstnih podataka. Osobito je time unaprijeđena analiza prije navedenih anketa, koje su u današnje vrijeme vrlo česte zbog uštede vremena i/ili kao nadopuna anketa s unaprijed ponuđenim odgovorima (engl. closed field response interview). U takvim je analizama unaprijeđena mogućnost kombiniranja tekstnih podataka pojedinaca s njihovim karakteristikama kao kvalitativnim i kvantitativnim varijablama.
Metode analize tekstnih podataka u osnovi se dijele u leksikometrijske metode i statističke metode prilagođene tekstnim podacima, tj. tekstu. Leksikometrijske metode su metode prebrojavanja riječi i stvaranja indeksa riječi cijelog teksta ili pojedinih njegovih dijelova. Indeksi mogu biti hijerarhijski ili abecedni. Statistička analiza tekstnih podataka zasnovana je na multivarijatnoj statističkoj analizi velikih tabela numeričkih podataka, a zbog prirode tekstnih podataka, to su postupci statističke analize diskretnih, kvalitativnih varijabli.
Tekstna jedinica je definirana kao skup znakova između dva delimitera. Takvu tekstnu jedinicu zovemo grafička forma ili, češće, riječ. Uobičajeno je da se delimiterom za riječ smatra bjelina (praznina) kojom inače odjeljujemo riječi pri pisanju. Međutim kao delimiter se može definirati, i obično se definira, čitav skup znakova, najčešće interpunkcija. Jedno pojavljivanje riječi je niz znakova izvan skupa delimitera koji je s obje strane ograničen delimiterom. Dvije su riječi jednake ako su to dva jednaka niza znakova izvan skupa delimitera koji su s obje strane ograničeni delimiterom. Vokabular čine sve (različite) riječi u danom tekstu. Veličina ili duljina teksta je ukupni broj pojavljivanja svih riječi u tekstu.
Cjelokupna obrada ima dva aspekta: statistički i kontekstni. Statistički aspekt se odnosi na frekvenciju riječi, što znači na vektore čije su komponente frekvencija svake riječi upotrijebljene od pojedinca ili grupe pojedinaca. Statističke metode najčešće korištene za analizu tekstnih podataka su korespondencijska analiza i klaster analiza. Kontekstni aspekt su automatizirani postupci kojima se pokušava približiti sadržaju teksta. U tu se svrhu provode postupci konkordancije s odabranom (ključnom) riječi te pronalaženje segmenta koji se ponavljaju i njihova leksikometrija.
U ovom su radu analizirani su samostalni radovi studenata prve godine Visoke škole Hrvatsko zagorje Krapina, smjera Operativni menadžment. U tom radu, sa zadanim naslovom „Informatika u poslovanju“, studenti su trebali napisati svoj stav prema primjeni informatičko računalnih tehnologija u poslovanju.
Ključne riječi: statistička analiza teksta, tekstni podaci, tekst. |