STATISTIČKA ANALIZA TEKSTNIH PODATAKA

Mira Hercigonja-Szekeres, Nenad Sikirica, Antun Presečki

Sažetak

Tekstni podaci česti su rezultat u raznim istraživanjima, npr. sociologiji, psihologiji, marketingu, socioekonomskim analizama, medicinskim znanostima i dr. Najčešće ih dobivamo kao rezultat neformalnih anketa kroz razgovor (engl. informal conversational interview), tematski ciljanih anketa kroz razgovor (engl. interview guide approach) ili standardiziranih anketa sa slobodnim odgovorima (engl. standardized open-ended interview). Ponekad je upravo tekst cilj istraživanja, npr. kod analiza (socio)političkih govora, literarnih radova i sl. Takvi tekstovi sadrže mnoštvo informacija, ali su problematični za statističku analizu. Naime, kodiranjem takvih tekstova gubi se mnogo informacija.
Metode multivarijatne analize podataka omogućile su veliki napredak u analizi tekstnih podataka. Koristeći te metode, analiza tekstnih podataka pojednostavljena je na statističku analizu riječi kao grafičkih formi, obradu leksičkih formi u totalitetu i učinjena je nezavisnom o jeziku tekstnih podataka. Osobito je time unaprijeđena analiza prije navedenih anketa, koje su u današnje vrijeme vrlo česte zbog uštede vremena i/ili kao nadopuna anketa s unaprijed ponuđenim odgovorima (engl. closed field response interview). U takvim je analizama unaprijeđena mogućnost kombiniranja tekstnih podataka pojedinaca s njihovim karakteristikama kao kvalitativnim i kvantitativnim varijablama.
Metode analize tekstnih podataka u osnovi se dijele u leksikometrijske metode i statističke metode prilagođene tekstnim podacima, tj. tekstu. Leksikometrijske metode su metode prebrojavanja riječi i stvaranja indeksa riječi cijelog teksta ili pojedinih njegovih dijelova. Indeksi mogu biti hijerarhijski ili abecedni. Statistička analiza tekstnih podataka zasnovana je na multivarijatnoj statističkoj analizi velikih tabela numeričkih podataka, a zbog prirode tekstnih podataka, to su postupci statističke analize diskretnih, kvalitativnih varijabli.
Tekstna jedinica je definirana kao skup znakova između dva delimitera. Takvu tekstnu jedinicu zovemo grafička forma ili, češće, riječ. Uobičajeno je da se delimiterom za riječ smatra bjelina (praznina) kojom inače odjeljujemo riječi pri pisanju. Međutim kao delimiter se može definirati, i obično se definira, čitav skup znakova, najčešće interpunkcija. Jedno pojavljivanje riječi je niz znakova izvan skupa delimitera koji je s obje strane ograničen delimiterom. Dvije su riječi jednake ako su to dva jednaka niza znakova izvan skupa delimitera koji su s obje strane ograničeni delimiterom. Vokabular čine sve (različite) riječi u danom tekstu. Veličina ili duljina teksta je ukupni broj pojavljivanja svih riječi u tekstu.
Cjelokupna obrada ima dva aspekta: statistički i kontekstni. Statistički aspekt se odnosi na frekvenciju riječi, što znači na vektore čije su komponente frekvencija svake riječi upotrijebljene od pojedinca ili grupe pojedinaca. Statističke metode najčešće korištene za analizu tekstnih podataka su korespondencijska analiza i klaster analiza. Kontekstni aspekt su automatizirani postupci kojima se pokušava približiti sadržaju teksta. U tu se svrhu provode postupci konkordancije s odabranom (ključnom) riječi te pronalaženje segmenta koji se ponavljaju i njihova leksikometrija.
U ovom su radu analizirani su samostalni radovi studenata prve godine Visoke škole Hrvatsko zagorje Krapina, smjera Operativni menadžment. U tom radu, sa zadanim naslovom „Informatika u poslovanju“, studenti su trebali napisati svoj stav prema primjeni informatičko računalnih tehnologija u poslovanju.
Ključne riječi: statistička analiza teksta, tekstni podaci, tekst.

Patrik Ervells latest collection is ironically titled “Software”ADIDAS ORIGINALS TUBULAR SHADOW. In the notes from the presentation, Ervell says he was interested in developing tension between nostalgia and sci-fi,NIKE ZOOM WINFLO 3 and even included 90s cyberpunk amongst his influences. Ervell developed this point of view by creating an imaginary software company called Idegen software systems. He then re-appropriated the company’AIR JORDAN XXXI MENs logo in several of the collection’s garments. Elsewhere,MBT TARIKI MEN mohair coats with oversized lapels made an appearance alongside mock neck tees,NIKE AIR JORDAN RETRO 5 police-inspired ribbed sweaters,MBT FORA GTX WOMEN flight bombers, and polyurethane leather coats. The setting was also suitably dystopian, and the resulting ambiance was something akin to if the creators of Deutschland 83 and Hackers met up and decided to create a collection… We mean that as a compliment.Yesterday afternoon,JORDAN CP3 IX MEN artist JR spent the day working on his latest collaborative piece with Daniel Arsham in Greenpoint,NIKE AIR MAX 90 Brooklyn,MBT KIMONDO GTX MEN NYC. Connecting the lines between art, architecture, dance and theater, Daniel Arsham has been known to subvert existing architectural structures in unconventional,NIKE CLASSIC CORTEZ NYLON playful ways; confusing and confounding the expectations of space and form. Source: Street Art News .