Gradus

VOL 3, NO 2 (2016): AUTUMN (NOVEMBER)

 

A VEKTORTÉR MODEL HASZNÁLATA A SZÖVEGBÁNYÁSZATBAN

THE USAGE OF THE VECTOR-SPACE MODEL IN TEXT MINING


Subecz Zoltán

Abstract

A természetes nyelvi feldolgozás egy új interdiszciplináris terület. Ennek a területnek a célja a számítógép segítségül hívása olyan feladatokban, mint a természetes szövegek feldolgozása, az ember-gép közötti kommunikáció elősegítése és egyéb szöveg feldolgozási feladatok. A nyelv ismerete az, ami megkülönbözteti a nyelvi szövegeket feldolgozó alkalmazásokat más adatfeldolgozó rendszerektől. A természetes nyelvi feldolgozás számos formális modellt és elméletet használ. A modellek a számítástechnika, matematika és a nyelvészet eszközeivel dolgoznak, ezek között található a Vektortér modell is. A vektortér modell a lineáris algebra alapjaira épül, és segítségére van sokfajta információkinyerési módszernek. A cikkben áttekintettem a Vektortér modell elméletét, és feldolgoztam természetes nyelvi szövegeket az internetről a vektortér modell segítségével.

The natural language processing is a new interdisciplinary field. The goal of this new field is to get computers to perform useful tasks involving human language, tasks like enabling human- machine communication, improving human-human communication, or simply doing useful processing of text or speech. What distinguishes language processing applications from other data processing systems is their use of knowledge of language. The natural language processing uses some formal models or theories. These models and theories are all drawn from the standard toolkits of computer science, mathematics, and linguistics. Among these models are the vector-space models. Vector-space models, based on linear algebra, underlie information retrieval and many treatments of word meanings. In this article I reviewed Vector-space models theory and processed 100 natural language texts from Internet with Vector- space models.


Keywords

Kulcsszavak: természetes nyelvfeldolgozás, szövegbányászat, adatbányászat, vektortér modell, programozás,

Keywords: natural language processing, text mining, data mining, vector space model, programming,


References

[1] Martin Daniel Jurafsky and James H. Martin: Speech and Language Processing: An introduction to naturallanguage processing, computational linguistics, and speech recognition. Stanford, CA: Pearson Prentice Hall, 2009.
[2] Tikk Domonkos: Szövegbányászat. Budapest, Typotex kiadó, 2007
[3] Tóth Ágoston: Vektortér alapú szemantikai szóhasonlósági vizsgálatok. Magyar Számítógépes nyelvészetiKonferencia, 2013.
[4] Peter D. Turney, Patrick Pantel: From Frequency to Meaning: Vector Space Models of Semantics. Journal ofArtificial Intelligence Research 37 (2010) 141-188
[5] D.L. Lee: Document ranking and the vector-space model. IEEE Software > Volume: 14 Issue: 2, 1997
[6] Pablo Castells: An Adaptation of the Vector-Space Model for Ontology-Based Information Retrieval, IEEETransactions on Knowledge and Data Engineering, Volume: 19 Issue: 2, 2007
[7] Haizhou Li: A Vector Space Modeling Approach to Spoken Language Identification, IEEE Transactions on Audio,Speech, and Language Processing, 2007Copyright (c) 2020 Gradus