Gradus

Vol 4, No 2 (2017): Autumn (November)

 

ADATBÁNYÁSZATI SZOFTVER HASZNÁLATA SZÖVEGOSZTÁLYOZÁSHOZ

DATA MINING SOFTWARE FOR TEXT CLASSIFICATION


Subecz Zoltán, Nagyné Dr. Csák Éva

Abstract

Dolgozatunkban a Weka adatbányászati szoftver használatát és a szövegosztályozás alapelveit mutatjuk be. Egy gyakorlati példán keresztül, amiben Internetről letöltött 4000 db ingatlanhirdetési szöveget dolgoztunk fel, több szöveg-osztályozási módszert megvizsgáltunk. Voltak olyan módszerek, amelyekhez a Weka beépített algoritmusát használtuk fel, és előfordultak olyanok is, amelyekhez saját programot készítettünk. Több módszert is részletesen elemeztünk a paraméterek beállításának változtatásával. Az egyes módszerek eredményeit összehasonlítottuk az osztályozási pontosság és a futási idő szerint. A feladatokhoz a programokat Java nyelven írtuk meg.

In our work we presented the usage of the Weka datamining software and the principles of text classification. We examined several text classification methods with the help of a practical example, where we processed 4000 real estate advertisements from Internet. We used the Weka built-in algorithms for some methods and we wrote programs for the others. We analyzed some methods in detail with different parameters. We compared the results of the methods from the point of view of precision and execution time. We wrote the programs in Java language for the tasks.


Keywords

Kulcsszavak: szövegosztályozás, információkinyerés, adatbányászat, szövegbányászat, mesterséges intelligencia,

Keywords: text classification, information extraction, data mining, text mining, artificial intelligence,


References

[1] Martin Daniel Jurafsky, James H. Martin: Speech and LanguageProcessing: Anintroductiontonaturallanguageprocessing, computationallinguistics, and speechrecognition. Stanford, CA:PearsonPrentice Hall, 2009.
[2] Subecz Zoltán: A Vektortér-modell használata a Szövegbányászatban. A Pallasz Athéné Egyetem 17. TudományosKonferenciája a Magyar Tudomány Ünnepe Alkalmából. GRADUS elektronikus folyóirat, VOL 3, NO 2 (2016):AUTUMN (NOVEMBER), pp. 73-79.
[3] Tikk Domonkos: Szövegbányászat. Typotex kiadó, Budapest, 2007.



Copyright (c) 2024 Gradus