Text Mining

Willimann, Quentin (2013) Text Mining. Bachelor thesis, HSR Hochschule für Technik Rapperswil.

[img]
Preview
Text
text_mining.pdf - Supplemental Material

Download (2MB) | Preview

Abstract

Text Mining hat die Aufgabe, nicht-triviales und verwertbares Wissen, sowie Beziehungen zwischen Texten und Textfragmenten zu entdecken. Mehrere Fachrichtungen sind dabei zu berücksichtigen: Informations Retrieval, Data Mining, Maschinelles Lernen, Statistik und Computerlinguistik. Diese Begriffe werden erklärt und deren Zusammenhang mit Text Mining wird aufgezeigt. In dieser Bachelorarbeit werden anhand von Klassifizierungsproblemen und der automatischen Generierung von Zusammenfassung die Prozessschritte eruiert. Folgende Schritte werden erarbeitet und dokumentiert: 1. Preprocessing (Tokenisierung, Stemming, Vector-Space-Modelling) 2. Postprocessing (Dimension Reduktion) 3. Clustering (K-Means) 4. Classification 5. Evaluation (Cosine Similarity, Accuracy) Nebst den herkömmlichen Algorithmen werden die Resultate mittels linguistischen Methoden verbessert, wie POS Tagging, Synonyme und Hyperonyme. Diese Bachelorarbeit beschreibt einen Algorithmus zur Klassifizierung von Texten und einen zur Generierung von Zusammenfassungen. Mit dem finalen Klassifikationsalgorithmus wird auf dem verwendeten Datensatz "newsgroups“ eine Exaktheit von rund 92.5% für zwei Klassen, 91.3% für drei und 83.5% für vier erreicht. Problematisch sind vor allem Klassen, die nahen zueinander liegen und sich je nachdem sogar überschneiden. Bei der automatischen Zusammenfassung liegt das Augenmerk beim Herausfinden der Themen, welche ein Dokument umfasst. Aus einem wissenschaftlichen Text werden Sätze selektiert, welche den Text möglichst gut zusammenfassen sollen. Diese extraktive Zusammenfassung wird dann mit Hilfe von Cosine Similarity mit dem verfügbaren Abstract verglichen. Dabei wird ein Bestwert von 0.7 erreicht 1. Preprocessing (Tokenisierung, Stemming, Vector-Space-Modelling) 2. Postprocessing (Dimension Reduktion) 3. Clustering (K-Means) 4. Classification 5. Evaluation (Cosine Similarity, Accuracy) Nebst den herkömmlichen Algorithmen werden die Resultate mittels linguistischen Methoden verbessert, wie POS Tagging, Synonyme und Hyperonyme. Diese Bachelorarbeit beschreibt einen Algorithmus zur Klassifizierung von Texten und einen zur Generierung von Zusammenfassungen. Mit dem finalen Klassifikationsalgorithmus wird auf dem verwendeten Datensatz "newsgroups“ eine Exaktheit von rund 92.5% für zwei Klassen, 91.3% für drei und 83.5% für vier erreicht. Problematisch sind vor allem Klassen, die nahen zueinander liegen und sich je nachdem sogar überschneiden. Bei der automatischen Zusammenfassung liegt das Augenmerk beim Herausfinden der Themen, welche ein Dokument umfasst. Aus einem wissenschaftlichen Text werden Sätze selektiert, welche den Text möglichst gut zusammenfassen sollen. Diese extraktive Zusammenfassung wird dann mit Hilfe von Cosine Similarity mit dem verfügbaren Abstract verglichen. Dabei wird ein Bestwert von 0.7 erreicht

Item Type: Thesis (Bachelor)
Subjects: Area of Application > Data Mining
Area of Application > Statistics
Area of Application > Academic and Education
Technologies > Programming Languages > Python
Metatags > INS (Institute for Networked Solutions)
Divisions: Bachelor of Science FHO in Informatik > Bachelor Thesis
Creators:
CreatorsEmail
Willimann, QuentinUNSPECIFIED
Contributors:
ContributionNameEmail
Thesis advisorHuser, HansjörgUNSPECIFIED
Depositing User: HSR Deposit User
Date Deposited: 10 Apr 2014 07:15
Last Modified: 10 Apr 2014 07:15
URI: http://eprints.hsr.ch/id/eprint/339

Actions (login required)

View Item View Item