Open Universiteit
   About DSpace Software Open Universiteit border=

DSpace at Open Universiteit >
l. Master Thesis >
- School of Computer Science >

Please use this identifier to cite or link to this item: http://hdl.handle.net/1820/1386

Title: Automatische multiclass en multilabel tekstclassificatie bij veel klassen
Other Titles: Automatic multiclass and multi-label text classification with many classes
Authors: Luykx, Maarten
Keywords: descriptoren
documenten
relaties
Issue Date: Jun-2008
Publisher: Open Universiteit Nederland
Abstract: In dit onderzoek is onderzocht of het mogelijk is de toekenning van descriptoren uit een thesaurus aan documenten te automatiseren. Daarbij is gebruik gemaakt van het zogenaamde machineleren paradigma. Een computer leert aan de hand van een groot aantal voorbeelden welke relaties er bestaan tussen voorkomende woorden in documenten en de descriptoren die door experts aan deze documenten zijn toegekend. Daarbij is het de bedoeling dat de computer deze geleerde relaties kan toepassen bij de aanbieding van nieuwe documenten. De computer kent dan aan deze nieuwe documenten descriptoren toe. Doordat de experts ook aan deze ‘nieuwe’ documenten descriptoren hebben toegekend kan de juistheid van de toekenning door de computer worden beoordeeld. In dit onderzoek zijn twee methoden (algoritmen) gebruikt om de computer te leren de relaties te leggen tussen de woorden in de documenten en de toegekende descriptoren. Het gaat daarbij om een methode van lineaire classificatie en een meer specifieke methode met support vector machines. Daarnaast zijn er drie methoden van vectorisatie toegepast op de woordverzamelingen van de documenten, te weten: 1. binaire codering. 2. codering op termfrequenties, en 3. codering op basis van het product van termfrequenties en de inverse documentfrequenties van de betrokken termen. Voor het onderzoek is gebruik gemaakt van een omvangrijke verzameling documenten uit de Amerikaanse National Library of Medicine (Ohsumed). De toegekende descriptoren zijn afkomstig uit de Medical Subject Headings (MeSH), een gezaghebbende thesaurus op het gebied van de medische wetenschap. Twee jaargangen uit deze verzameling zijn voor dit onderzoek gebruikt (1990 en 1991). Ongeveer de helft van de documenten is gebruikt voor de trainingsverzameling (1990), de overige documenten maakten deel uit van de testverzameling (1991). De resultaten laten een wisselend beeld zien. In het algemeen zijn de prestaties van de getrainde classifiers op het gebied van de precisie, de mate waarin toekenningen correct worden gedaan, beter dan op de recall, de mate waarin de classifiers in staat zijn de juiste descriptoren te herkennen. De gemiddelde precisie bedraagt ongeveer 0,85 en de gemiddelde recall 0,32. Bovendien bleek de verwachte superioriteit van de methode met de support vector machines in dit onderzoek niet uit te komen. Op de precisie doet de support vector machine het beter dan de lineaire classifier (0,90 tegen 0,81), maar bij de recall liggen de verhoudingen omgekeerd (0,35 voor de lineaire classifier en 0,30 voor de support vector machine). Een mogelijke oorzaak voor de teleurstellende resultaten kan liggen in het feit dat binnen dit onderzoek te weinig rekening is gehouden met de hiërarchische opbouw van de descriptorenverzameling. Daardoor worden de descriptoren te veel beschouwd als onafhankelijke categorieën, terwijl er tussen de verschillende descriptoren vaak sterke semantische afhankelijkheden bestaan. Het ligt dan ook voor de hand om in vervolgonderzoek hieraan meer aandacht te besteden. Daartoe worden enkele suggesties gedaan.
Description: voorzitter: dr. ir. Pieter Spronck, begeleider: dr. ir. Schil de Vos
URI: http://hdl.handle.net/1820/1386
Appears in Collections:- School of Computer Science

Files in This Item:

File Description SizeFormat
INFMLuykx2008-1.pdfmain article3.74 MBAdobe PDFView/Open
InfMLuycks-juni2008-bijlagen.pdfenclosure684.97 kBAdobe PDFView/Open
View Statistics

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Valid XHTML 1.0! Copyright © 2003 - 2010 Open Universiteit - Feedback