KNAW

Onderzoek

Algorithms for Nonparametric Monotone Classification

Pagina-navigatie:


Wijzig Onderzoekgegevens


Titel Algorithms for Nonparametric Monotone Classification
Looptijd 12 / 2007 - 12 / 2011
Status Lopend
Dissertatie Ja
Onderzoeknummer OND1336429
Leverancier gegevens NWO

Samenvatting

Bij het leren van voorspelmodellen uit data kan het gebruik van relevante domeinkennis resulteren in een aanzienlijke verbetering van de geproduceerde voorspellingen. Een veel voorkomende en doorgaans makkelijk en betrouwbaar te verkrijgen vorm van domeinkennis betreft de monotonie van relaties tussen voorspellende variabelen en de responsvariabele. Zo is het bekend dat roken de kans op hart- en vaatziekten vergroot (een positief verband), en is het aannemelijk dat een hoger inkomen de kans op wanbetaling verkleint (een negatief verband). Monotonie kan ook een belangrijke eis zijn aan modellen vanuit het oogpunt van het uitleggen en rechtvaardigen van bijvoorbeeld acceptatiebeslissingen. In dit onderzoek richten we ons op de ontwikkeling van algoritmen voor het leren van monotone klassificatiemodellen uit data. Hierbij gaan we niet-parametrisch te werk, dat wil zeggen dat we afgezien van monotonie, zo weinig mogelijk veronderstellingen doen over de relatie tussen de responsvariabele en de voorspellers. Reden hiervoor is het streven naar een zo breed mogelijke toepasbaarheid van de te ontwikkelen algoritmen. Startpunt van onze onderzoekingen is een efficiƫnt algoritme om een gegevensverzameling monotoon te maken met behulp van zo min mogelijk veranderingen van klasselabels. Dit levert een model op dat uitsluitend is gedefinieerd op de waargenomen datapunten; dit model dient op verantwoorde wijze te worden uitgebreid naar alle mogelijke datapunten. De kwaliteit van onze algoritmen zullen we empirisch toetsen door ze toe te passen op aan de praktijk ontleende gegevensverzamelingen, en de resultaten te vergelijken met die van andere data mining algoritmen.

Samenvatting (EN)

It is widely recognized that in learning prediction models from data, the use of relevant prior knowledge may drastically improve their performance. A frequently available form of prior knowledge in many application areas concerns the monotonicity of relations between the response variable and predictor variables. Monotonicity may also be an important model requirement with a view toward explaining and justifying decisions, such as acceptance/rejection decisions. We propose a {\em nonparametric} approach to the construction of monotone classifiers from data. The reason for this choice is that we don't want to impose any additional constraints beyond monotonicity. As a consequence the results of our work will be applicable to a broad range of problems. The starting point of the proposed research is an efficient algorithm to make nonmonotone data sets monotone with as few label changes as possible. The relabeled data set can be viewed as the monotone classifier that has the lowest possible error-rate on the training data. This classifier is however only defined on the observed data points. Hence, the classifier has to be extended to the entire input space in such a way that the monotonicity constraints are satisfied, and the observed data points are used in an optimal way to classify new cases. Another important issue, is the minimization of different loss functions. For example, the minimization of total misclassification costs is of considerable interest, since it is reasonable to assume that misclassification costs will differ in case of ordered class labels.

Betrokken organisaties

Betrokken personen

Onderzoeker N. Barile (MSc.)
Projectleider Dr. A.J. Feelders

Omhoog
Ga terug naar de inhoud
Ga terug naar de site navigatie