KNAW

Research

Algorithms for Nonparametric Monotone Classification

Pagina-navigatie:


Update Research data


Title Algorithms for Nonparametric Monotone Classification
Period 12 / 2007 - 12 / 2011
Status Current
Dissertation Yes
Research number OND1336429
Data Supplier NWO

Abstract

It is widely recognized that in learning prediction models from data, the use of relevant prior knowledge may drastically improve their performance. A frequently available form of prior knowledge in many application areas concerns the monotonicity of relations between the response variable and predictor variables. Monotonicity may also be an important model requirement with a view toward explaining and justifying decisions, such as acceptance/rejection decisions. We propose a {\em nonparametric} approach to the construction of monotone classifiers from data. The reason for this choice is that we don't want to impose any additional constraints beyond monotonicity. As a consequence the results of our work will be applicable to a broad range of problems. The starting point of the proposed research is an efficient algorithm to make nonmonotone data sets monotone with as few label changes as possible. The relabeled data set can be viewed as the monotone classifier that has the lowest possible error-rate on the training data. This classifier is however only defined on the observed data points. Hence, the classifier has to be extended to the entire input space in such a way that the monotonicity constraints are satisfied, and the observed data points are used in an optimal way to classify new cases. Another important issue, is the minimization of different loss functions. For example, the minimization of total misclassification costs is of considerable interest, since it is reasonable to assume that misclassification costs will differ in case of ordered class labels.

Abstract (NL)

Bij het leren van voorspelmodellen uit data kan het gebruik van relevante domeinkennis resulteren in een aanzienlijke verbetering van de geproduceerde voorspellingen. Een veel voorkomende en doorgaans makkelijk en betrouwbaar te verkrijgen vorm van domeinkennis betreft de monotonie van relaties tussen voorspellende variabelen en de responsvariabele. Zo is het bekend dat roken de kans op hart- en vaatziekten vergroot (een positief verband), en is het aannemelijk dat een hoger inkomen de kans op wanbetaling verkleint (een negatief verband). Monotonie kan ook een belangrijke eis zijn aan modellen vanuit het oogpunt van het uitleggen en rechtvaardigen van bijvoorbeeld acceptatiebeslissingen. In dit onderzoek richten we ons op de ontwikkeling van algoritmen voor het leren van monotone klassificatiemodellen uit data. Hierbij gaan we niet-parametrisch te werk, dat wil zeggen dat we afgezien van monotonie, zo weinig mogelijk veronderstellingen doen over de relatie tussen de responsvariabele en de voorspellers. Reden hiervoor is het streven naar een zo breed mogelijke toepasbaarheid van de te ontwikkelen algoritmen. Startpunt van onze onderzoekingen is een efficiƫnt algoritme om een gegevensverzameling monotoon te maken met behulp van zo min mogelijk veranderingen van klasselabels. Dit levert een model op dat uitsluitend is gedefinieerd op de waargenomen datapunten; dit model dient op verantwoorde wijze te worden uitgebreid naar alle mogelijke datapunten. De kwaliteit van onze algoritmen zullen we empirisch toetsen door ze toe te passen op aan de praktijk ontleende gegevensverzamelingen, en de resultaten te vergelijken met die van andere data mining algoritmen.

Related organisations

Related people

Researcher N. Barile (MSc.)
Project leader Dr. A.J. Feelders

Go to page top
Go back to contents
Go back to site navigation