| De Tilburgse ILK onderzoeksgroep ontwikkelt sinds begin jaren '90 software voor analogiegedreven geheugengebaseerd leren (case based reasoning, k-nearest neighbor classification, k-NN; Daelemans & Van den Bosch, 2005), en past deze eenvoudige maar krachtige classificatiemethode uit de patroonherkenning en machine learning toe op natuurlijke taalverwerkingsdata. De schaal van digitaal beschikbare taalgegevens (voor bijvoorbeeld ontleding, spraaksynthese en -herkenning, en automatisch vertalen) is in het laatste decennium enorm toegenomen. We spreken inmiddels over databases met miljoenen tot miljarden voorbeelden, en classificatietaken met soms honderdduizenden klassen. Hoewel het krachtige maar bij eenvoudige implementatie trage k-NN algoritme ongevoelig is voor het aantal klassen is het ernstig gevoelig voor het aantal voorbeelden in het geheugen. Parallelisatie ligt daarom voor de hand. Uit de literatuur zijn (bijna-) lineair schalende triviale oplossingen bekend, die uitg! aan van het "klonen" van n identieke k-NN classifiers over n processoren. In recent onderzoek, in het kader van het NWO VICI project "Implicit Linguistics" is een methode ontwikkeld waarbij superlineaire schaling van k-NN mogelijk is (Van den Bosch & Van der Sloot, 2007). Deze studie beperkte zich tot een test op een shared-memory machine met 8 CPUs. De groep wil graag onderzoeken hoe de superlineaire schaling zich voortzet bij grotere hoeveelheden CPUS op een shared memory machine zoals TERAS. De in de groep ontwikkelde software (Dimbl) maakt gebruik van threading. Gedacht wordt (wellicht in een aansluitend project) aan het ontwikkelen van een MPI-variant van de software zodat de software ook op clusters (als LISA) zou kunnen gaan draaien. |