KNAW

Research

Technology and information processing

Pagina-navigatie:


Update content


Title Technology and information processing
Period 01 / 2002 - 12 / 2005
Status Completed
Research number OND1294357

Abstract (NL)

Het programma 'Technologie en informatieverwerking' richt zich op de bijdrage die volledig automatische en computerondersteunde verwerking van geschreven en gesproken taal kunnen leveren aan 'informatieverwerking' door en voor mensen. Informatieverwerking is een term die een breed scala van processen dekt, die allemaal gerelateerd zijn aan het zoeken, selecteren, ordenen, interpreteren en opnieuw gebruiken van gegevens, afzonderlijk dan wel in hun onderlinge samenhang. Een groot deel van de relevante gegevens en van de kennis die de mensheid in de loop der eeuwen opgebouwd heeft zit 'verborgen' in ongestructureerde teksten. Het programma richt zich daarom op de verwerving en de implementatie van kennis over taal die ingezet kan worden voor het effectief en efficiënt vinden van informatie in vrije teksten. Informatieverwerking is nauw verwant met communicatie, al was het maar doordat tijdens de processen van zoeken, selecteren en interpreteren van gegevens vaak sprake is van interactie tussen de 'zoeker' en de systemen die de gegevens zouden kunnen bevatten. Mens-machine-interactie als onderdeel van informatieverwerking maakt daarom integraal deel uit van het programma. Dit deel van het programma richt zich vooral op gesproken taal, veelal in combinatie met andere communicatiemodi. Het langetermijn doel van het onderzoek is een geformaliseerde en in de vorm van computerprogramma's geïmplementeerde taalbeschrijving die ingezet kan worden voor praktische toepassingen in de informatieverwerking en mens-machine-interactie. Bij de huidige stand van het onderzoek kan het niet anders of zo'n beschrijving is gebaseerd of getoetst op grote corpora van gesproken en geschreven taal. Behalve aan de fundamentele inzichten die van het onderzoek verwacht worden, zullen de resultaten beoordeeld worden aan de hand van twee meer operationele criteria, nl. (1) de bijdragen die geleverd worden aan de ondersteuning van praktische informatieverwerking en aan toepassingen in het taalonderwijs, en (2) de mate waarin de corpusgegevens op een intern consistente manier afgedekt worden. Het onderzoek in het programma zal tot op zekere hoogte gestuurd worden door de problemen die in toepassingen van taal- en spraaktechnologie het belangrijkste blijken te zijn. Het onderzoek is uitdrukkelijk gericht op automatische verwerking van natuurlijke taal. Het programma doet geen expliciete claims over het vergroten van het inzicht in menselijke taalverwerking. Desondanks zijn wij ervan overtuigd dat het programma wel degelijk een bijdrage zal leveren aan dat inzicht, maar dan primair door succesvolle algoritmen en technieken voor automatische verwerking toegankelijk te maken voor een confrontatie met taalkundige theorieën. 'Leerbaarheid' - en met name leerbaarheid onder minimale supervisie - is een centraal thema in het programma. Het onderzoek sluit aan bij het internationaal snel aan belang winnende paradigma waarin taalbeschrijvingen volledig of gedeeltelijk automatisch uit een corpus afgeleid worden, of waarin in ieder geval de relatieve frequentie van observaties en regels op basis van grote corpora bepaald worden. In het spraakonderzoek is die benadering al ruim tien jaar algemeen geaccepteerd; recent vindt ze ook in het onderzoek aan geschreven taal steeds meer ingang. In vrijwel alle gevallen heeft de resulterende beschrijving een probabilistisch karakter, wat in overeenstemming lijkt te zijn met het feit dat menselijke perceptie en productie van taal in wezen probabilistisch is. Het programma richt zich op twee objecttalen, nl. het Nederlands (vooral waar het de gesproken taal betreft) en het Engels (vooral voor geschreven taal). Andere objecttalen (o.a. Spaans en Duits) kunnen eveneens onderwerp van onderzoek zijn, mits voor die talen adequate corpora beschikbaar zijn. Het programma bestaat uit drie sterk aan elkaar gerelateerde, en elkaar deels overlappende deelprogramma's, nl (I) spraaktechnologie, (II) taaltechnologie, en (III) corpora en methodologie.

Related organisations

Related people

Classification

D16000 Computer science
D36000 Language and literature studies

Go to page top
Go back to contents
Go back to site navigation