KNAW

Onderzoek

Reversible stochastic attribute-value grammars

Pagina-navigatie:


Wijzig gegevens


Titel Reversible stochastic attribute-value grammars
Looptijd 09 / 2008 - 04 / 2013
Status Afgesloten
Dissertatie Ja
Onderzoeknummer OND1336727
Leverancier gegevens Website LOT

Samenvatting

Computers kunnen met slechts één component zinnen ontleden en produceren. Dat is de voornaamste conclusie van het proefschrift van Daniël de Kok. Tot dusver werden er gescheiden componenten gebruikt voor het ontleden en produceren van zinnen. De vloeiendheid van een zin en de waarschijnlijkheid van een ontleding kunnen bepaald worden met een klein aantal taalkundig-gemotiveerde eigenschappen. Een bekende vraag in de taalkunde is de vraag of de mens twee onafhankelijke modules heeft voor taalbegrip en taalproductie. In de computertaalkunde zijn taalbegrip (ontleding) en taalproductie (generatie) in de recente geschiedenis eigenlijk altijd als twee afzonderlijke taken en dus modules behandeld. De hoofdstelling van De Koks proefschrift is dat ontleding en generatie op een computer door één component uitgevoerd kan worden, zonder slechter te presteren dan afzonderlijke componenten voor ontleding en generatie. De onderliggende redenering is dat veel voorkeuren gedeeld moeten zijn tussen productie en begrip, omdat het anders niet mogelijk zou zijn om een geproduceerde zin te begrijpen. Om deze stelling te onderbouwen is er eerst een generator voor het Nederlands ontwikkeld. Deze generator is vervolgens geïntegreerd met een bestaande ontleder voor het Nederlands. De Kok laat zien dat er inderdaad geen significant verschil is tussen de prestaties van de geïntegreerde module en afzonderlijke begrips- en productiecomponenten. Om een beter begrip te krijgen hoe het gecombineerde model werkt, wordt er zogenaamde `feature selectie toegepast. Dit is een techniek om de belangrijkste eigenschappen die een begrijpelijke en vloeiende zin karakteriseren op te sporen. Het proefschrift toont aan dat dit met een klein aantal, voornamelijk taalkundig geïnformeerde eigenschappen bepaald kan worden.

Samenvatting (EN)

Summarization of text is often a necessity when searching and selecting information from document repositories. However, summarization technology is for a large part restricted to the extraction of sentences. Current research focuses on creating compressions of salient sentences that convey the the important content of these sentences. Such compressions can be generated by removing non-salient words, based on characteristics of parse trees, such as the dependency trees generated by the Dutch Alpino parser and grammar. Compression techniques can be developed (or modified) to yield abstract dependency structures. This project aims to make a sentence generation module that produces actual grammatical sentences on the basis of such abstract representations, using the declarative grammar of Alpino as its key knowledge source. The (Dutch wide-coverage) Alpino grammar will be used to guide the generation process, in order that syntactic constraints on word order, agreement and subcategorisation are properly taken into account. Although the Alpino grammar can be used to ensure that well-formed sentences are produced, a fluency module will be developed to ensure that the sentences that are produced are natural and appropriate. Just as parsing needs a (statistical) disambiguation component to select the appropriate parse from potentially large sets of possible parses, a fluency component is needed to select the most appropriate sentence from the set of possible sentences given by the generator. For the fluency component, this project aims to develop a machine-learning method similar in approach to the disambiguation component of the Alpino parser. The disambiguation component of Alpino contains a discriminative maximum-entropy model, trained on the Alpino treebank. For statistical ranking of competing surface realizations of the same content, a similar discriminative maximum-entropy model could be developed.

Betrokken organisaties

Betrokken personen


Omhoog
Ga terug naar de inhoud
Ga terug naar de site navigatie