Abstract
Geschat wordt dat 80% van alle bedrijfsinformatie bestaat uit documenten waar informatie is beschreven in de vorm van vrije tekst, terwijl maar 20% bestaat uit gestructureerde
informatie. Verborgen in deze documenten is kostbare informatie die van strategisch belang kan zijn voor ondernemingen, zoals klachten van klanten en beschrijvingen van reparaties die door onderhoudspersoneel zijn uitgevoerd. Bestaande 'Business Intelligence' software is vooral gericht op gestructureerde data, zoals databases, en is niet in staat om informatie te ontdekken in tekstdocumenten. Als gevolg hiervan kunnen ondernemingen onvoldoende profiteren van belangrijke inzichten die aanwezig zijn in de documenten die
het bedrijf produceert. Dit leidt tot gemiste kansen, risico's, en onvermogen om bijvoorbeeld op onvrede en niet vervulde verwachtingen van klanten te reageren.
Binnen de Natuurlijke-taalverwerking (Natural Language Processing, NLP) zijn verschillende technieken ontwikkeld om informatie te ontdekken in teksten. Dit zijn onder andere technieken voor informatie-extractie (IE) en tekst-clustering (TC). Deze technieken zijn succesvol toegepast op grote collecties van goed geschreven tekst, zoals verzamelingen krantenartikelen en (medisch-) wetenschappelijke artikelen. Zulke documenten bevatten betrouwbare taalkundige en statistische patronen, die het ontdekken van informatie mogelijk maken. Documenten binnen ondernemingen, zoals die bijvoorbeeld gebruikt worden tijdens productontwikkeling en klantcontacten, vormen een uitdaging voor bestaande NLP-technieken. Zulke documenten zijn vaak zeer informeel, en
bevatten regelmatig ongrammaticale zinsconstructies. Ze zijn meestal ook veel beknopter dan documenten waarop NLP-technieken getest zijn, en bevatten daarom ook minder
betrouwbare taalkundige en statistische signalen. Bestaande NLP-technieken zijn daarom vaak niet in staat om accuraat informatie aan zulke teksten te onttrekken. Deze
tekortkoming in bestaande NLP-technieken was de motivatie voor ons onderzoek.
De onderzoeksvraag die centraal staat in dit werk is:
“Hoe kan automatisch informatie gevonden worden in beknopte, domein-specifieke, en informele teksten?”
Meer in het bijzonder onderzochten we de volgende drie deelvragen:
RQ1: Hoe kunnen termen en concepten accuraat worden geïdentificeerd in domeinspecifieke, beknopte, en informele teksten binnen ondernemingen?
RQ2: Hoe kunnen semantische relaties binnen domein-specifieke, beknopte, en informale teksten automatisch gevonden worden?
RQ3: Hoe kunnen coherente en homogene clusters van vergelijkbare documenten worden gevonden.
Original language | English |
---|---|
Qualification | Doctor of Philosophy |
Supervisors/Advisors |
|
Award date | 5-Jan-2012 |
Place of Publication | Groningen |
Publisher | |
Print ISBNs | 9789036752572 |
Electronic ISBNs | 9789036752589 |
Publication status | Published - 2012 |
Keywords
- Proefschriften (vorm)
- Automatisch indexeren
- Semantische relaties
- Natuurlijke-taalverwerking
- Bedrijfsinformatie
- bestuurlijke informatie(verzorging)