Natural language processing meets business: algorithms for mining meaning from corporate texts

Ravi Ashwin Ittoo

Research output: ThesisThesis fully internal (DIV)

486 Downloads (Pure)

Abstract

Geschat wordt dat 80% van alle bedrijfsinformatie bestaat uit documenten waar informatie is beschreven in de vorm van vrije tekst, terwijl maar 20% bestaat uit gestructureerde informatie. Verborgen in deze documenten is kostbare informatie die van strategisch belang kan zijn voor ondernemingen, zoals klachten van klanten en beschrijvingen van reparaties die door onderhoudspersoneel zijn uitgevoerd. Bestaande 'Business Intelligence' software is vooral gericht op gestructureerde data, zoals databases, en is niet in staat om informatie te ontdekken in tekstdocumenten. Als gevolg hiervan kunnen ondernemingen onvoldoende profiteren van belangrijke inzichten die aanwezig zijn in de documenten die het bedrijf produceert. Dit leidt tot gemiste kansen, risico's, en onvermogen om bijvoorbeeld op onvrede en niet vervulde verwachtingen van klanten te reageren. Binnen de Natuurlijke-taalverwerking (Natural Language Processing, NLP) zijn verschillende technieken ontwikkeld om informatie te ontdekken in teksten. Dit zijn onder andere technieken voor informatie-extractie (IE) en tekst-clustering (TC). Deze technieken zijn succesvol toegepast op grote collecties van goed geschreven tekst, zoals verzamelingen krantenartikelen en (medisch-) wetenschappelijke artikelen. Zulke documenten bevatten betrouwbare taalkundige en statistische patronen, die het ontdekken van informatie mogelijk maken. Documenten binnen ondernemingen, zoals die bijvoorbeeld gebruikt worden tijdens productontwikkeling en klantcontacten, vormen een uitdaging voor bestaande NLP-technieken. Zulke documenten zijn vaak zeer informeel, en bevatten regelmatig ongrammaticale zinsconstructies. Ze zijn meestal ook veel beknopter dan documenten waarop NLP-technieken getest zijn, en bevatten daarom ook minder betrouwbare taalkundige en statistische signalen. Bestaande NLP-technieken zijn daarom vaak niet in staat om accuraat informatie aan zulke teksten te onttrekken. Deze tekortkoming in bestaande NLP-technieken was de motivatie voor ons onderzoek. De onderzoeksvraag die centraal staat in dit werk is: “Hoe kan automatisch informatie gevonden worden in beknopte, domein-specifieke, en informele teksten?” Meer in het bijzonder onderzochten we de volgende drie deelvragen: RQ1: Hoe kunnen termen en concepten accuraat worden geïdentificeerd in domeinspecifieke, beknopte, en informele teksten binnen ondernemingen? RQ2: Hoe kunnen semantische relaties binnen domein-specifieke, beknopte, en informale teksten automatisch gevonden worden? RQ3: Hoe kunnen coherente en homogene clusters van vergelijkbare documenten worden gevonden.
Original languageEnglish
QualificationDoctor of Philosophy
Supervisors/Advisors
  • Wortmann, Johan, Supervisor
Award date5-Jan-2012
Place of PublicationGroningen
Publisher
Print ISBNs9789036752572
Electronic ISBNs9789036752589
Publication statusPublished - 2012

Keywords

  • Proefschriften (vorm)
  • Automatisch indexeren
  • Semantische relaties
  • Natuurlijke-taalverwerking
  • Bedrijfsinformatie
  • bestuurlijke informatie(verzorging)

Cite this