Spring til indhold

Apache OpenNLP

Fra Wikipedia, den frie encyklopædi
Apache OpenNLP
Udvikler(e)The Apache Software Foundation
Udgivet19. juli 2004[1] 14. april 2012[2]
Stabil version2.5.3 (10. januar 2025[3])
Skrevet iJava
PlatformLinux
Mac OS X
Windows
LicensApache-licens
Hjemmesidehttps://opennlp.apache.org/

Apache OpenNLP er et værktøjssæt, der udnytter Maskinlæring til Natural Language Processing (NLP). Det understøtter de mest almindelige opgaver inden for NLP, såsom sprog detektion, tokenisation, sætningssegmentering, part-of-speech labelling, named entity extraction, chunking, parsing og coreference resolution. Disse typer opgaver er normalt nødvendige for at udvikle mere avancerede tekstbehandlingstjenester.

Biblioteket er skrevet i Java og kan nemt integreres i Java-projekter eller projekter, der bruger Java Virtual Machine (JVM)[4].

  • Sprogdetektering: »LanguageDetector« kræver en trænet model. OpenNLP tilbyder selv den fuldt trænede model langdetect-183.bin som download. Den kan identificere 103 sprog [5].
  • Sætningsgenkendelse: »SentenceDetector« genkender, om et punktum markerer slutningen af en sætning, eller om det har en anden betydning. Her er det igen nødvendigt at specificere en trænet skabelon. OpenNLP leverer skabeloner til forskellige sprog, f.eks. opennlp-da-ud-ddt-sentence-1.2-2.5.0.bin til sætningsgenkendelse i dansk tekster.[6].
  • Tokenisering: Tokenizeren opdeler en tegnstreng i tokens. Tokens er normalt ord, tegnsætning, tal osv.
  • Part-of-speech labelling: OpenNLP har et udvalg af prætrænede skabeloner til 32 sprog (tysk, engelsk, spansk, portugisisk, dansk osv.). Disse skabeloner kan bruges til automatisk at mærke et tekstkorpus på et af disse sprog.[7]
  • Udtrækning af navngivne enheder: »TokenNameFinder« kan genkende navngivne enheder og tal i tekst. Der kræves en skabelon for at genkende enheder. Skabelonen afhænger af sproget og den type enhed, den er trænet til. OpenNLP-projektet tilbyder en række prætrænede modeller, som er blevet trænet på forskellige frit tilgængelige korpora. De kan downloades fra siden med download af skabeloner.
  1. ^ "OpenNLP Tools initial release" (engelsk). Hentet 5. januar 2025.
  2. ^ "projects.apache.org" (engelsk). Hentet 5. januar 2025.
  3. ^ "Apache OpenNLP 2.5.3 released" (engelsk). Hentet 10. januar 2025.
  4. ^ "Apache OpenNLP - Building from Source" (engelsk). Hentet 5. januar 2025.
  5. ^ "Apache OpenNLP - Language Detection Model" (engelsk). Hentet 5. januar 2025.
  6. ^ "Apache OpenNLP - Sentence Detection Models" (engelsk). Hentet 5. januar 2025.
  7. ^ "Apache Stanbol - OpenNLP POS Tagging Engine" (engelsk). Hentet 5. januar 2025.