Using Wikipedia for Cross-Language Named Entity Recognition

Publikation: Beiträge in SammelwerkenAufsätze in KonferenzbändenForschungbegutachtet

Authors

Named entity recognition and classification (NERC) is fundamental for natural language processing tasks such as information extraction, question answering, and topic detection. State-of-the-art NERC systems are based on supervised machine learning and hence need to be trained on (manually) annotated corpora. However, annotated corpora hardly exist for non-standard languages and labeling additional data manually is tedious and costly. In this article, we present a novel method to automatically generate (partially) annotated corpora for NERC by exploiting the link structure of Wikipedia. Firstly, Wikipedia entries in the source language are labeled with the NERC tag set. Secondly, Wikipedia language links are exploited to propagate the annotations in the target language. Finally, mentions of the labeled entities in the target language are annotated with the respective tags. The procedure results in a partially annotated corpus that is likely to contain unannotated entities. To learn from such partially annotated data, we devise two simple extensions of hidden Markov models and structural perceptrons. Empirically, we observe that using the automatically generated data leads to more accurate prediction models than off-the-shelf NERC methods. We demonstrate that the novel extensions of HMMs and perceptrons effectively exploit the partially annotated data and outperforms their baseline counterparts in all settings.

OriginalspracheEnglisch
TitelBig Data Analytics in the Social and Ubiquitous Context : 5th International Workshop on Modeling Social Media, MSM 2014, 5th International Workshop on Mining Ubiquitous and Social Environments, MUSE 2014, and First International Workshop on Machine Learning for Urban Sensor Data, SenseML 2014, Revised Selected Papers
HerausgeberMartin Atzmüller, Alvin Chin, Frederik Janssen, Immanuel Schweizer, Christoph Trattner
Anzahl der Seiten25
VerlagSpringer International Publishing AG
Erscheinungsdatum2016
Seiten1-25
ISBN (Print)978-3-319-29008-9
ISBN (elektronisch)978-3-319-29009-6
DOIs
PublikationsstatusErschienen - 2016
Veranstaltung 5th International Workshop on Mining Ubiquitous and Social Environments - MUSE 2014 - Nancy, Frankreich
Dauer: 15.09.201415.09.2014
Konferenznummer: 5
https://www.semanticscholar.org/paper/The-Fifth-International-Workshop-on-Mining-and-Qin-Greene/03ed707786c842ce7a36b091457e1452d2723aec
https://www.kde.cs.uni-kassel.de/wp-content/uploads/ws/muse2014/

DOI

Zuletzt angesehen

Publikationen

  1. Photodegradation of micropollutants using V-UV/UV-C processes
  2. A Smart Sensing Architecture for Misalignment Measurements
  3. Interdisziplinäre Perspektiven auf das globale Finanzwesen
  4. Studies on the myth's function in Holderlin's 'Feiertagshymne'
  5. Temperate Grassland Region: Equatorial Africa (high altitude)
  6. Sozialgeschichte der Soziologie als Generationengeschichte
  7. (Re)Produktivität als ein sozial-ökologisches „Brückenkonzept“
  8. Preparation and properties of high purity Mg-Y biomaterials
  9. Geschlecht als Basiskategorie der Nachhaltigkeitsforschung
  10. Das Europäische Grenzregime und die Autonomie der Migration
  11. Understanding the bright side and the dark side of telework
  12. Rezension Julia Suchorski (Hrsg.), 2017, Das Spiel meines Lebens
  13. Grundfragen, Probleme und Perspektiven der Demokratiemessung
  14. Role of SiC in grain refinement of aluminum-free Mg-Zn alloys
  15. Progress and challenge for magnesium alloys as biomaterials
  16. Powder Metallurgically Manufactured Metal Matrix Composites
  17. Damit Nachhaltigkeit drin ist, wo Nachhaltigkeit drauf steht
  18. Paradox II. Religionsphilosophisch und fundamentaltheologisch
  19. Kinderliterarische Komparatistik und Fremdsprachenunterricht
  20. Brutareale und Brutbiologie der Greifvogelarten der Mongolei
  21. Hochschulen zwischen Vergleichbarkeit und Unvergleichbarkeit
  22. Maria Luise Weissmann: "Ich wünsche zu sein, was mich entflammt".
  23. Eine Gesellschaft des Interviews / A Society of the Interview
  24. Konstruktionen von Devianz im Blick pädagogischer Fachkräfte
  25. Problem Definition and Agenda-Setting in Critical Perspective
  26. Landscape modification and habitat fragmentation: a synthesis
  27. Dataset of Italian Regional Presidents’ Career Paths (1970-2015)
  28. Zeitliche Dimensionen von Familiengründung und Familienleben
  29. Ressourcen. Soziologische Beiträge der Nachhaltigkeitsdebatte
  30. Why EU asylum standards exceed the lowest common denominator
  31. Disparate disziplinäre Logiken pädagogischer Handlungsfelder
  32. Trade liberalization and the global expansion of modern taxes
  33. Stress corrosion of the Mg-Zn-Zr alloy system using C-ring tests
  34. John Stuart Mill über wirtschaftliche und politische Freiheit
  35. Energie(wende)politik – Auf dem Weg zur nachhaltigen Entwicklung?
  36. Morphometric differentiation in a specialised snail predatior
  37. Regionalökonomische Auswirkungen von Tagungen und Kongressen
  38. The Corporate Construction of Transparency and (In)Transparency
  39. Die Angst vor Migration. Gefühle als Modus politischen Denkens
  40. Wohin steuert das politische System des vereinten Deutschland?
  41. Multiple Glacial Refuges of Unwinged Ground Beetles in Europe
  42. Gesellschaftlicher Wandel und die Legitimität der Vaterschaft
  43. Digitalization in engineering education research and practice
  44. Franz Hessel: 'Von den Irrtümern der Liebenden' und andere Prosa
  45. Nachhaltigkeitskommunikation mit strategischen KonsumentInnen
  46. Biodegradable magnesium-hydroxyapatite metal matrix composites
  47. Körperpraktiken und Selbsttechnologien in einer Medienkultur
  48. The challenge of managing multiple species at multiple scales