A Study on the Impact of Intradomain Finetuning of Deep Language Models for Legal Named Entity Recognition in Portuguese

Research output: Contributions to collected editions/worksArticle in conference proceedingsResearchpeer-review

Authors

Deep language models, like ELMo, BERT and GPT, have achieved impressive results on several natural language tasks. These models are pretrained on large corpora of unlabeled general domain text and later supervisedly trained on downstream tasks. An optional step consists of finetuning the language model on a large intradomain corpus of unlabeled text, before training it on the final task. This aspect is not well explored in the current literature. In this work, we investigate the impact of this step on named entity recognition (NER) for Portuguese legal documents. We explore different scenarios considering two deep language architectures (ELMo and BERT), four unlabeled corpora and three legal NER tasks for the Portuguese language. Experimental findings show a significant improvement on performance due to language model finetuning on intradomain text. We also evaluate the finetuned models on two general-domain NER tasks, in order to understand whether the aforementioned improvements were really due to domain similarity or simply due to more training data. The achieved results also indicate that finetuning on a legal domain corpus hurts performance on the general-domain NER tasks. Additionally, our BERT model, finetuned on a legal corpus, significantly improves on the state-of-the-art performance on the LeNER-Br corpus, a Portuguese language NER corpus for the legal domain.

Original languageEnglish
Title of host publicationIntelligent Systems : 9th Brazilian Conference, BRACIS 2020, Rio Grande, Brazil, October 20–23, 2020, Proceedings, Part I
EditorsRicardo Cerri, Ronaldo C. Prati
Number of pages15
Place of PublicationCham
PublisherSpringer Nature Switzerland AG
Publication date2020
Pages648-662
ISBN (print)978-3-030-61376-1
ISBN (electronic)978-3-030-61377-8
DOIs
Publication statusPublished - 2020
Externally publishedYes
EventBrazilian Conference on Intelligent Systems - BRACIS 2020 - Rio Grande, Brazil
Duration: 20.10.202023.10.2020
Conference number: 9
http://www2.sbc.org.br/bracis2020/#:~:text=The%209th%20Brazilian%20Conference%20on,%2C%2020%20to%2023%2C%202020.

Recently viewed

Publications

  1. Othering and Same-ing for the Young. Expanding the Theoretical and Material Horizons of Imagology with Children's Literature
  2. Ästhetiken des Widerstands - Literatur und Sprache in politischen Prozessen des deutschsprachigen und des arabischen Raums
  3. Reflektierte strukturierte Videoanalyse als Mittel institutioneller Professionalisierung angehender Fremdsprachenlehrender
  4. Studienabbrecher: Über die Situation einer (noch) kaum beachteten Zielgruppe innerhalb und außerhalb der Beruflichen Bildung
  5. Towards sustainable land uses within the Elbe river biosphere reserve in Lower Saxony, Germany by means of TerraSAR-X images
  6. Komplexe Lernaufgaben zur Förderung interkultureller kommunikativer Kompetenzen im Spanischunterricht der Sekundarstufe II
  7. Komplexe Lernaufgaben zur Förderung interkultureller kommunikativer Kompetenzen im Spanischunterricht der Sekundarstufe II
  8. Im langen Schatten starrender Gipfel. Von prekären Bergen, Figuren und Erzählern in der deutschsprachigen Literatur nach 2000
  9. To err is Human, To Explain and Correct is Divine: A Study of Interactive Erroneous Examples with Middle School Math Students.
  10. Der Einfluss der Zweitsprache auf den Fremdensprachenerwerb am Beispiel des Russischen bei weißrussischen Deutschlernenden
  11. DaZKom – Professional Competencies of Pre-Service Teachers for Secondary Education in the Field of German as a Second Language
  12. Joint Proceedings of Scholarly QALD 2023 and SemREC 2023 co-located with 22nd International Semantic Web Conference ISWC 2023
  13. Arendt i Kant: ravnopravni drugi i “prosireni nacin misljenja“ (Arendt and Kant: the Equal Others and an “Extended Way of Thinking”)
  14. "Ein Schatz, den ich in mir trage". Globales Lernen durch Auslandserfahrungen im Rahmen entwicklungspolitischer Bildungsprogramme
  15. Palaces, Stars and Abeceda. The Body as Indexical Reader in Post-Socialist Art by CORO Collective, Cooltūristės and Paulina Olowska
  16. Comprehensive meta-analysis of excess mortality in depression in the general community versus patients with specific illnesses.
  17. Von KITA21 lernen. Gelingensbedingungen für die Implementation von Bildung für eine nachhaltige Entwicklung im Elementarbereich
  18. Lernaufgaben zum Interkulturellen Lernen im Spanischunterricht: der deutsch-kolumbianische Film ‚Dr. Alemán’ in der Sekundarstufe II
  19. Kontrastive phonologische und phonetische Analyse Weißrussisch-Deutsch und Analyse interferenzbedingter Ausspracheabweichungen
  20. Die an die Schüler/-innen gerichtete Sprache. Erste Ergebnisse einer Studie zur Adaptivität sprachlichen Handelns von Lehrer/-innen
  21. Chancen des Konzepts der Bildung für nachhaltige Entwicklung für die Kooperation von Schule und außerschulischer (Umwelt)Bildung
  22. "Mach mal Pause!" Freie Zeit, Freizeitverhalten und Freizeit-Diskurse in der westdeutschen Wiederaufbau-Gesellschaft der 1950er Jahre
  23. Benjamins zeitdiagnostische Rezensionstätigkeit zwischen Text und Kontexten. Exemplarische Analysen eines Spannungsverhältnisses
  24. Genetic diversity and population structure of the endangered insect species Carabus variolosus in its western distribution range
  25. Subjektive Theorien und biographische Erfahrungen im Professionalisierungsprozess von Lehrkräften – am Beispiel von Umweltbildung
  26. Untersuchungen zur Entwicklung von Anpassungsstrategien an den Klimawandel für die Überflutungsflächen an der unteren Mittelelbe.
  27. Schwerpunkt: Bildung, verweigert. Zum Verhältnis von Bildung, Institution und Romanform von Anton Reiser bis zu Der Hals der Giraffe
  28. Mündliche Lernertexte auf der Zweinull-Bühne – Mediale Inszenierungen im Englischunterricht am Beispiel eines Schulpodcast-Projekts
  29. Comparing Germany and Israel regarding debates on policy-making at the beginning of life: PGD, NIPT and their paths of routinization
  30. Konflikte, Beschwerden und Probleme - wertvolle Indikatoren und Handlungsfelder für die Entwicklung der Leuphana Universität Lüneburg
  31. Textkohäsion und deren Bedeutung für das Textverständnis: Wie reagieren Lernende auf temporale Kohäsion am Beispiel eines Sachtextes?
  32. Verhütung als Mittel gegen Bevölkerungswachstum. Expertendiskussion und öffentliche Debatten in Westdeutschland in den 1960er Jahren
  33. MEHRSPRACH-ICH: Zur Stärkung multipler sprachlicher Identitäten und literaler Kompetenzen in einem Vorleseprojekt in Kindertagesstätten
  34. Eva-Prim - Evaluation im Primarbereich: Sprachförderung in alltäglichen und fachlichen Kontexten im Rahmen der Bund-Länder-Initiative BiSS.
  35. Developing learning environments for independent work – preparing Austrian future chemistry teachers for inquiry-based science education
  36. [Review] Tracy McDonald e Daniel Vandersommers (a cura di), Zoo Studies. A New Humanities, Montreal, McGill¿Queen¿s University Press, 2019, 345 pp.
  37. Stakeholder engagement in Water Framework Directive planning in the United Kingdom: Two case studies from Northern Ireland and Scotland
  38. Corporate Volunteering – theoretische Überlegungen, empirische Befunde und eine aktuelle Bestandsaufnahme der wissenschaftlichen Diskussion
  39. Mündliches Beschreiben von Bildern im Kontext des Kunstunterrichts zwischen schulsprachlichen Erwartungen und fachlichen Anforderungen
  40. Der Zusammenhang zwischen Beschulungsart, Klassenkomposition und schulischen Kompetenzen von Kindern mit sonderpädagogischem Förderbedarf
  41. Different Subcultures in Residential Groups in Germany – Implications for Participation and the Victimization of Children and Young People
  42. Bildung für eine nachhaltige Entwicklung als innovatives Konzept für Qualitätsentwicklung und Professionalisierung in der LehrerInnenbilung
  43. Tracking Sustainability Targets with Quantitative Indicator Systems for Performance Measurement of Industrial Symbiosis in Industrial Parks
  44. Förderung Benachteiligter in Vergangenheit und Zukunft mit dem Ziel der Berufsausbildung oder der Vorbereitung auf ein Leben in Prekarität?