Low Resource Question Answering: An Amharic Benchmarking Dataset: An Amharic Benchmarking Dataset

Tilahun Abedissa Taffa; Yaregal Assabie; Ricardo Usbeck

Low Resource Question Answering: An Amharic Benchmarking Dataset: An Amharic Benchmarking Dataset

Publikation: Beiträge in Sammelwerken › Aufsätze in Konferenzbänden › Forschung › begutachtet

Authors

Professur für Wirtschaftsinformatik, insbesondere Künstliche Intelligenz und Erklärbarkeit

Question Answering (QA) systems return concise answers or answer lists based on natural language text, which uses a given context document. Many resources go into curating QA datasets to advance the development of robust QA models. There is a surge in QA datasets for languages such as English; this is different for low-resource languages like Amharic. Indeed, there is no published or publicly available Amharic QA dataset. Hence, to foster further research in low-resource QA, we present the first publicly available benchmarking Amharic Question Answering Dataset (Amh-QuAD). We crowdsource 2,628 question-answer pairs from over 378 Amharic Wikipedia articles. Using the training set, we fine-tune an XLM-R-based language model and introduce a new reader model. Leveraging our newly fine-tuned reader run a baseline model to spark open-domain Amharic QA research interest. The best-performing baseline QA achieves an F-score of 80.3 and 81.34 in retriever-reader and reading comprehension settings.

Originalsprache	Englisch
Titel	The Fifth Workshop on Resources for African Indigenous Languages @LREC-COLING-2024 (RAIL) : Workshop Proceedings
Herausgeber	Rooweither Mabuya, Muzi Matfunjwa, Mmasibidi Setaka, Menno van Zaanen
Anzahl der Seiten	9
Erscheinungsort	Paris
Verlag	European Language Resources Association (ELRA)
Erscheinungsdatum	2024
Seiten	124-132
ISBN (elektronisch)	978-2-493814-40-1
Publikationsstatus	Erschienen - 2024
Veranstaltung	5th Workshop on Resources for African Indigenous Languages, RAIL 2024 - Torino, Italien Dauer: 25.05.2024 → …

Bibliographische Notiz

Publisher Copyright:
© 2024 ELRA Language Resource Association.

Fachgebiete

Informatik

Weitere Publikationen dieser Person(en)

D2R2 2024: Linked Data-driven Resilience Research 2024: Proceedings of the Third International Workshop on Linked Data-driven Resilience Research (D2R2'24) co-located with European Semantic Web Conference 2024 (ESWC 2024), May 27, 2024

Holze, J. (Hrsg.), Tramp, S. (Hrsg.), Martin, M. (Hrsg.), Auer, S. (Hrsg.), Usbeck, R. (Hrsg.) & Krdzavac, N. (Hrsg.), 2024, Aachen: Rheinisch-Westfaelische Technische Hochschule Aachen. (CEUR Workshop Proceedings; Band 3707)

Publikation: Bücher und Anthologien › Konferenzbände und -dokumentationen › Forschung

DBLP-QuAD: A Question Answering Dataset over the DBLP Scholarly Knowledge Graph

Banerjee, D., Awale, S., Usbeck, R. & Biemann, C., 17.01.2024, BIR 2023 - Bibliometric-enhanced Information Retrieval: Proceedings of the 13th International Workshop on Bibliometric-enhanced Information Retrieval co-located with 45th European Conference on Information Retrieval (ECIR 2023). Frommholz, I., Mayr, P., Cabanac, G., Verberne, S. & Brennan, J. (Hrsg.). Aachen: Sun Site Central Europe (RWTH Aachen University), 15 S. 5. (CUER Workshop Proceedings; Band 3617).

Publikation: Beiträge in Sammelwerken › Aufsätze in Konferenzbänden › Forschung › begutachtet

Event Extraction Alone Is Not Enough

Huang, J., Jiang, L., Möller, C. & Usbeck, R., 05.2024, Narrative Extraction From Texts 2024: Proceedings of Text2Story — Seventh Workshop on Narrative Extraction From Texts held in conjunction with the 46th European Conference on Information Retrieval (ECIR 2024). Campos, R., Jorge, A. M., Jatowt, A., Bhatia, S. & Litvak, M. (Hrsg.). Aachen: Rheinisch-Westfaelische Technische Hochschule Aachen, Band 3671. S. 105-114 10 S. (CEUR Workshop Proceedings; Band 3671).

Publikation: Beiträge in Sammelwerken › Konferenzbeitrag › begutachtet

Master of Disaster: A Disaster-Related Event Monitoring System From News Streams

Huang, J. & Usbeck, R., 2024

Publikation: Andere wissenschaftliche Beiträge › Andere › Forschung

Proceedings of the Third International Workshop on Linked Data-driven Resilience Research 2023 (D2R2 2024)

Holze, J. (Hrsg.), Tramp, S. (Hrsg.), Martin, M. (Hrsg.), Auer, S. (Hrsg.), Usbeck, R. (Hrsg.) & Krdzavac, N. (Hrsg.), 2024, Sun Site Central Europe (RWTH Aachen University). (CEUR Workshop Proceedings; Band 3707)

Publikation: Bücher und Anthologien › Konferenzbände und -dokumentationen › Forschung