BRIN Logo
Sign In
Main Product Image

PosTagBugis3K - Dataset Part-of- Speech Tag Korpus Bahasa Bugis

Agenda Riset: Penguatan Ketahanan Sosial dan Masyarakat
Sektor: Sosial Humaniora

Deskripsi

PosTagBugis 3K - Dataset Part-of-Speech Tag Korpus Bahasa Bugis merupakan dataset yang dibuat dari hasil anotasi Bahasa Bugis secara part of speech (POS). Sebanyak Dua Belas kelas anotasi terdiri dari Particle (Partikel), Verb (Kata Kerja), Pronoun (Kata Ganti), Noun (Kata Benda), Determiner, Adverb (Kata Keterangan), Punctuation (Tanda Baca) Numeral (Bilangan), Adjective (Kata Sifat), Preposition (Kata Depan), Conjunction (Kata Hubung), dan Auxiliary Verb (Kata Kerja Bantu). Anotasi dilakukan secara manual oleh ahli bahasa yang kompeten dalam bahasa Bugis, memastikan akurasi dan konsistensi yang tinggi. Dataset ini terdiri dari tiga ribu kalimat (12.568 kata) Bahasa Bugis dengan format kata/tag, pemisahan kata POS tag dipisahkan dengan "/". Dataset ini bermanfaat untuk pelatihan model machine learning untuk tugas-tugas seperti tagging POS otomatis, analisis morfologi, dan pengembangan aplikasi NLP. Karya ini juga memberikan kontribusi penting dalam pelestarian bahasa Bugis dengan mendokumentasikan struktur.

Kata Kunci

Dataset
  • Menyediakan 3.000 kalimat (12.568 kata) Bahasa Bugis dengan anotasi POS manual oleh ahli bahasa
  • Mendukung pelatihan model machine learning untuk tagging otomatis, analisis morfologi, dan aplikasi NLP
  • Memiliki 12 kelas anotasi (kata kerja, kata benda, kata sifat, partikel, dll.) dengan akurasi tinggi
  • Berkontribusi pada pelestarian bahasa Bugis melalui dokumentasi struktur linguistik digital