Pengertian dan Teknik Text Mining

Text Mining adalah metode yang terdiri dari banyak langkah yang memungkinkan Anda menyimpulkan informasi dari data teks yang tidak terstruktur. Proses membersihkan dan mengonversi data teks menjadi format yang dapat digunakan disebut pemrosesan awal teks, dan ini harus dilakukan sebelum Anda dapat menggunakan salah satu dari banyak teknik penambangan teks. Pemrosesan bahasa alami (NLP) adalah komponen kunci dari proses ini, dan untuk menyiapkan data dengan benar untuk analisis, NLP biasanya menggunakan metode termasuk identifikasi bahasa, tokenisasi, penandaan part-of-speech, chunking, dan parsing sintaks. Saat persiapan teks selesai, teknik penambangan teks dapat digunakan untuk mengekstrak wawasan dari data. Di antara metode penambangan teks yang tersebar luas ini adalah:

Information Retrieval

Berdasarkan serangkaian kueri atau frasa yang telah ditentukan sebelumnya, pencarian informasi (IR) memberikan informasi atau dokumen terkait. Algoritma digunakan oleh sistem IR untuk mengikuti aktivitas pengguna dan menemukan informasi terkait. Aplikasi umum pencarian informasi termasuk sistem katalog perpustakaan dan mesin pencari terkenal seperti Google. Berikut adalah beberapa sub-tugas IR yang khas:

A. Tokenisasi adalah tindakan membagi materi bentuk panjang menjadi “token”, yang terdiri dari kalimat dan kata. Mereka kemudian digunakan dalam model untuk pengelompokan teks dan tugas pencocokan dokumen, seperti kumpulan kata.

B. Tindakan menghilangkan awalan dan akhiran dari kata-kata untuk menentukan bentuk dan makna kata dasar dikenal sebagai stemming. Dengan membuat file pengindeksan lebih kecil, metode ini meningkatkan pengambilan informasi.

Natural language processing (NLP)/ Pemrosesan bahasa alami

Untuk membantu komputer memahami bahasa manusia baik dalam bentuk tertulis maupun lisan, pemrosesan bahasa alami, yang dikembangkan dari linguistik komputasi, menggunakan teknik dari sejumlah bidang, termasuk ilmu komputer, kecerdasan buatan, linguistik, dan ilmu data. Komputer dapat “membaca” berkat sub-tugas NLP yang memeriksa struktur frase dan sintaksis. Ini adalah beberapa sub-tugas yang khas:

A. Peringkasan: Metode ini menggunakan sinopsis teks yang panjang untuk menghasilkan ikhtisar singkat dan menyeluruh tentang ide-ide penting dokumen.

B. Penandaan Part-of-Speech (PoS): Dengan pendekatan ini, setiap token dalam dokumen diberi tag tergantung pada bagian ucapan yang diwakilinya, seperti kata benda, kata kerja, kata sifat, dll. Analisis semantik teks tidak terstruktur dimungkinkan oleh tahap ini.

C. Kategorisasi teks, terkadang disebut sebagai klasifikasi teks, memeriksa dokumen teks dan mengelompokkannya menurut topik atau kategori yang telah ditentukan sebelumnya. Menyortir sinonim dan singkatan ke dalam kategori yang berbeda menjadi lebih mudah dengan menggunakan subtugas ini.

D. Analisis sentimen: Aktivitas ini menentukan apakah sumber data internal atau eksternal menyertakan sentimen positif atau negatif, memungkinkan Anda memantau perubahan dalam tampilan klien dari waktu ke waktu. Ini sering digunakan untuk memberikan data tentang kesan konsumen tentang nama, barang, dan layanan. Wawasan ini dapat memotivasi perusahaan untuk terlibat dengan konsumen, meningkatkan alur kerja, dan meningkatkan pengalaman pengguna.

Information Extraction(Ekstraksi Informasi)

Saat memeriksa banyak dokumen, ekstraksi informasi (IE) menampilkan informasi yang relevan. Ini juga menekankan ekstraksi data terstruktur dari teks bebas dan penyimpanan basis data entitas, karakteristik, dan data hubungan yang diekstraksi. Berikut ini adalah sub-tugas ekstraksi informasi umum:

A. Proses pemilihan karakteristik (dimensi) yang signifikan yang akan berkontribusi paling besar pada keluaran model analisis prediktif dikenal sebagai pemilihan fitur atau pemilihan atribut.

B. Untuk meningkatkan akurasi pekerjaan klasifikasi, subset fitur dipilih menggunakan metode ekstraksi fitur. Dalam hal pengurangan dimensi, ini sangat penting.

C. Tujuan dari pengenalan entitas bernama (NER), sering disebut sebagai identifikasi entitas atau ekstraksi entitas, adalah untuk mencari dan mengklasifikasikan entitas tertentu dalam teks, seperti nama atau tempat. Misalnya, NER mengklasifikasikan “Mary” sebagai nama perempuan dan “California” sebagai tempat.

Bentuk input untuk Text Mining ini dikenal sebagai pengambil data struktural, dan ini merupakan perbedaan mendasar dari penambangan data yang menggunakan data terstruktur atau database sebagai input. Teks Mining dapat dilihat sebagai proses dua tahap yang dimulai dengan penerapan struktur ke sumber data teks dan dilanjutkan dengan ekstraksi pengetahuan dan informasi terkait dari data teks terstruktur menggunakan metode dan alat yang sama dengan Text Mining itu sendiri.

Peringkasan otomatis, klasifikasi dokumen, pengelompokan teks, dll itu adalah operasi penambangan teks yang khas. Menemukan informasi yang relevan dari kumpulan makalah adalah tujuan dari Text Mining. Oleh karena itu, kumpulan teks yang tidak terstruktur atau setidaknya semi-terstruktur berfungsi sebagai sumber data untuk penambangan teks.

Secara umum, ada beberapa teknik text mining, antara lain:

A. Pengambilan informasi dan pengarsipan pencarian dan pengambilan file teks dengan istilah pencarian dan mesin pencari pengelompokan dokumen.

B. Menggunakan proses penambangan untuk mengelompokkan dan mengkategorikan kata, frase, kalimat, atau dokumen.

C. Klasifikasi Dokumen Mengklasifikasikan dan mengelompokkan frase, bagian, paragraf, atau dokumen dengan menggunakan prosedur ini.

D. Penambangan web Data internet dan penambangan teks dengan penekanan pada ruang lingkup dan koneksi situs web.

E. Penemuan dan ekstraksi informasi yang bersangkutan.

F. Pemrosesan Bahasa Alami Pemrosesan bahasa tingkat rendah, sering digunakan untuk perhitungan bahasa.

G. Menyusun frase dan istilah yang mirip Text Preprocessing Step