...

Cara Paling Ampuh Mengatasi Data Tidak Normal

Salah satu penyebab kesusahan kita dalam melakukan analisis statistik paranmetrik adalah Ketika kita berhadapan dengan data tidak normal. Syarat dalam analisis statistik parametrik mengaruskan distribusi data kita mengikuti distribusi normal. Mengapa begitu? Karena jika data kita tidak mengikuti distribusi normal, maka hasil analisis nya nanti akan menjadi bias. Salah satu penyebab yang paling sering terjadi kenapa data tersebut tidak normal adalah karena terdapat outlier(pencilan) dalam data kita.

Kami berikan analogi yang mudah tentang outlier tersebut. Bayangkan misal kita ingin mengetahui rata-rata pendapatan dari 100 orang. 99 orang memiliki kisaran pendapatan antara 5-10 juta, Lalu orang ke-100 memiliki pendapatan 1 miliar perbulan. Jika kita gunakan rata-rata pendapatan 99 orang misal sekitar 7,5 juta, maka Ketika kita masukkan penghasilan orang ke-100 kira-kira estimasi rata-rata pendapatannya menjadi 17 juta perbulan. Apakah angka tersebut relate? Tentu tidak kan. Rata-rata pendapatan 17 juta tersebut menjadi bias karena ada 1 orang yang pendapatannya 1 miliar. Itulah yang disebut dengan outlier yaitu data yang paling berbeda sendiri dari data-data lainnya. Data outlier tersebut merupakan salah satu yang menyebabkan data tidak normal.

Dalam artikel kali ini akan kita bahas cara paling ampuh dalam mengatasi data tidak normal yang disebabkan oleh data outlier tersebut. Metode analisis yang mimin tentukan disini adalah metode regresi linier, dimana metode ini sangat sering sekali dipakai dalam penelitian di Indonesia khusunya buat pengerjaan tugas akhir skripsi.

Step 1.

Langkah pertama dalam analisis regresi adalah seperti biasanya yakni kita akan mengimport data kita ke dalam software SPSS. Kami memilih software SPSS karena software ini paling banyak digunakan dan paling mudah penggunaanya dalam proses analisis statistik.

data tidak normal

Step 2.
Langkah kedua dalam analisis nya seperti dalam analisis regresi pada umumnya, yakni kita pilih menu Analyze > Regression > Linear.

Step 3.
Setelah itu maka akan muncul tampilan dibawah ini. Masukkan variabel x ke kolom independent dan variabel y ke kolom dependen lalu klik Save.

Step 4.
Centang Unstandardized pada kolom residuals untuk memunculkan residual atau kesalahan prediksi dalam analisis regresi. Selanjutnya klik continue dan OK.

Step 5.
Setelah proses tersebut maka akan muncul output regresi pada umumnya yang sudah banyak yang membahasnya. Langkah berikutnya adalah dengan cek distribusi data apakah data berdistribusi normal atau tidak. Pilih Analyze > Nonparametric Test > Legacy Dialogs > 1- Sample K-S.

Step 6.
Masukkan variabel baru yakni Unstrandardized Residual ke dalam test variabel lalu klik OK.

Bisa kita lihat data saya ini tidak berdistribusi normal karena p-valuenya <0.05.

data tidak normal
Step 7.
Langkah ini merupakan Langkah yang paling penting karena disini merupakan Langkah utama dalam mengatasi data tidak normal. Kalau kita cermati lagi, yang kita uji normalitasnya ini adalah residual atau kesalahan dalam analisis regersinya. Oleh karena itu, kunci utamanya adalah distribusi dari residual inilah yang harus berdistribusi normal. Mari kita lihat data residual berikut ini:

Kita pindahkan variabel RES_1 tersebut kedalam software excel yang nantynya akan kita gambarkan residual tersbut dalam line chart untuk mengetahui data mana saja yang termasuk outlier dan harus kita hapus.


Step 8.
Blok seluruh datanya lalu Skita pilih insert > recommended charts > line chart > klik OK.

data tidak normal

Step 9.
Maka akan muncul line chart dari residual tersebut sebagai berikut:

data tidak normal

Perlu kita perhatikan betul grafik line chart berikut, jika kita lihat dengan seksama maka ada grafik yang nilainya sangat berbeda dengan yang lainnya yakni grafik diantara 81 dan 85 yakni data ke-82 nilainya < -2. Itulah data outlier yang perlu kita hilangkan kit acari data itu data ke berapa. Begitu juga data yang paling tinggi sekali bernilai 2 yakni data ke-29 itu juga perlu kita hilangkan. Begitu juga nanti setelah dihilangkan kita cek lagi jika datanya masih tidak normal lakukan hal yang sama.
Setelah dua data terebut dibuang maka kita coba cek lagi uji normalitasnya dengan cara yang seperti tadi. Berikut hasil pengujian normalitas setelah kita membuang data tersebut:
data tidak normal

Bisa kita lihat bahwa nilai signifikansinya sudah >0.05 yakni (0.056) oleh karena itu maka data kita sudah berdistribusi secara normal.

Dengan kami menulis artikel ini harapan kami adalah dapat membantu mahasiswa bagaimana cara mengatasi data yang tidak berdistribusi normal. Karena sepengalaman kami dilapangan dalam menangani analisis data banyak yang merasa kesulitan dalam menangani data yang tidak berdistribusi normal. Banyak cara di yt atau tutorial di google yang lainnya cuman kebanyakan cara yang digunakan kurang begitu membantu dalam mengatasi data tidak normal. Sehingga banyak teman-teman mahasiswa yang akhirnya memanipulasi datanya dan sampai ada yang mengedit output dari SPSS nya, hal tersebut jelas menyalahi kaidah akademik dan kami sangat tidak merekomendasikan. Andaikan dengan cara seperti ini data masih belum normal maka kami merekomendasikan menganalisis datanya dengan regresi non parametrik. Namun teknikal dari analisis tersebut jauh lebih susah daripada analisis regersi linier pada umumnya.

Apakah kalian mengalami kesulitan dalam melakukan olah data penelitian? Silahkan hubungi kami saja Sigma Statistika sebuah Lembaga penyedia jasa olah data terbaik di Indonesia.

 

Tinggalkan Komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Scroll to Top
Seraphinite AcceleratorOptimized by Seraphinite Accelerator
Turns on site high speed to be attractive for people and search engines.