Tuesday, February 16, 2016
Analisis Regresi Linier Sederhana Menggunakan Excel
7:25:00 PM
No comments
BAB I
Analisis Regresi Linier Sederhana
Regresi Linear Sederhana adalah Metode Statistik yang berfungsi untuk menguji sejauh mana hubungan sebab akibat antara Variabel Faktor Penyebab (X) terhadap Variabel Akibatnya. Faktor Penyebab pada umumnya dilambangkan dengan X atau disebut juga dengan Predictor sedangkan Variabel Akibat dilambangkan dengan Y atau disebut juga dengan Response. Regresi Linear Sederhana atau sering disingkat dengan SLR (Simple Linear Regression) juga merupakan salah satu Metode Statistik yang dipergunakan dalam produksi untuk melakukan peramalan ataupun prediksi tentang karakteristik kualitas maupun Kuantitas.
Contoh Penggunaan Analisis Regresi Linear Sederhana dalam Produksi antara lain :
1. Hubungan antara Lamanya Kerusakan Mesin dengan Kualitas Produk yang dihasilkan
2. Hubungan Jumlah Pekerja dengan Output yang diproduksi
3. Hubungan antara suhu ruangan dengan Cacat Produksi yang dihasilkan.
Model Persamaan Regresi Linear Sederhana adalah seperti berikut ini :
Y = a + bX
Dimana :
Y = Variabel Response atau Variabel Akibat (Dependent)
X = Variabel Predictor atau Variabel Faktor Penyebab (Independent)
a = konstanta
b = koefisien regresi (kemiringan); besaran Response yang ditimbulkan oleh Predictor.
Nilai-nilai a dan b dapat dihitung dengan menggunakan Rumus dibawah ini :
a = (Σy) (Σx²) – (Σx) (Σxy)
. n(Σx²) – (Σx)²
b = n(Σxy) – (Σx) (Σy)
. n(Σx²) – (Σx)²
Analisis Regresi Linier Sederhana Menggunakan Excel
Jika di postingan-postingan sebelumnya saya membahas tentang analisis regresi linier berganda, maka kali ini saya akan membahas bagaimana melakukan analisis regresi linier sederhana dengan menggunakan Excel.
1. Input/masukkan data ke M.Excel
2. Klik menu Data, lalu pilih Data analysis, lalu pada kotak analisis tool pilih regression
Pada kotak input y range: masukkan nilai-nilai variabel terikat(y)
Pada kotak input x range: masukkan nilai-nilai variabel bebas (x)
Centang confidence lvel
Centang normal probability plot
Hasil running data
Regression Statistics
Multiple R 0.892392864
R Square 0.796365023
Adjusted R Square 0.781819667
Standard Error 5.348898418
Observations 16
Terlihat nilai koefisien determinasinya sekitar 79,63 persen artinya keragaman variabel y mampu dijelaskan oleh variabel x1 sebesar 79,63 persen sisanya dipengaruhi variabel lain di luar model.
Tabel Anova untuk uji simultan/uji serempak
ANOVA
df SS MS F Significance F
Regression 1 1566.45 1566.45 54.75047 3.35601E-06
Residual 14 400.55 28.61071
Total 15 1967
Terlihat bahwa nilai p-value amat kecil < 0.05 sehingga dapat dikatakan variabel x1 mempengaruhi y secara signifikan.
3. Uji Parsial (T)
Coefficients Standard Error t Stat P-value
Intercept 50.775 4.394568 11.55404 1.52E-08
X Variable 1 4.425 0.598025 7.399356 3.36E-06
Terlihat bahwa nilai p-value nya juga <0.05, dengan besar koefisien b1=4.425 artinya variabel x1 mempengaruhi variabel yt secara signifikan dengan setiap kenaikan 1 satuan variabel x akan meningkatkan variabel y sbesar 4.425 satuan.
BAB II
Analisis Regresi Linier Berganda
Di dalam kehidupan sehari-hari, kita tentu sering melihat bahwa sesuatu terjadi karena adanya pengaruh dari kejadian lain. Contoh yang sederhana dapat kita lihat saat terjadinya kenaikan BBM. Saat harga BBM naik, harga-harga barang kebutuhan pokok lain juga ikut naik. Secara tidak langsung dapat kita katakana bahwa kenaikan harga kebutuhan pokok dipengaruhi oleh kenaikan harga BBM. Mungkin banyak yang bertanya, seberapa besar sih kenaikan BBM akan berpengaruh terhadap kenaikan harga kebutuhan pokok? Bagaimana cara mengetahuinya?
Perkembangan ilmu pengetahuan terus berusaha mencari cara untuk mengukur pengaruh suatu kejadian terhadap kejadian lain. Ilmu statistik menawarkan suatu cara untuk mengukur hal ini. Pengaruh satu (atau beberapa) kejadian terhadap suatu kejadian dalam ilmu statistik diukur dengan menggunakan Analisis Regresi Sederhana (satu penyebab mempengaruhi suatu kejadian) atau Analisis Regresi Berganda (beberapa penyebab mempengaruhi suatu kejadian).
Sebagai suatu metode statistik, ada beberapa syarat yang harus dipenuhi sebelum kita menggunakan Analisis Regresi Linier Sederhana/Analisis Regresi Linier Berganda (RLS/RLB). Syarat yang harus dipenuhi antara lain bahwa variabel yang dipengaruhi/variabel terikat/variabel dependent harus berupa angka atau sesuatu yang bisa diukur dengan menggunakan bilangan. Bagi yang sudah tak asing dengan istilah statistik, data yang digunakan minimal berada pada level data interval. Hal ini harus dipenuhi karena RLS/RLB termasuk ke dalam golongan statistik parametric yang mewajibkan pengukuran dalam level minimal interval. Jika syarat ini tak terpenuhi, RLS/RLB tidak bisa dipergunakan. Alternatif analisis yang dapat digunakan adalah Analisis Regresi Logistik. Syarat lain yang harus dipenuhi agar RLS/RLB dapat dipergunakan secara optimal adalah jumlah data minimal 30 data. Kenapa 30? Hal ini terkait dengan asumsi kenormalan yang digunakan dalam RLB/RLS. Data sejumlah itu dirasa cukup (menurut penelitian ahli) untuk memenuhi asumsi tersebut. Jumlah 30 data digolongkan cukup besar untuk sebuah sampel, sehingga pendekatan kenormalan dapat dipergunakan dengan CLT.
Selain syarat tersebut, agar dapat digunakan menganalisis dengan baik, model yang dibentuk dengan menggunakan RLS/RLB harus memenuhi beberapa asumsi. Asumsi-asumsi ini dikenal dengan nama ASUMSI KLASIK. Asumsi klasik ini terdiri dari normalitas, homoskedastisitas, nonmultikolinieritas, dan non autokorelasi.
Mengapa normalitas diperlukan? Hayoo…kenapa? Ada 2 hal utama kenapa normalitas diperlukan, dilihat dari sisi kehidupan sehari-hari dan dari sisi statistik. Dari sisi kehidupan sehari-hari, sampel yang kita ambil harus berdistribusi normal agar dapat mewakili seluruh data yang ada di populasi. Secara awam dapat kita katakan bahwa kita berharap data-data yang kita ambil adalah data mainstream bukan data yang non mainstream agar dapat mewakili sebagian besar/seluruh populasi. Secara statistik, kita menggunakan asumsi normalitas karena uji-uji yang kita gunakan dalam RLS/RLB yaitu uji F dan uji T merupakan turunan dari distribusi normal sehingga untuk menggunakannya maka asumsi normalitas harus dipenuhi.
Selanjutnya, mengapa homoskedastisitas harus dipenuhi? Btw, apa sih homoskedastisitas? Homoskedastisitas adalah varian error data adalah nol. Atau jika kita lihat melalui plot, maka sebaran data akan berada di sekitar garis nol. Kenapa hal ini perlu? Karena kita berharap bahwa model kita bisa memprediksi dengan tepat atau model regresi yang kita hasilkan bukan merupakan regresi spourious(palsu). Jika varian error tidak nol, maka akan berpengaruh terhadap interval kepercayaan dan kesalahan pada pengujian hipotesis.
Nah, asumsi selanjutnya adalah non Multikolinieritas. Multikolinieritas sendiri berarti adanya keterkaitan antara variabel penyebab/variabel bebas/variabel independent. Dalam (Juanda, 2009) disebutkan jika tujuan pemodelan hanya untuk peramalan nilai Y (peubah respon) dan tidak mengkaji hubungan atau pengaruh antara peubah bebas (X) dengan peubah respon (Y) maka masalah multikolinearitas bukan masalah yang serius. Masalah multikolinearitas menjadi serius apabila digunakan unruk mengkaji hubungan antara peubah bebas (X) dengan peubah respon (Y) karena simpangan baku koefisiennya regresinya tidak siginifikan sehingga sulit memisahkan pengaruh dari masing-masing peubah bebas. Asumsi ini tentu saja tidak diperlukan dalam RLS karena RLS hanya mempunyai satu variabel bebas.
Asumsi terakhir adalah asumsi non autokorelasi. Asumsi ini tidak perlu diuji jika kita menggunakan data tipe cross section (data satu periode) karena autokorelasi berarti hubungan linier antara error serangkaian observasi yang diurutkan menurut waktu. Uji ini hanya kita lakukan jika data yang kita gunakan adalah data tipe time series.
Model regresi linier berganda melibatkan lebih dari satu variabel bebas.
Modelnya :
Dimana
Y = variabel terikat
Xi = variabel bebas ( i = 1, 2, 3, …, k)
b0 = intersep
bi = koefisien regresi ( i = 1, 2, 3, …, k)
Model penduganya adalah:
√ Yi (Variabel Tak Bebas/Dependent Variable) merupakan random variable/bersifat stochastic
√ Xki (Variabel bebas/Independent Variable) bersifat fixed/non stochastic (bukan merupakan random variable)
√ E(ei)= 0
√ E(ei,ej) = σ2 untuk i = j (Homoscedastic)
√ E(ei,ej) = 0 untuk i ≠ j (Non autocorrelation)
√ error mengikuti distribusi normal dengan rata-rata nol dan varians σ2.
√ Tidak ada kolinieritas ganda (multikolinieritas) antar variabel independen.
Analisis Regresi Linier Berganda Menggunakan Excel
Add Ins →Megastat → Correlation/Regresion → Regression Analysis
Pada input range:
Select variabel x dan y
Pada option: cek list variance inflation factor dan tets intercept
Pada residual : cek list output residual, durbin Watson dan normal probality plot of residual
R² 0.952
Adjusted R² 0.945
R 0.976
Std. Error 2.693
n 16
k 2
Dep. Var. y
Intrepetasinya dari r-square adjusted ialah variasi variabel y mampu dijelaskan oleh variabel x1 dan x2 sebesar 94,5 persen sisanya variabel di luar model
ANOVA table
Source SS df MS F p-value
Regression 1,872.7000 2 936.3500 129.08 2.66E-09
Residual 94.3000 13 7.2538
Statistik observasi: Nilai signifikansi= 0.000, maka tolak H0. Atau kita dapat membandingkan nilai F pada tabel hasil dengan nilai F pada tabel F standar. Keputusan: Tolak H0. Kesimpulan: Dengan tingkat alpha 5 persen dapat disimpulkan bahwa secara bersama-sama variabel bebas berpengaruh signifikan terhadap variabel tidak bebas.
Regression output confidence interval
variables coefficients std. error t (df=13) p-value 95% lower 95% upper VIF
Intercept 37.6500 2.9961 12.566 1.20E-08 31.1773 44.1227
x1 4.4250 0.3011 14.695 1.78E-09 3.7745 5.0755 1.000
x2 4.3750 0.6733 6.498 2.01E-05 2.9204 5.8296 1.000
Selanjutnya, tabel ini merupakan tabel analisis paling penting. Dengan tabel ini kita bisa melihat model yang dihasilkan dari variabel-variabel kita dan bagaimana pengaruhnya terhadap variabel tak bebas.
Model yang terbentuk adalah sebagai berikut:
Sebelum membaca pengaruh setiap variabel, kita pastikan dulu apakah variabel tersebut berpengaruh signifikan terhadap y atau tidak.
H0: βi=0
H1 : βi≠0
a= 5%
Statistik uji: T-Test
Untuk melihat hal itu, bisa kita lihat dari nilai t dan signifikansi setiap variabel. Untuk nilai t, kita bisa mengatakan signifikan apabila nilai |t|>t tabel standar. Jika menggunakan nilai signifikansi, maka kita bisa mengatakan variabel tersebut signifikan bila nilai sig < a (dalam kasus ini nilai a=5%). Pada tabel dapat kita lihat bahwa kedua variabel bebas berpengaruh signifikan terhadap variabel tak bebas. Pembacaannya adalah sebagai berikut:
- Setiap kenaikan 1 satuan variabel x1 maka akan menaikkan nilai variabel y sebesar 4,425 satuan dengan asumsi variabel lain bernilai tetap
- Setiap kenaikan 1 satuan variabel x2 maka akan menaikkan nilai variabel y sebesar 4,375 satuan dengan asumsi variabel lain bernilai tetap
Durbin-Watson = 2.31
Nilai durbin Watson mendekati 2 berarti bebas dari autokolerasi.
NIlai VIF kedua variabel bebas juga < 5, sehingga model bebas dari multikolinearitas
Terlihat grafik residual mengikuti trend dengan sudut 45 derajat sehingga mengikuti distribusi normal
0 comments:
Post a Comment