PEMBERITAHUAN: Kelompok konsultasi Statistik IDRE akan memindahkan situs web ke CMS WordPress pada bulan Februari untuk memfasilitasi pemeliharaan dan pembuatan konten baru. Beberapa halaman lama kami akan dihapus atau diarsipkan sehingga tidak lagi dipelihara. Kami akan mencoba untuk mempertahankan pengalihan sehingga URL lama akan terus bekerja sebaik mungkin. Selamat datang di Institute for Digital Research and Education Bantu Stat Consulting Group dengan memberikan hadiah Stata Annotated Output Regression Analysis Halaman ini menunjukkan contoh analisis regresi dengan catatan kaki yang menjelaskan hasilnya. Data ini dikumpulkan pada 200 siswa SMA dan mendapat nilai pada berbagai tes, termasuk sains, matematika, bacaan dan studi sosial (socst). Variabel betina adalah variabel dikotomis yang dikodekan 1 jika siswa perempuan dan 0 jika laki-laki. Tabel Anova a. Sumber - Melihat rincian varians dalam variabel hasil, inilah kategori yang akan kita teliti: Model, Residual, dan Total. Variasi total dipartisi menjadi varians yang dapat dijelaskan oleh variabel independen (Model) dan varians yang tidak dijelaskan oleh variabel independen (Residual, kadang disebut Error). B. SS - Ini adalah Jumlah Kuadrat yang terkait dengan tiga sumber varians, Total, Model dan Residual. C. Df - Ini adalah derajat kebebasan yang terkait dengan sumber varians. Varians total memiliki N-1 derajat kebebasan. Derajat kebebasan model sesuai dengan jumlah koefisien yang diperkirakan minus 1. Termasuk pencegatan, ada 5 koefisien, sehingga model memiliki kebebasan 5-14 derajat. Tingkat kebebasan Residual adalah total DF dikurangi dengan model DF, 199 - 4 195. d. MS - Ini adalah Kotak Berarti, Jumlah Kuadrat dibagi dengan DF masing-masing. Keseluruhan Model Fit e. Jumlah obs - Ini adalah jumlah observasi yang digunakan dalam analisis regresi. F. F (4, 195) - Ini adalah F-statistik adalah Mean Square Model (2385.93019) dibagi dengan Mean Square Residual (51.0963039), menghasilkan F46.69. Angka dalam tanda kurung adalah derajat kebebasan Model dan Residual berasal dari tabel ANOVA di atas. G. Prob gt F - Ini adalah nilai-p yang terkait dengan statistik-F di atas. Hal ini digunakan untuk menguji hipotesis nol bahwa semua koefisien model adalah 0. h. R-squared - R-Squared adalah proporsi varians dalam variabel dependen (sains) yang dapat dijelaskan oleh variabel independen (matematika, betina, socst dan baca). Ini adalah ukuran keseluruhan dari kekuatan asosiasi dan tidak mencerminkan sejauh mana variabel independen tertentu dikaitkan dengan variabel dependen. saya. Adj R-squared - Ini adalah penyesuaian dari R-squared yang menghukum penambahan prediktor yang tidak sesuai dengan model. Adjusted R-squared dihitung dengan menggunakan rumus 1 - ((1 - Rsq) ((N - 1) (N - k - 1)) di mana k adalah jumlah prediktor. Root MSE - Root MSE adalah standar deviasi Dari istilah error, dan merupakan akar kuadrat Mean Mean Residual (atau Error). Parameter Estimasi k. Sains - Kolom ini menunjukkan variabel dependen di atas (sains) dengan variabel prediktor di bawahnya (matematika, betina. Socst Bilangan dan kontra) Variabel terakhir (kontra) mewakili persamaan konstan atau intercept l Coef - Ini adalah nilai persamaan regresi untuk memprediksi variabel dependen dari variabel independen Persamaan regresi disajikan dengan berbagai cara. , Misalnya: Ypredicted b0 b1x1 b2x2 b3x3 b4x4 Kolom perkiraan memberikan nilai untuk b0, b1, b2, b3 dan b4 untuk persamaan ini. Matematika - koefisiennya adalah 0,3893102 Jadi untuk setiap kenaikan unit dalam matematika a .3893102 Peningkatan unit sains diperkirakan, memegang semua variabel lainnya konstan. Female - For Setiap unit bertambah pada perempuan. Kami memperkirakan penurunan skor sains sebesar 2,009765, memegang semua variabel lainnya konstan. Karena perempuan diberi kode 01 (0male, 1female), interpretasinya lebih sederhana: untuk wanita, skor sains yang diprediksi akan menjadi 2 poin lebih rendah daripada laki-laki. Socst - Koefisien untuk socst adalah 0,0498443. Jadi untuk setiap kenaikan unit di socst. Kami mengharapkan peningkatan 0,05 point dalam skor sains, memegang semua variabel lainnya konstan. Baca - Koefisien untuk dibaca adalah 0,3352998. Jadi untuk setiap kenaikan unit baca. Kami mengharapkan peningkatan angka skor ilmiah sebesar .34. M. Std. Berbuat salah. - Ini adalah kesalahan standar yang terkait dengan koefisien. N. T - Ini adalah t-statistik yang digunakan dalam pengujian apakah koefisien yang diberikan berbeda secara signifikan dari nol. Hai. Pgtt - Kolom ini menunjukkan nilai p 2-tailed yang digunakan untuk menguji hipotesis nol bahwa koefisien (parameter) adalah 0. Dengan menggunakan alfa 0,05: Koefisien untuk matematika berbeda secara signifikan dari 0 karena nilai p-0,000, Yang lebih kecil dari 0,05. Koefisien untuk wanita (-2,01) tidak signifikan secara statistik pada tingkat 0,05 karena nilai p lebih besar dari 0,05. Koefisien untuk socst (0,0498443) tidak berbeda secara statistik berbeda dengan 0 karena nilai p-nya pasti lebih besar dari 0,05. Koefisien untuk dibaca (0,3352998) secara statistik signifikan karena nilai p-0,000 kurang dari 0,05. Konstanta (kontra) berbeda secara signifikan dari 0 pada tingkat alpha 0,05. Hal. 95 Konf. Interval - Ini adalah interval kepercayaan 95 untuk koefisiennya. Interval kepercayaan terkait dengan nilai p sehingga koefisien tidak signifikan secara statistik pada alfa 0,05 jika interval kepercayaan 95 mencakup nol. Interval kepercayaan ini dapat membantu Anda untuk menempatkan perkiraan dari koefisien ke dalam perspektif dengan melihat seberapa besar nilainya dapat bervariasi. Isi dari situs ini tidak boleh dianggap sebagai pengesahan dari situs web, buku, atau produk perangkat lunak tertentu oleh University of California. Untuk pertanyaan singkat, email dataprinceton. edu. Tidak ada appts Diperlukan selama jam berjalan. Catatan: Lab DSS buka sepanjang Firestone terbuka, tidak ada janji yang diperlukan untuk menggunakan komputer lab untuk analisis Anda sendiri. Menafsirkan Regresi Output Pendahuluan Panduan ini mengasumsikan bahwa Anda memiliki sedikit keakraban dengan konsep regresi linier berganda, dan mampu melakukan regresi dalam beberapa paket perangkat lunak seperti Stata, SPSS atau Excel. Anda mungkin ingin membaca halaman pendamping kami Pengantar Regresi terlebih dahulu. Untuk bantuan dalam melakukan regresi pada paket perangkat lunak tertentu, ada beberapa sumber di UCLA Statistical Computing Portal. Tinjauan singkat regresi Ingatlah bahwa analisis regresi digunakan untuk menghasilkan suatu persamaan yang akan memprediksi suatu variabel dependen dengan menggunakan satu atau lebih variabel bebas. Persamaan ini memiliki bentuk dimana Y adalah variabel dependen yang ingin Anda prediksi, X1. X2 dan seterusnya adalah variabel independen yang Anda gunakan untuk memprediksinya, b1. B2 dan seterusnya adalah koefisien atau pengganda yang menggambarkan ukuran efek yang dimiliki variabel independen terhadap variabel dependen Y. Dan A adalah nilai Y diprediksi akan memiliki ketika semua variabel independen sama dengan nol. Pada regresi Stata yang ditunjukkan di bawah ini, persamaan prediksi adalah harga -294.1955 (mpg) 1767.292 (asing) 11905.42 - memberitahukan bahwa harga diperkirakan akan meningkat 1767.292 ketika variabel asing naik satu, turun 294.1955 ketika mpg naik satu , Dan diperkirakan 11905.42 saat mpg dan asing nol. Datang dengan persamaan prediksi seperti ini hanyalah latihan yang berguna jika variabel independen dalam dataset Anda memiliki korelasi dengan variabel dependen Anda. Jadi, selain komponen prediksi persamaan Anda - koefisien pada variabel independen (beta) dan konstanta (alfa) - Anda memerlukan beberapa ukuran untuk memberi tahu Anda seberapa kuat setiap variabel independen dikaitkan dengan variabel dependen Anda. Saat menjalankan regresi Anda, Anda mencoba untuk mengetahui apakah koefisien pada variabel independen Anda benar-benar berbeda dari 0 (jadi variabel independen memiliki efek sebenarnya pada variabel dependen Anda) atau jika ada perbedaan nyata dari 0 hanya karena acak kesempatan. Hipotesis null (default) selalu bahwa setiap variabel independen sama sekali tidak memiliki efek (memiliki koefisien 0) dan Anda mencari alasan untuk menolak teori ini. P, t dan kesalahan standar Statistik t adalah koefisien dibagi dengan kesalahan standarnya. Kesalahan standar adalah perkiraan standar deviasi koefisien, jumlahnya bervariasi antar-kasus. Hal ini dapat dianggap sebagai ukuran ketepatan yang mengukur koefisien regresi. Jika koefisiennya besar dibandingkan dengan kesalahan standarnya, maka mungkin berbeda dari 0. Seberapa besar besar Perangkat lunak regresi Anda membandingkan statistik t pada variabel Anda dengan nilai pada distribusi Student t untuk menentukan nilai P, yaitu angka Bahwa Anda benar-benar harus melihat. Distribusi P siswa menggambarkan bagaimana rata-rata sampel dengan sejumlah pengamatan (n Anda) diharapkan berperilaku. Jika 95 dari distribusi t mendekati mean daripada nilai t pada koefisien yang Anda lihat, maka Anda memiliki nilai P 5. Ini juga mengacu pada tingkat signifikansi 5. Nilai P adalah probabilitas Melihat hasil yang ekstrem seperti yang Anda dapatkan (pada nilai sebesar milik Anda) dalam kumpulan data acak yang variabelnya tidak berpengaruh. A P dari 5 atau kurang adalah titik yang diterima secara umum untuk menolak hipotesis nol. Dengan nilai P 5 (atau 0,05) hanya ada 5 kemungkinan hasil yang Anda lihat akan muncul dalam distribusi acak, sehingga Anda dapat mengatakan dengan probabilitas 95 bahwa benar bahwa variabel tersebut memiliki beberapa efek, Dengan asumsi model Anda ditentukan dengan benar. Interval kepercayaan 95 untuk koefisien Anda yang ditunjukkan oleh banyak paket regresi memberi Anda informasi yang sama. Anda dapat yakin bahwa nilai sebenarnya dari nilai koefisien yang Anda perkirakan jatuh di suatu titik di 95 interval kepercayaan itu, jadi jika interval tidak mengandung 0, nilai P Anda akan 0,05 atau kurang. Perhatikan bahwa ukuran nilai P untuk koefisien tidak mengatakan apa-apa tentang ukuran efek yang dimiliki variabel bergantung pada variabel dependen Anda - adalah mungkin untuk memiliki hasil yang sangat signifikan (nilai P sangat kecil) untuk efek yang sangat kecil. Koefisien Dalam regresi linier sederhana atau ganda, ukuran koefisien untuk setiap variabel independen memberi Anda ukuran efek yang dimiliki variabel pada variabel dependen Anda, dan tanda pada koefisien (positif atau negatif) memberi Anda arah dari efek. Dalam regresi dengan satu variabel independen, koefisien tersebut memberi tahu Anda berapa besar variabel dependen yang diharapkan meningkat (jika koefisiennya positif) atau menurun (jika koefisiennya negatif) bila variabel independen meningkat satu. Dalam regresi dengan beberapa variabel independen, koefisien tersebut memberi tahu Anda berapa besar variabel dependen yang diharapkan meningkat ketika variabel independen meningkat satu, memegang semua variabel independen lainnya konstan. Ingatlah untuk mengingat unit-unit yang diukur oleh variabel-variabel Anda. Catatan: dalam bentuk regresi selain regresi linier, seperti logistik atau probit, koefisien tidak memiliki interpretasi langsung ini. Menjelaskan bagaimana menangani hal ini berada di luar cakupan panduan pengantar. R-Squared dan signifikansi keseluruhan dari regresi R-kuadrat dari regresi adalah bagian dari variasi variabel dependen Anda yang dihitung (atau diprediksi oleh) variabel independen Anda. (Dalam regresi dengan satu variabel independen, sama dengan kuadrat korelasi antara variabel dependen dan independen Anda). R-kuadrat umumnya sangat penting, kecuali jika perhatian utama Anda menggunakan persamaan regresi untuk membuat prediksi yang akurat. . Nilai P memberi tahu Anda seberapa yakin Anda dapat bahwa setiap variabel individu memiliki korelasi dengan variabel dependen, yang merupakan hal yang penting. Nomor lain yang harus diperhatikan adalah nilai P untuk regresi secara keseluruhan. Karena variabel independen Anda mungkin berkorelasi, suatu kondisi yang dikenal sebagai multikolinearitas, koefisien pada variabel individual mungkin tidak signifikan bila regresi secara keseluruhan signifikan. Secara intuitif, ini karena variabel independen berkorelasi tinggi menjelaskan bagian yang sama dari variasi variabel dependen, sehingga kekuatan penjelasan dan signifikansi koefisien mereka terbagi di antara keduanya. Bacaan lebih lanjut copy 2007 The Trustees of Princeton University. Seluruh hak cipta. Dataprinceton. edu CATATAN: Informasi untuk Universitas Princeton. Jangan ragu untuk menggunakan dokumentasi tapi kami tidak dapat menjawab pertanyaan di luar Princeton Halaman ini terakhir diperbarui pada:
No comments:
Post a Comment