Metode pohon regresi merupakan salah satu metode non parametrik yang digunakan untuk memeriksa variabel respon oleh penggantian aturan conventional splitting dengan aturan dasar The Tarone-Ware atau Harrington-Fleming classes dari two-sample statistics. Strategi pemangkasan baru untuk menentukan ukuran pohon yang diinginkan.
Misalkan terdapat sejumlah p variabel prediktor x1, x2, …. xp dan sebuah variabel y yang bersifat kontinu. Untuk membentuk sebuah pohon regresi terdapat empat komponen yang dibutuhkan, yaitu :
Apakah x ∈ A ? dimana x merupakan suatu amatan dan A ⊂ X merupakan ruang variabel prediktor. Jawaban dari pertanyaan tersebut mengandung penyekatan atau pemilahan dari ruang variabel prediktor. Apabila x amatan tersebut mengandung jawaban “Ya” maka x merupakan bagian dari wilayah A. Jika tidak maka x merupakan bagian dari complement wilayah A. Subsamples yang terbentuk disebut dengan nodes.
Kriteria Goodness-of-split ∅(s,t) dapat digunakan untuk mengevaluasi pemilahan s dari simpul t.
Kriteria/cara untuk menentukan ukuran pohon yang optimal
Kesimpulan statistik untuk simpul terminal dari pohon yang dipilih.
Dalam melakukan pemilahan, terdapat aturan sebagai berikut :
Setiap pemilahan bergantung pada nilai dari variabel prediktor
Untuk variabel prediktor kontinu Xj, hanya pemilahan dari pertanyaan apakah “Xj ≤ c?” untuk c ∈ X, dimana nilai c merupakan median dari nilai Xj yang berurutan. Apabila terdapat n pengamatan Xj maka terdapat n-1 pemilahan.
Untuk variabel prediktorkategorik Xj,pemilahan berdasarkan terbentuknya dua anak gugus yang saling lepas (disjoint)
Pertumbuhan pohon regresi mengikuti aturan sebagai berikut :
Memeriksa setiap kemungkinan pemilahan pada setiap variabel prediktor.
Memilih pemilahan terbaik menggunakan metode goodness-of split.
Misal t merupakan sebuah simpul dari pohon regresi, dimana t mengandung subsample {(xn, yn)}. Dan N(t) merupakan total amatan pada simpul t. Maka:
(y ) ̅(t) merupakan rata-rata amatan pada simpul t. Kemudian jumlah kuadrat galat didefinisikan sbb :
Apabila sebuah pemilahan s yang memilah simpul anak kiri (tL) dan simpul anak kanan (tR), maka least square criterion nya adalah
Dan pemilahan terbaik s* adalah
least square pada pohon regresi dibentuk dari pemilahan simpul yang memaksimumkan fungsi ∅ sampai tercipta kehomogenan pada simpul terminal.
Jika sebuah simpul menjadi sangat kecil atau dihasilkan nilai improvement ∅(s*,t) dari pemilahan terbaik tidak cukup untuk melebihi nilai threshold, maka simpul ini disebut simpul terminal (akhir). Pohon regresi yang terlalu besar akan menghasilkan nilai keragaman yang kecil, akan tetapi dapat berisiko terjadinya overfitting. Sehingga diperlukan pruning untuk menghasilkan pohon yang optimal.
Artikel Lainnya
The City Tower, Level 12 Unit 1-N, Jalan M.H. Thamrin No.81, RT.1/RW.6,, Menteng, Menteng,Daerah Khusus Ibukota Jakarta, RT.1/RW.6, Dukuh Atas, Menteng, Kec. Menteng, Kota Jakarta Pusat, Daerah Khusus Ibukota Jakarta 10310
Anda butuh jasa olah data skripsi, tesis, konsultasi statistik dan pelatihan statistik?
Hubungi kami melalui media sosial kami atau
Phone : 085780165860
Email : mail@scsijakarta.org
© Copyright 2016. Statistics Center. All Right Reserved.