Mata Kuliah: Machine Learning

Regresi Linier dan Teknik Seleksi Peubah: Subset-Selection

Introduction

  • Kita memiliki pasangan variabel input dan variabel output
  • Cari sebuah fungsi yang merepresentasikan hubungan antara input dan output
  • Kemudian, tujuan kita adalah meminimalkan kesalahan (error)

Input-Output Relationship

Data Case

Data Biaya Iklan Bulanan vs Penjualan Bulanan
Bulan Biaya Iklan (Rp) Penjualan (Rp)
Januari 10,000,000 50,000,000
Februari 12,000,000 70,000,000
Maret 15,000,000 60,000,000
April 11,000,000 52,000,000
Mei 14,000,000 58,000,000
Juni 13,000,000 57,000,000
Juli 16,000,000 62,000,000
Agustus 18,000,000 55,000,000
September 17,000,000 63,000,000
Oktober 19,000,000 68,000,000
November 20,000,000 70,000,000
Desember 22,000,000 75,000,000
  • Input adalah biaya iklan bulanan
  • Output adalah penjualan bulanan
  • Hubungan antara biaya iklan dan penjualan adalah linier atau non-linier?
  • Cari fungsi yang merepresentasikan hubungan tersebut

What is Function?

  • Fungsi adalah hubungan matematis antara input dan output
  • Fungsi linier: \(f(x) = ax + b\). Artinya, output adalah hasil perkalian input dengan koefisien \(a\) ditambah dengan konstanta \(b\). Ini adalah fungsi deterministik.
  • Pada regresi linier, terdapat ketidakpastian yang biasanya ditulis sebagai \(\epsilon\) atau error term. Sehingga fungsinya menjadi: \(f(x) = ax + b + \epsilon\) atau \(y = ax + b + \epsilon\)
  • Tujuan: Cari nilai \(a\) dan \(b\) yang paling baik untuk meminimalkan kesalahan \(\epsilon\).

Data Penjualan Bulanan Vs Biaya Iklan Bulanan

Scatter Plot with Linear Relationship

 (Intercept)  Biaya_Iklan 
3.869822e+07 1.473911e+00 

Finding the Best Fit

  • Least Squares Method: Cari nilai \(a\) dan \(b\) yang meminimalkan kesalahan \(\epsilon\).
  • Residuals: Selisih antara nilai prediksi dengan nilai observasi.
  • Residual Sum of Squares (RSS): Jumlah kuadrat dari selisih antara nilai prediksi dengan nilai observasi.
  • Objective: Minumumkan RSS.

\[ RSS = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \] \[ \hat{y}_i = ax_i + b \] \[ \text{Find } a, b \text{ that minimize } RSS = \sum_{i=1}^{n} (y_i - ax_i - b)^2 \]

  • Metode lain: Maximum Likelihood Estimation (MLE), Bayesian Estimation, dll.

Multiple Linear Regression

  • Multiple Linear Regression: Hubungan antara satu variabel output dengan dua atau lebih variabel input.

  • Fungsi: \(y = a_1x_1 + a_2x_2 + ... + a_nx_n + b + \epsilon\)

  • Atau bisa ditulis dalam bentuk matriks: \(y = X\beta + \epsilon\)

  • RSS menjadi: \[ RSS = \sum (y - \hat{y})^2 \] \[ \hat{y} = X\beta \] \[ \text{Minimize } RSS = \sum (y - X\beta)^2 \] \[ \text{Find } \beta \text{ that minimize } RSS \]

\[ \beta = (X^TX)^{-1}X^Ty \]

Additional Technique: Gradien Descent

  • Gradient Descent: Teknik optimasi yang digunakan untuk mencari nilai minimum dari suatu fungsi dengan cara iteratif.
  • Objective: Minimalkan fungsi kesalahan (error) dengan mengubah nilai parameter secara iteratif.

Additional Material

Model Selection

  • Akurasi prediksi: Estimasi menggunakan kuadrat terkecil (LS) sering kali memiliki bias rendah namun dengan variabilitas yang tinggi. Akurasi prediksi dapat ditingkatkan dengan menerapkan metode penyeleksian model atau input dan teknik penyusutan (shrinking), yang membuat beberapa koefisien (β) menjadi nol.

Terdapat dua pendekatan utama dalam seleksi model:

  1. Subset Selection
    Pendekatan ini bertujuan untuk mengidentifikasi subset dari p prediktor yang dianggap memiliki hubungan dengan respons. Model kemudian dibuat menggunakan metode kuadrat terkecil pada himpunan variabel yang telah dikurangi.

  2. Shrinkage
    Pendekatan ini menggunakan semua p prediktor dalam model. Namun, koefisien estimasi akan menyusut mendekati nol dibandingkan dengan estimasi kuadrat terkecil. Teknik penyusutan ini, yang juga dikenal sebagai regularisasi, berfungsi untuk mengurangi varians.

Subset vs Shrinkage

  1. Subset Selection
    • Best-Subset Selection
    • Forward-Stepwise Selection
    • Backward-Stepwise Selection
  2. Shrinkage Methods (Regularization)
    • Ridge Regression
    • Lasso (Least Absolute Shrinkage and Selection Operator)

Best-Subset Selection

Algorithm

  1. Biarkan M₀ sebagai null model, yaitu model tanpa prediktor, yang hanya memprediksi rata-rata sampel untuk setiap observasi.
  2. Untuk k = 1, 2, …, p:
      1. Bangun semua model dengan tepat k prediktor.
      1. Pilih model terbaik di antara model tersebut, yang disebut Mₖ, dengan kriteria memiliki RSS terkecil atau R² terbesar.
  3. Pilih satu model terbaik dari M₀ hingga Mₚ menggunakan kesalahan prediksi tervalidasi silang, AIC, BIC, atau Adjusted R².

Forward-Stepwise Selection

Algorithm

  1. Biarkan M₀ sebagai null model, yaitu model tanpa prediktor.
  2. Untuk k = 0, …, p - 1:
      1. Pertimbangkan semua model yang menambahkan satu prediktor ke model Mₖ.
      1. Pilih model terbaik di antara model tersebut dan sebut sebagai Mₖ₊₁, dengan kriteria memiliki RSS terkecil atau R² terbesar.
  3. Pilih satu model terbaik dari M₀ hingga Mₚ menggunakan AIC, BIC, atau Adjusted R².

Backward-Stepwise Selection

Algorithm

  1. Biarkan Mₚ sebagai full model, yaitu model dengan semua p prediktor.
  2. Untuk k = p, p - 1, …, 1:
      1. Pertimbangkan semua model yang menghapus satu prediktor dari model Mₖ.
      1. Pilih model terbaik di antara model tersebut dan sebut sebagai Mₖ₋₁, dengan kriteria memiliki RSS terkecil atau R² terbesar.
  3. Pilih satu model terbaik dari M₀ hingga Mₚ menggunakan AIC, BIC, atau Adjusted R².

Ukuran Kebaikan Model

  • AIC = \(\frac{1}{n\sigma^2} (RSS + 2d\sigma^2)\)
  • BIC = \(\frac{1}{n} (RSS + \log(n)d\sigma^2)\)
  • Adjusted R² = \(1 - \frac{RSS / (n - d - 1)}{TSS / (n - 1)}\)

Keterangan:
- AIC = Akaike Information Criterion
- BIC = Bayesian Information Criterion
- RSS = Residual Sum of Squares
- n = jumlah data
- d = jumlah variabel prediktor

  • Jika tersedia data validasi, maka Cross-Validation dapat digunakan untuk memilih model terbaik.

Ukuran Kebaikan Model

Saat mengevaluasi dengan Cross-Validation, beberapa metrik evaluasi yang umum digunakan adalah: \[ MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \]

\[ RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2} \]

\[ MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i| \]

Reference

  • An introduction to statistical learning by Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani
  • Kusman Sadik, 2021, “Machine Learning: Teori dan Implementasi dengan R”, Penerbit Informatika
  • Pacmann Academy