Lecture Notes
Semester 1
Vector and Matrix Theory
Lecture 14: Least Squares Approximations and Orthonormal Bases

Lecture 14: Least Squares Approximations and Orthonormal Bases

Based on Introduction to Linear Algebra by Gilbert Strang (opens in a new tab)


Least Squares Approximations

  1. ATAx^=ATb\fbox{$A^TA\hat{x} = A^Tb$} memberikan proyeksi p=Ax^p = A\hat{x} dari bb ke column space AA.
  2. Jika Ax=bAx = b tidak memiliki solusi, maka x^\hat{x} memberikan solusi terbaik: bAx^||b - A\hat{x}|| minimal.
  3. Mengatur turunan parsial dari E=bAx^2E = ||b - A\hat{x}||^2 menjadi nol (Exi=0)\left ( \displaystyle\frac{\partial E}{\partial x_i} = 0 \right ) memberikan ATAx^=ATb\fbox{$A^TA\hat{x} = A^Tb$}
  4. Untuk mencocokkan poin (t1,b1),(t2,b2),,(tm,bm)(t_1, b_1), (t_2, b_2), \dots, (t_m, b_m) dengan garis lurus, AA harus memiliki kolom (1,,1)(1, \cdots, 1) dan (t1,,tm)(t_1, \cdots, t_m).
  5. Jika ATAA^TA merupakan 2×22 \times 2 matriks [mtititi2]\begin{bmatrix} m & \sum t_i \\ \sum t_i & \sum t_i^2 \end{bmatrix} maka x^=1mti2(ti)2[ti2titim][bitibi]\fbox{$\hat{x} = \displaystyle\frac{1}{m\sum t_i^2 - (\sum t_i)^2} \begin{bmatrix} \sum t_i^2 & -\sum t_i \\ -\sum t_i & m \end{bmatrix} \begin{bmatrix} \sum b_i \\ \sum t_ib_i \end{bmatrix}$}

Dalam kasus tertentu, definisi tak resmi oleh Strang dapat membantu kita memahami konsep ini.

💡

Jika Ax=bAx = b tidak memilik solusi, kalikan dengan ATA^T dan selesaikan ATAx^=ATbA^TA\hat{x} = A^Tb!

Contoh

Tentukan garis terdekat dari titik-titik (0,6),(1,0),(2,0)(0, 6), (1, 0), (2, 0).

Jawab

Tidak ada garis lurus y=cx+dy = cx + d yang melewati ketiga titik tersebut. Kita berusaha mendekatinya dengan error terkecil.

Pertama, matriks dapat dirancang terlebih dahulu, persamaan y=cx+dy = cx + d memiliki cxc\cdot x sebagai kolom pertama dan d1d \cdot 1 sebagai kolom kedua.

A=[011121],x=[cd],b=[600]A = \begin{bmatrix} 0 & 1 \\ 1 & 1 \\ 2 & 1 \end{bmatrix}, x = \begin{bmatrix} c \\ d \end{bmatrix}, b = \begin{bmatrix} 6 \\ 0 \\ 0 \end{bmatrix}

Dilihat dari matriks AA dan bb, jelas tidak ada column space dari AA yang memberikan bb. Kita akan mencari proyeksi pp dari bb ke column space AA.

ATA=[5333],ATb=[06]A^TA = \begin{bmatrix} 5 & 3 \\ 3 & 3 \end{bmatrix}, A^Tb = \begin{bmatrix} 0 \\ 6 \end{bmatrix} ATAx^=ATb    [5333][cd]=[06]A^TA\hat{x} = A^Tb \implies \begin{bmatrix} 5 & 3 \\ 3 & 3 \end{bmatrix} \begin{bmatrix} c \\ d \end{bmatrix} = \begin{bmatrix} 0 \\ 6 \end{bmatrix} sistem{5c+3d=03c+3d=6\text{sistem}\begin{cases} 5c + 3d = 0 \\ 3c + 3d = 6 \end{cases}

Didapatkanlah nilai x^\hat{x} yang merupakan proyeksi dari bb ke column space AA.

x^=[cd]=[35]\hat{x} = \begin{bmatrix} c \\ d \end{bmatrix} = \begin{bmatrix} -3 \\ 5 \end{bmatrix}

Persamaan y=cx+dy = cx + d yang paling mendekati ketiga titik tersebut adalah y=3x+5y = -3x + 5.

Orthonormal Bases and Gram-Schmidt

  1. Kolom q1,q2,,qnq_1, q_2, \cdots, q_n orthonormal jika qiTqj={1i=j0ijq_i^Tqj = \begin{cases} 1 & i = j \\ 0 & i \neq j \end{cases}. Maka QTQ=IQ^TQ = I.
  2. Jika QQ persegi, maka QQT=IQQ^T = I dan Q1=QTQ^{-1} = Q^T. QQ adalah matriks ortogonal.
  3. Least square solution untuk Qx=bQx = b adalah x^=QTb\hat{x} = Q^Tb. Proyeksi dari bb: p=QQTb=Pbp = QQ^Tb = Pb.
  4. Gram-Schmidt process mengubah kolom independen aia_i menjadi orthonormal qiq_i. Dioperasikan dengan q1=a1/a1q_1 = a_1 / ||a_1||.
  5. qiq_i adalah (aproyeksi a ke q1,,qi1)(a - \text{proyeksi } a \text{ ke } q_1, \cdots, q_{i-1}) dibagi dengan panjangnya. pi=(aiTq1)q1++(aiTqi1)qi1p_i = (a_i^Tq_1)q_1 + \cdots + (a_i^Tq_{i-1})q_{i-1}.
  6. Setiap aia_i adalah kombinasi dari q1q_1 hingga qiq_i. Maka A=QRA = QR: ortogonal QQ dan upper triangular RR.

QQ tidak harus berbentuk persegi.

💡
QTQ=[q1q2qn][q1Tq2TqnT]=[100010001]Q^TQ = \begin{bmatrix} \vdots & \vdots & & \vdots \\ q_1 & q_2 & \cdots & q_n \\ \vdots & \vdots & & \vdots \end{bmatrix} \begin{bmatrix} \cdots & q_1^T & \cdots \\ \cdots & q_2^T & \cdots \\ & \vdots & \\ \cdots & q_n^T & \cdots \end{bmatrix} = \begin{bmatrix} 1 & 0 & \cdots & 0 \\ 0 & 1 & \cdots & 0 \\ \vdots & \vdots & & \vdots \\ 0 & 0 & \cdots & 1 \end{bmatrix}

Jika QQ persegi, maka Q1=QTQ^{-1} = Q^T.

Rotasi

Q=[cosθsinθsinθcosθ]Q = \begin{bmatrix} \cos \theta & -\sin \theta \\ \sin \theta & \cos \theta \end{bmatrix} QTQ=[cosθsinθsinθcosθ][cosθsinθsinθcosθ]=[1001]Q^TQ = \begin{bmatrix} \cos \theta & \sin \theta \\ -\sin \theta & \cos \theta \end{bmatrix} \begin{bmatrix} \cos \theta & -\sin \theta \\ \sin \theta & \cos \theta \end{bmatrix} = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} Q1=QT=[cosθsinθsinθcosθ]Q^{-1} = Q^T = \begin{bmatrix} \cos \theta & \sin \theta \\ -\sin \theta & \cos \theta \end{bmatrix}

Permutasi

Matriks berikut mengganti urutan kolom.

Q=[010001100][xyz]=[yzx]Q = \begin{bmatrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 1 & 0 & 0 \end{bmatrix} \begin{bmatrix} x \\ y \\ z \end{bmatrix} = \begin{bmatrix} y \\ z \\ x \end{bmatrix} QTQ=[001100010][010001100]=[100010001]Q^TQ = \begin{bmatrix} 0 & 0 & 1 \\ 1 & 0 & 0 \\ 0 & 1 & 0 \end{bmatrix} \begin{bmatrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 1 & 0 & 0 \end{bmatrix} = \begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{bmatrix} Q1=QT=[001100010]Q^{-1} = Q^T = \begin{bmatrix} 0 & 0 & 1 \\ 1 & 0 & 0 \\ 0 & 1 & 0 \end{bmatrix}
💡

Setiap matriks permutasi adalah matriks orthogonal (persegi yang orthonormal).

Refleksi

Jika uu adalah unit vektor apapun, set Q=I2uuTQ = I - 2uu^T. Perhatikan bahwa uuTuu^T adalah matriks namun uTuu^Tu adalah skalar sebesar u2=1||u||^2 = 1. Maka QTQ^T dan Q1Q^{-1} sama dengan QQ:

QT=(I2uuT)T=I2(uuT)T=I2uuT=QQ^T = (I - 2uu^T)^T = I - 2(uu^T)^T = I - 2uu^T = Q

dan

QTQ=(I2uuT)(I2uuT)=I2uuT2uuT+4uuTuuT=I4uuT+4(uTu)uuT=I4uuT+4uuT=I\begin{align*} Q^TQ &= (I - 2uu^T)(I - 2uu^T) \\ &= I - 2uu^T - 2uu^T + 4uu^Tuu^T \\ &= I - 4uu^T + 4(u^Tu)uu^T \\ &= I - 4uu^T + 4uu^T \\ &= I \end{align*}

Matriks tersebut simetris dan ortogonal, jika dikuadratkan maka akan menghasilkan identitas II. Dicerminkan dua kali akan kembali ke posisi semula.

Rotasi, refleksi, dan permutasi menjaga panjang vektor. Sehingga perkalian apapun dengan matriks ortogonal QQ tidak akan mengubah panjang vektor dan sudut antar vektor.

Proof:

Qx2=(Qx)T(Qx)=xTQTQx=xTx=x2\begin{align*} ||Qx||^2 &= (Qx)^T(Qx) \\ &= x^TQ^TQx \\ &= x^Tx \\ &= ||x||^2 \end{align*}

Projections Using Orthonormal Bases

Solusi Least Square untuk Qx=bQx = b adalah x^=QTb\hat{x} = Q^Tb. Proyeksi dari bb: p=QQTb=Pbp = QQ^Tb = Pb.

b=q1(q1Tb)+q2(q2Tb)++qn(qnTb)b = q_1(q_1^Tb) + q_2(q_2^Tb) + \cdots + q_n(q_n^Tb)

Transformasi: QQT=IQQ^T = I adalah pondasi untuk fourier series dan bentuk transformasi lainnya!

Contoh

Kolom dari matriks orthogonal QQ adalah orthonormal vektor q1,q2,q3q_1, q_2, q_3:

Q=13[122212221]Q = \frac{1}{3} \begin{bmatrix} -1 & 2 & 2 \\ 2 & -1 & 2 \\ 2 & 2 & -1 \end{bmatrix}

Proyeksi terpisah dari b=(0,0,1)b = (0, 0, 1) ke q1,q2,q3q_1, q_2, q_3 adalah:

p1=q1(q1Tb)=13[122](13[122][001])=13[122](23)=19[244]p2=q2(q2Tb)=13[212](13[212][001])=13[212](23)=19[424]p3=q3(q3Tb)=13[221](13[221][001])=13[221](13)=19[221]\begin{align*} p_1 &= q_1(q_1^Tb) \\&= \frac{1}{3} \begin{bmatrix} -1 \\ 2 \\ 2 \end{bmatrix} \left ( \frac{1}{3} \begin{bmatrix} -1 & 2 & 2 \end{bmatrix} \begin{bmatrix} 0 \\ 0 \\ 1 \end{bmatrix} \right ) \\&= \frac{1}{3} \begin{bmatrix} -1 \\ 2 \\ 2 \end{bmatrix} \left ( \frac{2}{3} \right ) = \frac{1}{9} \begin{bmatrix} -2 \\ 4 \\ 4 \end{bmatrix} \\ p_2 &= q_2(q_2^Tb) \\&= \frac{1}{3} \begin{bmatrix} 2 \\ -1 \\ 2 \end{bmatrix} \left ( \frac{1}{3} \begin{bmatrix} 2 & -1 & 2 \end{bmatrix} \begin{bmatrix} 0 \\ 0 \\ 1 \end{bmatrix} \right ) \\&= \frac{1}{3} \begin{bmatrix} 2 \\ -1 \\ 2 \end{bmatrix} \left ( \frac{2}{3} \right ) = \frac{1}{9} \begin{bmatrix} 4 \\ -2 \\ 4 \end{bmatrix} \\ p_3 &= q_3(q_3^Tb) \\&= \frac{1}{3} \begin{bmatrix} 2 \\ 2 \\ -1 \end{bmatrix} \left ( \frac{1}{3} \begin{bmatrix} 2 & 2 & -1 \end{bmatrix} \begin{bmatrix} 0 \\ 0 \\ 1 \end{bmatrix} \right ) \\&= \frac{1}{3} \begin{bmatrix} 2 \\ 2 \\ -1 \end{bmatrix} \left ( \frac{-1}{3} \right ) = \frac{1}{9} \begin{bmatrix} -2 \\ -2 \\ 1 \end{bmatrix} \end{align*}

Ingat bahwa b=pib = \sum p_i.

b=p1+p2+p3=19[244]+19[424]+19[221]=19[009]=[001]\begin{align*} b &= p_1 + p_2 + p_3 \\ &= \frac{1}{9} \begin{bmatrix} -2 \\ 4 \\ 4 \end{bmatrix} + \frac{1}{9} \begin{bmatrix} 4 \\ -2 \\ 4 \end{bmatrix} + \frac{1}{9} \begin{bmatrix} -2 \\ -2 \\ 1 \end{bmatrix} \\ &= \frac{1}{9} \begin{bmatrix} 0 \\ 0 \\ 9 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \\ 1 \end{bmatrix} \end{align*}

The Gram-Schmidt Process

Dimulai dengan memilih independen vektor viv_i dan mengubahnya menjadi orthonormal qiq_i. Caranya adalah dengan menguranginya dengan proyeksinya lalu dibagi dengan panjangnya.

Ambil contoh untuk 3 vektor independen a,b,ca, b, c.

Gram-Schmidt Process

  1. Anggap vektor aa sebagai entri pertama yang sudah ortogonal, namun belum dinormalisasi. Anggap sebagai AA.

  2. Pilih bb sebagai vektor berikutnya dan kurangi proyeksi bb ke aa dari bb itu sendiri.

    B=bproyeksi b ke a=baTbaTaa\begin{align*} B &= b - \text{proyeksi } b \text{ ke } a \\ &= b - \frac{a^Tb}{a^Ta}a \end{align*}
  3. Pilih cc sebagai vektor berikutnya dan kurangi proyeksi cc ke aa dan bb dari cc itu sendiri.

    C=cproyeksi c ke a dan b=caTcaTaabTcbTbb\begin{align*} C &= c - \text{proyeksi } c \text{ ke } a \text{ dan } b \\ &= c - \frac{a^Tc}{a^Ta}a - \frac{b^Tc}{b^Tb}b \end{align*}
  4. Normalisasi A,B,CA, B, C menjadi QQ.

    q1=AAq2=BBq3=CC\begin{align*} q_1 &= \frac{A}{||A||} \\ q_2 &= \frac{B}{||B||} \\ q_3 &= \frac{C}{||C||} \end{align*}

Contoh

Ada non-orthogonal vektor a,b,ca, b, c sebagai berikut:

a=[110],b=[202],c=[333]a = \begin{bmatrix} 1 \\ -1 \\ 0 \end{bmatrix}, b = \begin{bmatrix} 2 \\ 0 \\ -2 \end{bmatrix}, c = \begin{bmatrix} 3 \\ -3 \\ 3 \end{bmatrix}
  1. A=a=[110]A = a = \begin{bmatrix} 1 \\ -1 \\ 0 \end{bmatrix}

  2. Ambil nilai BB dengan mengurangi proyeksi bb ke aa dari bb itu sendiri.

    nilai ATBA^TB adalah:

    [110][202]=2\begin{bmatrix} 1 & -1 & 0 \end{bmatrix} \begin{bmatrix} 2 \\ 0 \\ -2 \end{bmatrix} = 2

    nilai ATAA^TA adalah:

    [110][110]=2\begin{bmatrix} 1 & -1 & 0 \end{bmatrix} \begin{bmatrix} 1 \\ -1 \\ 0 \end{bmatrix} = 2

    Maka BB adalah:

    B=bproyeksi b ke a=bATbATAA=[202]22[110]=[112]\begin{align*} B &= b - \text{proyeksi } b \text{ ke } a \\ &= b - \frac{A^Tb}{A^TA}A \\ &= \begin{bmatrix} 2 \\ 0 \\ -2 \end{bmatrix} - \frac{2}{2} \begin{bmatrix} 1 \\ -1 \\ 0 \end{bmatrix} \\ &= \begin{bmatrix} 1 \\ 1 \\ -2 \end{bmatrix} \end{align*}
  3. Ambil nilai CC dengan mengurangi proyeksi cc ke aa dan bb dari cc itu sendiri.

    nilai ATCA^TC adalah:

    [110][333]=6\begin{bmatrix} 1 & -1 & 0 \end{bmatrix} \begin{bmatrix} 3 \\ -3 \\ 3 \end{bmatrix} = 6

    nilai BTCB^TC adalah:

    [112][333]=6\begin{bmatrix} 1 & 1 & -2 \end{bmatrix} \begin{bmatrix} 3 \\ -3 \\ 3 \end{bmatrix} = -6

    nilai BTBB^TB adalah:

    [112][112]=6\begin{bmatrix} 1 & 1 & -2 \end{bmatrix} \begin{bmatrix} 1 \\ 1 \\ -2 \end{bmatrix} = 6

    Maka CC adalah:

    C=cproyeksi c ke a dan b=cATcATAABTcBTBB=[333]62[110]+66[112]=[111]\begin{align*} C &= c - \text{proyeksi } c \text{ ke } a \text{ dan } b \\ &= c - \frac{A^Tc}{A^TA}A - \frac{B^Tc}{B^TB}B \\ &= \begin{bmatrix} 3 \\ -3 \\ 3 \end{bmatrix} - \frac{6}{2} \begin{bmatrix} 1 \\ -1 \\ 0 \end{bmatrix} + \frac{6}{6} \begin{bmatrix} 1 \\ 1 \\ -2 \end{bmatrix} \\ &= \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix} \end{align*}

    Cek: ATC=0A^TC = 0, BTC=0B^TC = 0, ATB=0A^TB = 0.

  4. Normalisasi A,B,CA, B, C menjadi QQ.

    q1=AA=12[110]q2=BB=16[112]q3=CC=13[111]\begin{align*} q_1 &= \frac{A}{||A||} = \frac{1}{\sqrt{2}} \begin{bmatrix} 1 \\ -1 \\ 0 \end{bmatrix} \\ q_2 &= \frac{B}{||B||} = \frac{1}{\sqrt{6}} \begin{bmatrix} 1 \\ 1 \\ -2 \end{bmatrix} \\ q_3 &= \frac{C}{||C||} = \frac{1}{\sqrt{3}} \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix} \end{align*}

    Cek: q1Tq2=0q_1^Tq_2 = 0, q1Tq3=0q_1^Tq_3 = 0, q2Tq3=0q_2^Tq_3 = 0.

    Cek: q1=1||q_1|| = 1, q2=1||q_2|| = 1, q3=1||q_3|| = 1.

    Cek: QTQ=IQ^TQ = I.

    [12161312161302613][12120161626131313]=[100010001]\begin{bmatrix} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{6}} & \frac{1}{\sqrt{3}} \\ -\frac{1}{\sqrt{2}} & \frac{1}{\sqrt{6}} & \frac{1}{\sqrt{3}} \\ 0 & -\frac{2}{\sqrt{6}} & \frac{1}{\sqrt{3}} \end{bmatrix} \begin{bmatrix} \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} & 0 \\ \frac{1}{\sqrt{6}} & \frac{1}{\sqrt{6}} & -\frac{2}{\sqrt{6}} \\ \frac{1}{\sqrt{3}} & \frac{1}{\sqrt{3}} & \frac{1}{\sqrt{3}} \end{bmatrix} = \begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{bmatrix}

    Cek: Q1=QTQ^{-1} = Q^T.

    [12161312161302613]=[12120161626131313]\begin{bmatrix} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{6}} & \frac{1}{\sqrt{3}} \\ -\frac{1}{\sqrt{2}} & \frac{1}{\sqrt{6}} & \frac{1}{\sqrt{3}} \\ 0 & -\frac{2}{\sqrt{6}} & \frac{1}{\sqrt{3}} \end{bmatrix} = \begin{bmatrix} \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} & 0 \\ \frac{1}{\sqrt{6}} & \frac{1}{\sqrt{6}} & -\frac{2}{\sqrt{6}} \\ \frac{1}{\sqrt{3}} & \frac{1}{\sqrt{3}} & \frac{1}{\sqrt{3}} \end{bmatrix}

Factorization A=QRA = QR

Pendahuluan dari Gram-Schmidt Process:

  1. Vektor a,A,q1a, A, q_1 terletak dalam suatu garis yang sama.
  2. Vektor b,B,q2b, B, q_2 terletak dalam bidang yang sama.
  3. Vektor c,C,q3c, C, q_3 terletak dalam ruang yang sama (dimensi 3).

Dalam setiap langkah, a1,,aka_1, \cdots, a_k adalah kombinasi dari q1,,qkq_1, \cdots, q_k. Jika QQ dihubungkan dengan hubungan diatas tadi dalam wujud matriks, akan didapatkan matriks upper triangular RR.

[abc]A=[q1q2q3]Q[q1Taq1Tbq1Tcq2Tbq2Tcq3Tc]R\underbrace{ \begin{bmatrix} & & \\ a & b & c \\ & & \end{bmatrix}}_A = \underbrace{\begin{bmatrix} & & \\ q_1 & q_2 & q_3 \\ & & \end{bmatrix}}_Q \underbrace{\begin{bmatrix} q_1^Ta & q_1^Tb & q_1^Tc \\ & q_2^Tb & q_2^Tc \\ & & q_3^Tc \end{bmatrix}}_R

A=QRA = QR adalah Gram-Schmidt in nutshell. Kalikan dengan QTQ^T untuk mendapatkan R=QTAR = Q^TA.

Contoh

Jika matriks pada problem sebelumnya:

A=[123103023]A = \begin{bmatrix} 1 & 2 & 3 \\ -1 & 0 & -3 \\ 0 & -2 & 3 \end{bmatrix}

maka QQ dan RR adalah:

Q=[1/21/61/31/21/61/302/61/3],R=[2218066003]Q = \begin{bmatrix} 1/\sqrt{2} & 1/\sqrt{6} & 1/\sqrt{3} \\ -1/\sqrt{2} & 1/\sqrt{6} & 1/\sqrt{3} \\ 0 & -2/\sqrt{6} & 1/\sqrt{3} \end{bmatrix}, R = \begin{bmatrix} \sqrt{2} & \sqrt{2} & \sqrt{18} \\ 0 & \sqrt{6} & -\sqrt{6} \\ 0 & 0 & \sqrt{3} \end{bmatrix}

Lihatlah bahwa panjang A,B,CA, B, C adalah 2,6,3\sqrt{2}, \sqrt{6}, \sqrt{3} dalam diagonal RR. Jika merujuk pada persamaan sebelumnya, maka:

ATA=(QR)T(QR)=RTQTQR=RTRA^TA = (QR)^T(QR) = R^TQ^TQR = R^TR

Least Squares Solution untuk Ax=bAx = b adalah x^=R1QTb\hat{x} = R^{-1}Q^Tb atau Rx^=QTbR\hat{x} = Q^Tb.