ceritanya ngeBLOG nih :D

RSS

isi makalah kelompok 6 (Topik Khusus Basis Data Multimedia) bahasan Latent Semantik Indexing (LSI)

PEMBAHASAN

2.1.      Pengertian Metode Latent Semantic Indexing
Metode Latent Semantic Indexing (LSI) adalah metode yang diimplementasikan di dalam IR system dalam mencari dan menemukan informasi berdasarkan makna keseluruhan (conceptual topic atau meaning) dari sebuah dokumen bukan hanya makna kata per kata.
Latent Semantic Indexing adalah sebuah metode baru dalam algoritma search engine yang sedang dikembangkan Google Corporation. Dengan metode ini, Google menganalisis kata kunci dengan cara baru, bukan lagi berdasarkan pencocokkan kata secara leksikal. Kata yang dicari tidak hanya kata kuncinya saja seperti pada algoritma pada umumnya, tetapi kata-kata yang berhubungan dengan kata kunci juga dicari.
Tujuan dari LSI adalah mendapatkan suatu pemodelan yang efektif untuk merepresentasikan hubungan antara kata kunci dan dokumen yang dicari. Dari sekumpulan kata kunci, yang tadinya tidak lengkap dan tidak sesuai, menjadi sekunpulan objek yang berhubungan.

Keuntungan Latent Semantik Indexing sebagai berikut :
1.      True (Latent) Dimensions
Asumsi di LSI adalah bahwa dimensi baru lebih baik representasi dokumen dan query. Metafora yang mendasari istilah “latent” adalah bahwa dimensi-dimensi baru adalah benar. Ini benar representasi kemudian tertutup oleh proses generasi yang menyatakan dimensi tertentu dengan satu set kata-kata dalam beberapa dokumen dan berbagai set kata-kata dalam dokumen lain.
2.      Sinonim
Mengacu pada fakta bahwa konsep dasar yang sama dapat dijelaskan menggunakan istilah yang berbeda. Strategi pengambilan Sinonim adalah istilah untuk kata yang bermakna sama.
Contoh, kata “sulit” merupakan sinonim untuk “sukar” karena “sulit” dan “sukar” bermakna sama.
3.      Polisemi
Polisemi adalah istilah untuk kata yang sama namun maknanya berbeda.
Contoh, kata “membajak” dalam “membajak sawah” dan “membajak VCD” merupakan polisemi karena kata “membajak” di kedua frase sama namun mempunyai arti yang berbeda.
4.      Term Dependence
Model ruang vektor tradisional menganggap merdeka dan istilah melayani sebagai dasar vektor ortogonal dari ruang vektor.

Kekurangan Latent Semantic Indexing sebagai berikut :


1.      Storage
Banyak dokumen yang memiliki lebih dari 150 istilah yang unik. Jadi representasi vektor jarang akan memakan ruang penyimpanan lebih dari representasi SVD jika kita mengurangi sampai 150 dimensi.
2.      Efesiensi
Salah satu kecepatan yang paling penting dalam pencarian vektor ruang berasal dari menggunakan indeks terbalik. Akibatnya, hanya dokumen yang memiliki bebrapa istilah umum dengan query harus diperiksa selama pencarian. Jika query memiliki jangka lebih dari perwakilannya dalam ruang vektor LSI maka hasil kali dalam nilai kemiripan akan mengambil lebih banyak waktu untuk menghitung dalam ruang panjang.
3.      LSI dan dataterdistribusi normal
Beanr-benar dirancang untuk data terdistribusi normal namun distribusi tersebut tidak cocok untuk menghitung data, dan data perhitungan yang panjang terdiri dari dokumen metriks.

Pada umumnya, dokumen dikatakan relevan dengan query apabila dokumen :
(1) Memuat kata atau kalimat yang sama dengan query atau
(2) Memuat kata atau kalimat yang bermakna sama dengan query.

Sebagai contoh, terdapat query satu kata yaitu “sulit”.
Pada point 1, informasi yang memuat kata “susah” atau “sukar” dinilai tidak relevan karena informasi yang relevan adalah informasi yang memuat kata “sulit”.
Sedangkan pada point 2, informasi yang memuat kata “susah” atau “sukar” dinilai relevan karena “susah” atau “sukar” bermakna sama dengan “sulit”.

2.2.            Metode Latent Semantic Indexing Secara Keseluruhan
Secara global, alur proses metode Latent Semantic Indexing (LSI) dapat diilustrasikan dalam gambar 2.2

Gambar 2.2 Alur proses dari metode latent semantic indexing

Alur proses dari metode Latent Semantic Indexing dibagi 2 (dua) kolom, yaitu kolom sebelah kiri yaitu query dan kolom sebelah kanan yaitu, koleksi dokumen. Pada proses sebelah kiri, query diproses melalui operasi teks, kemudian vektor query dibentuk. Vektor query yang dibentuk dipetakan menjadi vektor query terpeta (mapped query vector). Dalam membentuk query terpeta, diperlukan hasil dekomposisi nilai singular dari koleksi dokumen.

Pada koleksi dokumen, dilakukan operasi teks pada koleksi dokumen, kemudian matriks kata-dokumen (terms-documents matrix) dibentuk, selanjutnya dilakukan dekomposisi nilai singular (Singular Value Decomposition) pada matriks kata-dokumen. Hasil dekomposisi disimpan dalam collection index. Proses ranking dilakukan dengan menghitung relevansi antara vektor query terpeta dan collection index. Selanjutnya, hasil perhitungan relevansi ditampilkan ke pengguna.

2.3.            Langkah dalam pendekatan Latent Semantic Indexing (LSI) :
1.      Table  Creation
2.      Singular Value Decompositions (SVD) Construction
3.      Vector Identication
4.      Index Creation.

2.3.1        Table Creation
Query: human-computer interaction
Dataset:
c1 Human machine interface for Lab ABC computer application
c2 A survey of user opinion of computer system response time
c3 The EPS user interface management system
c4 System and human system engineering testing of EPS
c5 Relations of user-perceived response time to error measurement
m1 The generation of random,binary, unordered trees
m2 The intersection graph of paths in trees
m3 Graph minors IV: Widths of trees and well-quasi-ordering
m4 Graph minors: A survey






{X}=
r (human.user) = -.38
r (human.minors) = -.29
gambar 1 : matriks konteks X di atas, dibentuk dari judul lima artikel tentang human computer interaction dan empat artikel tentang graph theory. Isi dari sel menandakan jumlah kemunculan sebuah kata (baris) dalam judul (kolom) untuk kata yang muncul, paling sedikit di dua buah judul.

{X}={W}{S}{P}'
{W}=
S { }=




P { }=
Gambar 2 : SVD yang lengkap dari matriks konteks
r (human.user) = .94
r (human.minors) = -.83
Gambar 3: rekonstruksi dua dimensi dari matriks X yang terdapat pada gambar 1, berdasarkan pada kolom dan baris yang diarsir dari SVD yang ditunjukkan pada gambar 2. Membandingkan baris dan sel yang diarsir dan dikotakkan dari gambar 1 dan gambar 3 menggambarkan bagaimana LSA mengenali kesamaan hubungan dengan mengubah nilai perkiraan data.
Langkah pertama adalah merepresentasikan teks sebagai matriks yang setiap barisnya mewakili kata yang unik dan setiap kolom mewakili kalimat. Setiap sel berisikan frekuensi kemunculan kata di setiap kolom. Selanjutnya, isi dari sel merupakan transformasi preliminary yag detilnya akan dideskripsikan kemudian, yang masing – masing frekuensi sel diberi bobot oleh sebuah fungsi yang menghasilkan keutamaan kata dalam sebuah
kalimat.
Selanjutnya, metode ini mengaplikasikan SVD (Singular Value Decomposition) ke dalam matriks. Dalam SVD, matriks persegi didekomposisi menjadi tiga matriks lainnya. Matriks pertama mendeskripsikan baris asli sebagai vector turunan nilai factor orthogonal. Satu matriks lagi mendeskripsikan kolom seperti sebelumnya. Matriks ketiga adalah matriks diagonal yang memuat nilai skala jika ketiga komponen matriks dikalikan.
Dari matriks-matriks yang telah dibuat, akan ditemukan kata yang berhubungan dengan katakunci yang dicari. Kemudian, dari kata-kata tersebut, dicarilah halaman-halaman web yang sesuai dari daftar alamat web yang terdapat pada basis data.

2.3.2        SVD ( Singular Value Decomposition ) Construction
Singular Value Decomposition (SVD) adalah suatu metode untuk mendekomposisi suatu matriks, A berukuran m x n, menjadi 3 (tiga) buah matriks, yaitu U, S dan V seperti pada ilustrasi di bawah ini.
A = U S VT

Hasil SVD adalah matriks U adalah matriks berukuran m x k dan V matriks bujursangkar n x k, keduanya mempunyai kolom-kolom ortogonal sedemikian sehingga ;
            UT U = VT V = I
Dan S adalah matriks U diagonal berukuran k x k. Entry-entry di diagonal utama matriks S adalah nilai singular dari matriks A.
Hasil SVD dapat lebih dipahami matriks A ditulis dengan interpretasi yang berbeda. Bila u1, u2, ..., uk adalah vektor-vektor kolom dari matriks U, 𝜎1, 𝜎2, ... , 𝜎k adalah entry-entry  di diagonal utama dari matriks S, dan v1, v2, ..., vk adalah vektor-vektor kolom dari matriks V. Maka matriks A dapat ditulis sebagai ;

Nilai-nilai 𝜎1, untuk i = 1,  2, ... , k pada persamaan diatas diurutkan menurun dari yang terbesar sampai terkecil. Apabila beberapa nilai 𝜎1 yang besar diambil dan nilai 𝜎1 yang kecil (mendekati nol) dibuang sehingga diperoleh suatu aproksimasi dari A yang baik. 

Contoh :
Menghitung SVD matriks A(mxn) = A(2x3)
Dapatkan Singular Value Decomposition (SVD) dari matrik yang berukuran m×n berikut ini:
B(2×3) =
Jawab:
1.    Menghitung Matrik BTB dan BBT
       BTB = C = =
       BBT = D = =    
2.    Mencari Eigenvalue (l) dari Matrik BTB dan BBT
       Eigenvalue Matrik BTB:                       ÷C-lIê= 0
Þ       [(20-l)(8-l)(20-l) + 4(-4)16 + 16(4)(-4)] - [16(8-l)16 + (-4)2(20-l) + 42(20-l)] = 0
Þ       [-l3 + 48l2 -720l + 3200 -256 -256] - [256(8-l) + 16(20-l) + 16       (20-l)] = 0
Þ       (-l3 + 48l2 -720l + 2688) - (2048 - 256l + 320 - 16l + 320 -16l) = 0
Þ       (-l3 + 48l2 -720l + 2688) - (2688 - 288l) = 0
Þ       -l3 + 48l2 - 432l = 0
Þ       -l(l2 - 48l - 432) = 0
Þ       -l (l - 12)(l - 36) = 0
        l1 = 0, l2 = 12, dan l3 = 36                                         
        Jika dinyatakan dalam bentuk matrik diagonal D12 =
       Eigenvalue Matrik BBT:                      ÷D-lIê= 0
Þ        [(24-l)(24-l) - 122] = 0
Þ        (l2- 48l + 576 - 144) = 0
Þ        l2- 48l + 432 = 0
Þ        (l - 12) (l - 36) = 0
        l1 = 12 dan l2 = 36
        Jika dinyatakan dalam bentuk matrik diagonal D22 =      
Pada proses mencari eigenvalue matrik BTB (matrik C) didapatkan l1 = 0, mengacu pada prosedur penyelesaian SVD matrik m×n terdapat catatan bahwa: jika dalam perhitungan eigenvalue didapatkan l = 0 maka untuk prosedur perhitungan eigenvalue l = 0 diabaikan yang berakibat eigenvektor untuk kolom l = 0 pada prosedur selanjutnya akan dihilangkan dari matrik eigenvektornya.. Sehingga, matrik diagonal D12 = D22 = D2.
D2 =

3.    Mencari Eigenvektor Matrik BTB dan BBT
       Untuk l1 = 0                
       Eigenvektor Matrik BTB:
·            Untuk l1 = 0                           (C – l1I) =
 
Pers.1
Pers.2
Pers.3
       Eliminasi Pers.1 dan Pers.3:
       20x11 + 4x12 + 16x13 = 0
       16x11 – 4x12 + 20x13 = 0
                                                +
       36x11 + 36x13   = 0
                 x11 + x13 = 0
                 x11 = – x13                 Pers.4
      
       Subsitusikan Pers.4 ke Pers.2
       4(-x13) + 8x12 - 4x13 = 0
                 8x12 - 8x13      = 0
                 x12 = x13                       Pers.5
      
       Proses normalisasi untuk :
= = =
= =

·            Untuk l2 = 12                          (C – l2I) =
 
Pers.1
Pers.2
Pers.3
       Eliminasi Pers.1 dan Pers.3:
       8x21 + 4x22 + 16x23 = 0
       16x21 – 4x22 + 8x23 = 0
                                                +
       24x21 + 24x23   = 0
                 x21 + x23 = 0
                 x21 = – x23                 Pers.4
      
       Subsitusikan Pers.4 ke Pers.2
       4(-x23) - 4x22 - 4x23 = 0
                 -4x22 - 8x23    = 0
                 x22 = -2x23                     Pers.5
      
Proses normalisasi untuk :
= = =
= =

·            Untuk l3 = 36                         (C – l3I) =
 
Pers.1
Pers.2
Pers.3
      
       Eliminasi Pers.1 dan 4 × Pers.2:
       -16x31 + 4x32 + 16x33 = 0
       16x31 – 112x32 + 16x33 = 0
                                                +
                        108x32   = 0
                 x32 = 0                      Pers.4
      
       Subsitusikan Pers.4 ke Pers.3
       16x31 - 4(0) - 16x33 = 0
                 16x31 - 16x33 = 0
                       x31 = x33                     Pers.5
      
       Proses normalisasi untuk :
= = =
= =

Sehingga, eigenvektor yang didapatkan adalah:
X =
       Akan tetapi, untuk prosedur selanjutnya eigenvektor yang digunakan adalah eigenvektor dari kolom yang nilai eigenvalue () lebih dari nol (positif).
Q =
      
       Eigenvektor Matrik BBT:
·           Untuk l1 = 12                         (D l1I) =
Pers.2
Pers.1
       12x11 + 12x12 = 0
               x11 + x12 = 0
                        x11 = – x12                      Pers.3

       Proses normalisasi untuk :
= = =
= =

·           Untuk l2 = 36                         (D – l2I) =
Pers.2
Pers.1
       -12x21 + 12x22 = 0
               -x21 + x22 = 0
                        x21 = x22                          Pers.3
       Proses normalisasi untuk :
= = =
= =

Sehingga, eigenvektor yang didapatkan adalah:
Y =




BAB III
PENUTUP

III.1 Kesimpulan

Metode Latent Semantic Indexing (LSI) adalah metode yang diimplementasikan di dalam IR system dalam mencari dan menemukan informasi berdasarkan makna keseluruhan (conceptual topic atau meaning) dari sebuah dokumen bukan hanya makna kata per kata.
Metode Latent Semantic Indexing (LSI), sangat bermanfaat untuk digunakan pada search engine, karena dengan metode ini search engine dapat mencari dokumen yang diinginkan oleh pengguna dengan lebih akurat. Hal ini terbukti pada search engine Google yang mampu menghasilkan pencarian yang akurat dengan pemanfaatan waktu yang lebih sedikit.
Singular Value Decomposition (SVD) adalah suatu metode untuk mendekomposisi suatu matriks.


DAFTAR PUSTAKA

http://www.cs.arizona.edu/classes/cs630/spring03/slides/jan-29.ppt

http://lsa.colorado.edu/papers/dp1.LSAintro.pdf

  • Digg
  • Del.icio.us
  • StumbleUpon
  • Reddit
  • RSS

2 komentar:

Unknown mengatakan...

superrr....izin nyalin yak ela

Unknown mengatakan...

iya yan.... :D

Posting Komentar