Upload New File

4393eee8 · Sartika Aritonang · c802923d · 4393eee8
Commit 4393eee8 authored May 28, 2020 by Sartika Aritonang
Hide whitespace changes
Inline Side-by-side

Showing with 219 additions and 0 deletions

simulator_data.html project/template/simulator_data.html +219 -0

No files found.
--- a/project/template/simulator_data.html
+++ b/project/template/simulator_data.html
+<!DOCTYPE html>
+<html lang="en">
+    <head>
+        <meta charset="utf-8" />
+        <meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no" />
+        <meta name="description" content="" />
+        <meta name="author" content="" />
+        <title>Tahapan Proximity Indexing Data Corona</title>
+        <!-- Font Awesome icons (free version)-->
+        <script src="https://use.fontawesome.com/releases/v5.13.0/js/all.js" crossorigin="anonymous"></script>
+        <!-- Google fonts-->
+        <link href="https://fonts.googleapis.com/css?family=Saira+Extra+Condensed:500,700" rel="stylesheet" type="text/css" />
+        <link href="https://fonts.googleapis.com/css?family=Muli:400,400i,800,800i" rel="stylesheet" type="text/css" />
+        <!-- Core theme CSS (includes Bootstrap)-->
+        <link href="../static/simulator_design/css/styles.css" rel="stylesheet" />
+    </head>
+    <body id="page-top">
+        <!-- Navigation-->
+        <nav class="navbar navbar-expand-lg navbar-dark bg-primary fixed-top" id="sideNav">
+            <a class="navbar-brand js-scroll-trigger" href="#page-top">
+			<span class="d-none d-lg-block"><img class="img-fluid img-profile rounded-circle mx-auto mb-2" src="../static/simulator_design/assets/img/logo_del.jpg" alt="" /></span></a>
+				<button class="navbar-toggler" type="button" data-toggle="collapse" data-target="#navbarSupportedContent" aria-controls="navbarSupportedContent" aria-expanded="false" aria-label="Toggle navigation"><span class="navbar-toggler-icon"></span></button>
+            <div class="collapse navbar-collapse" id="navbarSupportedContent">
+                <ul class="navbar-nav">
+					<li class="nav-item"><a class="nav-link js-scroll-trigger" href="#introduction">Tahapan Proximity Indexing</a></li>
+                    <li class="nav-item"><a class="nav-link js-scroll-trigger" href="#readXML">Baca Data XML</a></li>
+                    <li class="nav-item"><a class="nav-link js-scroll-trigger" href="#tokenize">Tokenisasi</a></li>
+                    <li class="nav-item"><a class="nav-link js-scroll-trigger" href="#stopwordRemoval">Stopword Removal</a></li>
+                    <li class="nav-item"><a class="nav-link js-scroll-trigger" href="#numberRemoval">Number Removal</a></li>
+                    <li class="nav-item"><a class="nav-link js-scroll-trigger" href="#stemming">Stemming</a></li>
+                    <li class="nav-item"><a class="nav-link js-scroll-trigger" href="#proximityIndexing">Proximity Indexing</a></li>
+					<br> <br><li class="nav-item"><a class="nav-link" href="/">Kembali ke Pencarian</a></li>
+                </ul>
+            </div>
+        </nav>
+        <!-- Page Content-->
+        <div class="container-fluid p-0">
+            <!-- Simulator Indexing -->
+            <section class="resume-section" id="introduction">
+                <div class="resume-section-content">
+                    <h1 class="mb-0">Tahapan<br><span class="text-primary">Proximity Indexing</span></h1>
+                    <br>
+					<p class="lead mb-5">
+					Proximity index adalah proses pengindeksan yang menyimpan kata – kata kedalam konversi bitmap yaitu disimpan dalam bentuk nomor dokumen 
+					beserta posisinya dalam dokumen tersebut berdasarkan indeks ke dokumen. Gagasan utamanya adalah kedekatan term, yaitu ketika dua kata atau 
+					lebih dari kueri yang diberikan dan kata-kata tersebut ditemukan dalam jarak yang sangat dekat (selisih posisi kata kedua dan kata pertama 
+					adalah satu) di dalam dokumen, maka skor dokumen ini akan meningkat.
+					<br>
+					Adapun tahapan dalam membuat Proximity Indexing pada data yang berisi berita Corona ini, yaitu:
+					<br> 1. Membaca atau me-load data XML
+					<br> 2. Melakukan Tokenisasi
+					<br> 3. Melakukan Stopword Removal
+					<br> 4. Melakukan Number Removal
+					<br> 5. Melakukan Stemming
+					<br> 6. Melakukan Proximity Indexing
+					
+					</p>
+                </div>
+            </section>
+			<hr class="m-0" />
+			<!-- Baca XML -->
+			<section class="resume-section" id="readXML">
+                <div class="resume-section-content">
+                    <h2 class="mb-5">Baca Data XML</h2>
+                    <div class="d-flex flex-column flex-md-row justify-content-between mb-5">
+                        <div class="flex-grow-1">
+                            <p>Koleksi dokumen diperoleh dengan cara scrapping 
+							pada beberapa situs berita di Indonesia terkait COVID-19, seperti 
+							<a href="https://www.kompas.com/"> Kompas.com</a>, 
+							<a href="https://www.detik.com/">Detik.com<a>,
+							<a href="https://inipasti.com/">Inipasti.com<a>, 
+							<a href="https://www.cnnindonesia.com/">CNN Indonesia<a>, 
+							<a href="https://www.okezone.com/">Okezone.com<a>, 
+							<a href="https://www.liputan6.com/">Liputan6.com<a>, 
+							<a href="https://www.tribunnews.com/">Tribunnews.com<a>, 
+							<a href="https://www.galamedianews.com/">Galamedia.com<a>, 
+							<a href="https://www.antaranews.com/">Antaranews.com<a>. Berita yang dikumpulkan adalah
+							berita mengenai COVID-19, Sosial Distancing, PSBB dan Pandemi Corona. Hasil kumpulan
+							berita akan dimuat dalam file CSV dan kemudian di-convert menjadi file XML. Berikut adalah
+							hasil pembacaan data XML yang berisi berita Corona.
+							</p>
+							<br>
+							{% if read_xml %}
+								<p> <b>ID berita =></b><br> <code> {{ read_xml.id_in_news }} </code><br><br>
+								<b>Media berita => </b><br><code> {{ read_xml.sentence_in_source }} </code> <br><br>
+								<b>Link berita => </b><br><code> {{ read_xml.sentence_in_link }} </code><br><br>
+								<b>Judul berita => </b><br><code> {{ read_xml.sentence_in_title }} </code><br><br>
+								<b>Penulis berita => </b><br><code> {{ read_xml.sentence_in_author }} </code><br><br>
+								<b>Waktu Publish berita => </b><br><code> {{ read_xml.sentence_in_datetime }} </code><br><br>
+								<b>Isi berita => </b><br><code> {{ read_xml.sentence_in_news }} </code><br><br>
+							</p>
+							{% else %}
+							  <p>Not Found</p>
+							{% endif %}  
+                        </div>
+                    </div>
+                </div>
+            </section>
+            <hr class="m-0" />
+            <!-- Tokenisasi-->
+            <section class="resume-section" id="tokenize">
+                 <div class="resume-section-content">
+                    <h2 class="mb-5">Tokenisasi</h2>
+                    <div class="d-flex flex-column flex-md-row justify-content-between mb-5">
+                        <div class="flex-grow-1">
+                            <p>Selanjutnya akan dilakukan proses tokenisasi pada judul dan isi berita. 
+							Tokenisasi yaitu proses memecah dokumen menjadi serangkaian token atau unit – unit yang lebih kecil.
+							Proses Tokenisasi ini juga telah mencangkup case folding (mengubah setiap teks menjadi huruf kecil ) 
+							dan remove punctuation (menghilangkan tanda baca seperti titik, koma, garis penghubung, titik koma, dsb).
+							Berikut ini adalah hasil dari proses tokenisasi.
+							</p>
+							<br>
+							{% if tokenize %}
+								<code> {{ tokenize }} </code>
+							{% else %}
+							  <p>Not Found</p>
+							{% endif %}  
+                        </div>
+                    </div>
+                </div>
+            </section>
+            <hr class="m-0" />
+            <!-- Stopword Removal-->
+            <section class="resume-section" id="stopwordRemoval">
+                 <div class="resume-section-content">
+                    <h2 class="mb-5">Stopword Removal</h2>
+                    <div class="d-flex flex-column flex-md-row justify-content-between mb-5">
+                        <div class="flex-grow-1">
+                            <p>Token yang diperoleh dari proses tokenisasi akan difilter, yaitu dengan menghapus stopword.
+							Daftar stopword yang digunakan adalah 
+							<a href="https://github.com/masdevid/ID-Stopwords/blob/master/id.stopwords.02.01.2016.txt">daftar stopword 
+							kata bahasa Indonesia</a>. Berikut ini adalah hasil dari proses Stopwords Removal.
+							</p>
+							<br>
+							{% if stopword_removal %}
+								<code> {{ stopword_removal }} </code>
+							{% else %}
+							  <p>Not Found</p>
+							{% endif %}  
+                        </div>
+                    </div>
+                </div>
+            </section>
+            <hr class="m-0" />
+            <!-- Number Removal-->
+            <section class="resume-section" id="numberRemoval">
+               <div class="resume-section-content">
+                    <h2 class="mb-5">Number Removal</h2>
+                    <div class="d-flex flex-column flex-md-row justify-content-between mb-5">
+                        <div class="flex-grow-1">
+                            <p>Hasil dari proses Stopword Removal akan difilter kembali, yaitu dengan menghilangkan karakter angka.
+							 Tahap ini merupakan tahapan yang umum dilakukan untuk analisis sentimen karena angka tidak mengandung informasi yang sentimen. 
+							 Berikut ini adalah hasil dari proses Number Removal.
+							</p>
+							<br>
+							{% if number_removal %}
+								<code> {{ number_removal }} </code>
+							{% else %}
+							  <p>Not Found</p>
+							{% endif %}  
+                        </div>
+                    </div>
+                </div>
+            </section>
+            <hr class="m-0" />
+            <!-- Stemming-->
+            <section class="resume-section" id="stemming">
+                <div class="resume-section-content">
+                    <h2 class="mb-5">Stemming</h2>
+                    <div class="d-flex flex-column flex-md-row justify-content-between mb-5">
+                        <div class="flex-grow-1">
+                            <p>Hasil dari proses Number Removal akan diubah dari kata yang berimbuhan ke dalam bentuk dasarnya.
+							 Dalam proses Stemming, setiap imbuhan kata akan dihilangkan seperti awalan kata (prefixes), 
+							 sisipan kata (infixes), akhiran kata (suffixes) dan awalan dan akhiran kata pada kata turunan (confixes). 
+							 Stemming dilakukan dengan bantuan library Sastrawi. Berikut ini adalah hasil dari proses Stemming.
+							</p>
+							<br>
+							{% if stemming %}
+								<code> {{ stemming }} </code>
+							{% else %}
+							  <p>Not Found</p>
+							{% endif %}  
+                        </div>
+                    </div>
+                </div>
+            </section>
+            <hr class="m-0" />
+            <!-- Proximity Indexing-->
+            <section class="resume-section" id="proximityIndexing">
+                <div class="resume-section-content">
+                    <h2 class="mb-5">Proximity Indexing</h2>
+                    <div class="d-flex flex-column flex-md-row justify-content-between mb-5">
+                        <div class="flex-grow-1">
+                            <p>Tahap akhirnya adalah proses indexing menggunakan metode Proximity Indexing.
+							Metode Proximity Indexing mempresentasikan term (kata yang telah melakukan pra-pemrosesan 
+							mulai tokenisasi hingga stemming) sebagai vektor, dimana akan dihasilkan ID dokumen 
+							dalam bentuk index untuk masing-masing term beserta posisi term dalam dokumen tersebut.
+							Hasil dari Proximity Indexing adalah sebagai berikut.
+							</p>
+							<br>
+							{% if indexing %}
+								<code> {{ indexing }} </code>
+							{% else %}
+							  <p>Not Found</p>
+							{% endif %}  
+                        </div>
+                    </div>
+                </div>
+            </section>
+        </div>
+        <!-- Bootstrap core JS-->
+        <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.5.1/jquery.min.js"></script>
+        <script src="https://stackpath.bootstrapcdn.com/bootstrap/4.5.0/js/bootstrap.bundle.min.js"></script>
+        <!-- Third party plugin JS-->
+        <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery-easing/1.4.1/jquery.easing.min.js"></script>
+        <!-- Core theme JS-->
+        <script src="../static/simulator_design/js/scripts.js"></script>
+    </body>
+</html>