Commit 4393eee8 by Sartika Aritonang

Upload New File

parent c802923d
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="utf-8" />
<meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no" />
<meta name="description" content="" />
<meta name="author" content="" />
<title>Tahapan Proximity Indexing Data Corona</title>
<!-- Font Awesome icons (free version)-->
<script src="https://use.fontawesome.com/releases/v5.13.0/js/all.js" crossorigin="anonymous"></script>
<!-- Google fonts-->
<link href="https://fonts.googleapis.com/css?family=Saira+Extra+Condensed:500,700" rel="stylesheet" type="text/css" />
<link href="https://fonts.googleapis.com/css?family=Muli:400,400i,800,800i" rel="stylesheet" type="text/css" />
<!-- Core theme CSS (includes Bootstrap)-->
<link href="../static/simulator_design/css/styles.css" rel="stylesheet" />
</head>
<body id="page-top">
<!-- Navigation-->
<nav class="navbar navbar-expand-lg navbar-dark bg-primary fixed-top" id="sideNav">
<a class="navbar-brand js-scroll-trigger" href="#page-top">
<span class="d-none d-lg-block"><img class="img-fluid img-profile rounded-circle mx-auto mb-2" src="../static/simulator_design/assets/img/logo_del.jpg" alt="" /></span></a>
<button class="navbar-toggler" type="button" data-toggle="collapse" data-target="#navbarSupportedContent" aria-controls="navbarSupportedContent" aria-expanded="false" aria-label="Toggle navigation"><span class="navbar-toggler-icon"></span></button>
<div class="collapse navbar-collapse" id="navbarSupportedContent">
<ul class="navbar-nav">
<li class="nav-item"><a class="nav-link js-scroll-trigger" href="#introduction">Tahapan Proximity Indexing</a></li>
<li class="nav-item"><a class="nav-link js-scroll-trigger" href="#readXML">Baca Data XML</a></li>
<li class="nav-item"><a class="nav-link js-scroll-trigger" href="#tokenize">Tokenisasi</a></li>
<li class="nav-item"><a class="nav-link js-scroll-trigger" href="#stopwordRemoval">Stopword Removal</a></li>
<li class="nav-item"><a class="nav-link js-scroll-trigger" href="#numberRemoval">Number Removal</a></li>
<li class="nav-item"><a class="nav-link js-scroll-trigger" href="#stemming">Stemming</a></li>
<li class="nav-item"><a class="nav-link js-scroll-trigger" href="#proximityIndexing">Proximity Indexing</a></li>
<br> <br><li class="nav-item"><a class="nav-link" href="/">Kembali ke Pencarian</a></li>
</ul>
</div>
</nav>
<!-- Page Content-->
<div class="container-fluid p-0">
<!-- Simulator Indexing -->
<section class="resume-section" id="introduction">
<div class="resume-section-content">
<h1 class="mb-0">Tahapan<br><span class="text-primary">Proximity Indexing</span></h1>
<br>
<p class="lead mb-5">
Proximity index adalah proses pengindeksan yang menyimpan kata – kata kedalam konversi bitmap yaitu disimpan dalam bentuk nomor dokumen
beserta posisinya dalam dokumen tersebut berdasarkan indeks ke dokumen. Gagasan utamanya adalah kedekatan term, yaitu ketika dua kata atau
lebih dari kueri yang diberikan dan kata-kata tersebut ditemukan dalam jarak yang sangat dekat (selisih posisi kata kedua dan kata pertama
adalah satu) di dalam dokumen, maka skor dokumen ini akan meningkat.
<br>
Adapun tahapan dalam membuat Proximity Indexing pada data yang berisi berita Corona ini, yaitu:
<br> 1. Membaca atau me-load data XML
<br> 2. Melakukan Tokenisasi
<br> 3. Melakukan Stopword Removal
<br> 4. Melakukan Number Removal
<br> 5. Melakukan Stemming
<br> 6. Melakukan Proximity Indexing
</p>
</div>
</section>
<hr class="m-0" />
<!-- Baca XML -->
<section class="resume-section" id="readXML">
<div class="resume-section-content">
<h2 class="mb-5">Baca Data XML</h2>
<div class="d-flex flex-column flex-md-row justify-content-between mb-5">
<div class="flex-grow-1">
<p>Koleksi dokumen diperoleh dengan cara scrapping
pada beberapa situs berita di Indonesia terkait COVID-19, seperti
<a href="https://www.kompas.com/"> Kompas.com</a>,
<a href="https://www.detik.com/">Detik.com<a>,
<a href="https://inipasti.com/">Inipasti.com<a>,
<a href="https://www.cnnindonesia.com/">CNN Indonesia<a>,
<a href="https://www.okezone.com/">Okezone.com<a>,
<a href="https://www.liputan6.com/">Liputan6.com<a>,
<a href="https://www.tribunnews.com/">Tribunnews.com<a>,
<a href="https://www.galamedianews.com/">Galamedia.com<a>,
<a href="https://www.antaranews.com/">Antaranews.com<a>. Berita yang dikumpulkan adalah
berita mengenai COVID-19, Sosial Distancing, PSBB dan Pandemi Corona. Hasil kumpulan
berita akan dimuat dalam file CSV dan kemudian di-convert menjadi file XML. Berikut adalah
hasil pembacaan data XML yang berisi berita Corona.
</p>
<br>
{% if read_xml %}
<p> <b>ID berita =></b><br> <code> {{ read_xml.id_in_news }} </code><br><br>
<b>Media berita => </b><br><code> {{ read_xml.sentence_in_source }} </code> <br><br>
<b>Link berita => </b><br><code> {{ read_xml.sentence_in_link }} </code><br><br>
<b>Judul berita => </b><br><code> {{ read_xml.sentence_in_title }} </code><br><br>
<b>Penulis berita => </b><br><code> {{ read_xml.sentence_in_author }} </code><br><br>
<b>Waktu Publish berita => </b><br><code> {{ read_xml.sentence_in_datetime }} </code><br><br>
<b>Isi berita => </b><br><code> {{ read_xml.sentence_in_news }} </code><br><br>
</p>
{% else %}
<p>Not Found</p>
{% endif %}
</div>
</div>
</div>
</section>
<hr class="m-0" />
<!-- Tokenisasi-->
<section class="resume-section" id="tokenize">
<div class="resume-section-content">
<h2 class="mb-5">Tokenisasi</h2>
<div class="d-flex flex-column flex-md-row justify-content-between mb-5">
<div class="flex-grow-1">
<p>Selanjutnya akan dilakukan proses tokenisasi pada judul dan isi berita.
Tokenisasi yaitu proses memecah dokumen menjadi serangkaian token atau unit – unit yang lebih kecil.
Proses Tokenisasi ini juga telah mencangkup case folding (mengubah setiap teks menjadi huruf kecil )
dan remove punctuation (menghilangkan tanda baca seperti titik, koma, garis penghubung, titik koma, dsb).
Berikut ini adalah hasil dari proses tokenisasi.
</p>
<br>
{% if tokenize %}
<code> {{ tokenize }} </code>
{% else %}
<p>Not Found</p>
{% endif %}
</div>
</div>
</div>
</section>
<hr class="m-0" />
<!-- Stopword Removal-->
<section class="resume-section" id="stopwordRemoval">
<div class="resume-section-content">
<h2 class="mb-5">Stopword Removal</h2>
<div class="d-flex flex-column flex-md-row justify-content-between mb-5">
<div class="flex-grow-1">
<p>Token yang diperoleh dari proses tokenisasi akan difilter, yaitu dengan menghapus stopword.
Daftar stopword yang digunakan adalah
<a href="https://github.com/masdevid/ID-Stopwords/blob/master/id.stopwords.02.01.2016.txt">daftar stopword
kata bahasa Indonesia</a>. Berikut ini adalah hasil dari proses Stopwords Removal.
</p>
<br>
{% if stopword_removal %}
<code> {{ stopword_removal }} </code>
{% else %}
<p>Not Found</p>
{% endif %}
</div>
</div>
</div>
</section>
<hr class="m-0" />
<!-- Number Removal-->
<section class="resume-section" id="numberRemoval">
<div class="resume-section-content">
<h2 class="mb-5">Number Removal</h2>
<div class="d-flex flex-column flex-md-row justify-content-between mb-5">
<div class="flex-grow-1">
<p>Hasil dari proses Stopword Removal akan difilter kembali, yaitu dengan menghilangkan karakter angka.
Tahap ini merupakan tahapan yang umum dilakukan untuk analisis sentimen karena angka tidak mengandung informasi yang sentimen.
Berikut ini adalah hasil dari proses Number Removal.
</p>
<br>
{% if number_removal %}
<code> {{ number_removal }} </code>
{% else %}
<p>Not Found</p>
{% endif %}
</div>
</div>
</div>
</section>
<hr class="m-0" />
<!-- Stemming-->
<section class="resume-section" id="stemming">
<div class="resume-section-content">
<h2 class="mb-5">Stemming</h2>
<div class="d-flex flex-column flex-md-row justify-content-between mb-5">
<div class="flex-grow-1">
<p>Hasil dari proses Number Removal akan diubah dari kata yang berimbuhan ke dalam bentuk dasarnya.
Dalam proses Stemming, setiap imbuhan kata akan dihilangkan seperti awalan kata (prefixes),
sisipan kata (infixes), akhiran kata (suffixes) dan awalan dan akhiran kata pada kata turunan (confixes).
Stemming dilakukan dengan bantuan library Sastrawi. Berikut ini adalah hasil dari proses Stemming.
</p>
<br>
{% if stemming %}
<code> {{ stemming }} </code>
{% else %}
<p>Not Found</p>
{% endif %}
</div>
</div>
</div>
</section>
<hr class="m-0" />
<!-- Proximity Indexing-->
<section class="resume-section" id="proximityIndexing">
<div class="resume-section-content">
<h2 class="mb-5">Proximity Indexing</h2>
<div class="d-flex flex-column flex-md-row justify-content-between mb-5">
<div class="flex-grow-1">
<p>Tahap akhirnya adalah proses indexing menggunakan metode Proximity Indexing.
Metode Proximity Indexing mempresentasikan term (kata yang telah melakukan pra-pemrosesan
mulai tokenisasi hingga stemming) sebagai vektor, dimana akan dihasilkan ID dokumen
dalam bentuk index untuk masing-masing term beserta posisi term dalam dokumen tersebut.
Hasil dari Proximity Indexing adalah sebagai berikut.
</p>
<br>
{% if indexing %}
<code> {{ indexing }} </code>
{% else %}
<p>Not Found</p>
{% endif %}
</div>
</div>
</div>
</section>
</div>
<!-- Bootstrap core JS-->
<script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.5.1/jquery.min.js"></script>
<script src="https://stackpath.bootstrapcdn.com/bootstrap/4.5.0/js/bootstrap.bundle.min.js"></script>
<!-- Third party plugin JS-->
<script src="https://cdnjs.cloudflare.com/ajax/libs/jquery-easing/1.4.1/jquery.easing.min.js"></script>
<!-- Core theme JS-->
<script src="../static/simulator_design/js/scripts.js"></script>
</body>
</html>
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment