Skip to content
Projects
Groups
Snippets
Help
This project
Loading...
Sign in / Register
Toggle navigation
N
news
Project
Overview
Details
Activity
Cycle Analytics
Repository
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
Issues
0
Issues
0
List
Board
Labels
Milestones
Merge Requests
0
Merge Requests
0
CI / CD
CI / CD
Pipelines
Jobs
Schedules
Charts
Wiki
Wiki
Snippets
Snippets
Members
Members
Collapse sidebar
Close sidebar
Activity
Graph
Charts
Create a new issue
Jobs
Commits
Issue Boards
Open sidebar
Sartika Aritonang
news
Commits
4393eee8
Commit
4393eee8
authored
May 28, 2020
by
Sartika Aritonang
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
Upload New File
parent
c802923d
Hide whitespace changes
Inline
Side-by-side
Showing
1 changed file
with
219 additions
and
0 deletions
+219
-0
simulator_data.html
project/template/simulator_data.html
+219
-0
No files found.
project/template/simulator_data.html
0 → 100644
View file @
4393eee8
<!DOCTYPE html>
<html
lang=
"en"
>
<head>
<meta
charset=
"utf-8"
/>
<meta
name=
"viewport"
content=
"width=device-width, initial-scale=1, shrink-to-fit=no"
/>
<meta
name=
"description"
content=
""
/>
<meta
name=
"author"
content=
""
/>
<title>
Tahapan Proximity Indexing Data Corona
</title>
<!-- Font Awesome icons (free version)-->
<script
src=
"https://use.fontawesome.com/releases/v5.13.0/js/all.js"
crossorigin=
"anonymous"
></script>
<!-- Google fonts-->
<link
href=
"https://fonts.googleapis.com/css?family=Saira+Extra+Condensed:500,700"
rel=
"stylesheet"
type=
"text/css"
/>
<link
href=
"https://fonts.googleapis.com/css?family=Muli:400,400i,800,800i"
rel=
"stylesheet"
type=
"text/css"
/>
<!-- Core theme CSS (includes Bootstrap)-->
<link
href=
"../static/simulator_design/css/styles.css"
rel=
"stylesheet"
/>
</head>
<body
id=
"page-top"
>
<!-- Navigation-->
<nav
class=
"navbar navbar-expand-lg navbar-dark bg-primary fixed-top"
id=
"sideNav"
>
<a
class=
"navbar-brand js-scroll-trigger"
href=
"#page-top"
>
<span
class=
"d-none d-lg-block"
><img
class=
"img-fluid img-profile rounded-circle mx-auto mb-2"
src=
"../static/simulator_design/assets/img/logo_del.jpg"
alt=
""
/></span></a>
<button
class=
"navbar-toggler"
type=
"button"
data-toggle=
"collapse"
data-target=
"#navbarSupportedContent"
aria-controls=
"navbarSupportedContent"
aria-expanded=
"false"
aria-label=
"Toggle navigation"
><span
class=
"navbar-toggler-icon"
></span></button>
<div
class=
"collapse navbar-collapse"
id=
"navbarSupportedContent"
>
<ul
class=
"navbar-nav"
>
<li
class=
"nav-item"
><a
class=
"nav-link js-scroll-trigger"
href=
"#introduction"
>
Tahapan Proximity Indexing
</a></li>
<li
class=
"nav-item"
><a
class=
"nav-link js-scroll-trigger"
href=
"#readXML"
>
Baca Data XML
</a></li>
<li
class=
"nav-item"
><a
class=
"nav-link js-scroll-trigger"
href=
"#tokenize"
>
Tokenisasi
</a></li>
<li
class=
"nav-item"
><a
class=
"nav-link js-scroll-trigger"
href=
"#stopwordRemoval"
>
Stopword Removal
</a></li>
<li
class=
"nav-item"
><a
class=
"nav-link js-scroll-trigger"
href=
"#numberRemoval"
>
Number Removal
</a></li>
<li
class=
"nav-item"
><a
class=
"nav-link js-scroll-trigger"
href=
"#stemming"
>
Stemming
</a></li>
<li
class=
"nav-item"
><a
class=
"nav-link js-scroll-trigger"
href=
"#proximityIndexing"
>
Proximity Indexing
</a></li>
<br>
<br><li
class=
"nav-item"
><a
class=
"nav-link"
href=
"/"
>
Kembali ke Pencarian
</a></li>
</ul>
</div>
</nav>
<!-- Page Content-->
<div
class=
"container-fluid p-0"
>
<!-- Simulator Indexing -->
<section
class=
"resume-section"
id=
"introduction"
>
<div
class=
"resume-section-content"
>
<h1
class=
"mb-0"
>
Tahapan
<br><span
class=
"text-primary"
>
Proximity Indexing
</span></h1>
<br>
<p
class=
"lead mb-5"
>
Proximity index adalah proses pengindeksan yang menyimpan kata – kata kedalam konversi bitmap yaitu disimpan dalam bentuk nomor dokumen
beserta posisinya dalam dokumen tersebut berdasarkan indeks ke dokumen. Gagasan utamanya adalah kedekatan term, yaitu ketika dua kata atau
lebih dari kueri yang diberikan dan kata-kata tersebut ditemukan dalam jarak yang sangat dekat (selisih posisi kata kedua dan kata pertama
adalah satu) di dalam dokumen, maka skor dokumen ini akan meningkat.
<br>
Adapun tahapan dalam membuat Proximity Indexing pada data yang berisi berita Corona ini, yaitu:
<br>
1. Membaca atau me-load data XML
<br>
2. Melakukan Tokenisasi
<br>
3. Melakukan Stopword Removal
<br>
4. Melakukan Number Removal
<br>
5. Melakukan Stemming
<br>
6. Melakukan Proximity Indexing
</p>
</div>
</section>
<hr
class=
"m-0"
/>
<!-- Baca XML -->
<section
class=
"resume-section"
id=
"readXML"
>
<div
class=
"resume-section-content"
>
<h2
class=
"mb-5"
>
Baca Data XML
</h2>
<div
class=
"d-flex flex-column flex-md-row justify-content-between mb-5"
>
<div
class=
"flex-grow-1"
>
<p>
Koleksi dokumen diperoleh dengan cara scrapping
pada beberapa situs berita di Indonesia terkait COVID-19, seperti
<a
href=
"https://www.kompas.com/"
>
Kompas.com
</a>
,
<a
href=
"https://www.detik.com/"
>
Detik.com
<a>
,
<a
href=
"https://inipasti.com/"
>
Inipasti.com
<a>
,
<a
href=
"https://www.cnnindonesia.com/"
>
CNN Indonesia
<a>
,
<a
href=
"https://www.okezone.com/"
>
Okezone.com
<a>
,
<a
href=
"https://www.liputan6.com/"
>
Liputan6.com
<a>
,
<a
href=
"https://www.tribunnews.com/"
>
Tribunnews.com
<a>
,
<a
href=
"https://www.galamedianews.com/"
>
Galamedia.com
<a>
,
<a
href=
"https://www.antaranews.com/"
>
Antaranews.com
<a>
. Berita yang dikumpulkan adalah
berita mengenai COVID-19, Sosial Distancing, PSBB dan Pandemi Corona. Hasil kumpulan
berita akan dimuat dalam file CSV dan kemudian di-convert menjadi file XML. Berikut adalah
hasil pembacaan data XML yang berisi berita Corona.
</p>
<br>
{% if read_xml %}
<p>
<b>
ID berita =>
</b><br>
<code>
{{ read_xml.id_in_news }}
</code><br><br>
<b>
Media berita =>
</b><br><code>
{{ read_xml.sentence_in_source }}
</code>
<br><br>
<b>
Link berita =>
</b><br><code>
{{ read_xml.sentence_in_link }}
</code><br><br>
<b>
Judul berita =>
</b><br><code>
{{ read_xml.sentence_in_title }}
</code><br><br>
<b>
Penulis berita =>
</b><br><code>
{{ read_xml.sentence_in_author }}
</code><br><br>
<b>
Waktu Publish berita =>
</b><br><code>
{{ read_xml.sentence_in_datetime }}
</code><br><br>
<b>
Isi berita =>
</b><br><code>
{{ read_xml.sentence_in_news }}
</code><br><br>
</p>
{% else %}
<p>
Not Found
</p>
{% endif %}
</div>
</div>
</div>
</section>
<hr
class=
"m-0"
/>
<!-- Tokenisasi-->
<section
class=
"resume-section"
id=
"tokenize"
>
<div
class=
"resume-section-content"
>
<h2
class=
"mb-5"
>
Tokenisasi
</h2>
<div
class=
"d-flex flex-column flex-md-row justify-content-between mb-5"
>
<div
class=
"flex-grow-1"
>
<p>
Selanjutnya akan dilakukan proses tokenisasi pada judul dan isi berita.
Tokenisasi yaitu proses memecah dokumen menjadi serangkaian token atau unit – unit yang lebih kecil.
Proses Tokenisasi ini juga telah mencangkup case folding (mengubah setiap teks menjadi huruf kecil )
dan remove punctuation (menghilangkan tanda baca seperti titik, koma, garis penghubung, titik koma, dsb).
Berikut ini adalah hasil dari proses tokenisasi.
</p>
<br>
{% if tokenize %}
<code>
{{ tokenize }}
</code>
{% else %}
<p>
Not Found
</p>
{% endif %}
</div>
</div>
</div>
</section>
<hr
class=
"m-0"
/>
<!-- Stopword Removal-->
<section
class=
"resume-section"
id=
"stopwordRemoval"
>
<div
class=
"resume-section-content"
>
<h2
class=
"mb-5"
>
Stopword Removal
</h2>
<div
class=
"d-flex flex-column flex-md-row justify-content-between mb-5"
>
<div
class=
"flex-grow-1"
>
<p>
Token yang diperoleh dari proses tokenisasi akan difilter, yaitu dengan menghapus stopword.
Daftar stopword yang digunakan adalah
<a
href=
"https://github.com/masdevid/ID-Stopwords/blob/master/id.stopwords.02.01.2016.txt"
>
daftar stopword
kata bahasa Indonesia
</a>
. Berikut ini adalah hasil dari proses Stopwords Removal.
</p>
<br>
{% if stopword_removal %}
<code>
{{ stopword_removal }}
</code>
{% else %}
<p>
Not Found
</p>
{% endif %}
</div>
</div>
</div>
</section>
<hr
class=
"m-0"
/>
<!-- Number Removal-->
<section
class=
"resume-section"
id=
"numberRemoval"
>
<div
class=
"resume-section-content"
>
<h2
class=
"mb-5"
>
Number Removal
</h2>
<div
class=
"d-flex flex-column flex-md-row justify-content-between mb-5"
>
<div
class=
"flex-grow-1"
>
<p>
Hasil dari proses Stopword Removal akan difilter kembali, yaitu dengan menghilangkan karakter angka.
Tahap ini merupakan tahapan yang umum dilakukan untuk analisis sentimen karena angka tidak mengandung informasi yang sentimen.
Berikut ini adalah hasil dari proses Number Removal.
</p>
<br>
{% if number_removal %}
<code>
{{ number_removal }}
</code>
{% else %}
<p>
Not Found
</p>
{% endif %}
</div>
</div>
</div>
</section>
<hr
class=
"m-0"
/>
<!-- Stemming-->
<section
class=
"resume-section"
id=
"stemming"
>
<div
class=
"resume-section-content"
>
<h2
class=
"mb-5"
>
Stemming
</h2>
<div
class=
"d-flex flex-column flex-md-row justify-content-between mb-5"
>
<div
class=
"flex-grow-1"
>
<p>
Hasil dari proses Number Removal akan diubah dari kata yang berimbuhan ke dalam bentuk dasarnya.
Dalam proses Stemming, setiap imbuhan kata akan dihilangkan seperti awalan kata (prefixes),
sisipan kata (infixes), akhiran kata (suffixes) dan awalan dan akhiran kata pada kata turunan (confixes).
Stemming dilakukan dengan bantuan library Sastrawi. Berikut ini adalah hasil dari proses Stemming.
</p>
<br>
{% if stemming %}
<code>
{{ stemming }}
</code>
{% else %}
<p>
Not Found
</p>
{% endif %}
</div>
</div>
</div>
</section>
<hr
class=
"m-0"
/>
<!-- Proximity Indexing-->
<section
class=
"resume-section"
id=
"proximityIndexing"
>
<div
class=
"resume-section-content"
>
<h2
class=
"mb-5"
>
Proximity Indexing
</h2>
<div
class=
"d-flex flex-column flex-md-row justify-content-between mb-5"
>
<div
class=
"flex-grow-1"
>
<p>
Tahap akhirnya adalah proses indexing menggunakan metode Proximity Indexing.
Metode Proximity Indexing mempresentasikan term (kata yang telah melakukan pra-pemrosesan
mulai tokenisasi hingga stemming) sebagai vektor, dimana akan dihasilkan ID dokumen
dalam bentuk index untuk masing-masing term beserta posisi term dalam dokumen tersebut.
Hasil dari Proximity Indexing adalah sebagai berikut.
</p>
<br>
{% if indexing %}
<code>
{{ indexing }}
</code>
{% else %}
<p>
Not Found
</p>
{% endif %}
</div>
</div>
</div>
</section>
</div>
<!-- Bootstrap core JS-->
<script
src=
"https://cdnjs.cloudflare.com/ajax/libs/jquery/3.5.1/jquery.min.js"
></script>
<script
src=
"https://stackpath.bootstrapcdn.com/bootstrap/4.5.0/js/bootstrap.bundle.min.js"
></script>
<!-- Third party plugin JS-->
<script
src=
"https://cdnjs.cloudflare.com/ajax/libs/jquery-easing/1.4.1/jquery.easing.min.js"
></script>
<!-- Core theme JS-->
<script
src=
"../static/simulator_design/js/scripts.js"
></script>
</body>
</html>
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment