"Mencuri" Artikel Website Menggunakan Teknik Web Scrape

BANDUNG, FOKUSJABAR.COM Istilah Web Scrape mungkin sudah tidak asing lagi didalam dunia Development, Istilah ini biasa disebut web harvesting atau web data extraction mengekstrack seluruh isi data dari sebuah page website. Hal ini biasanya dilakukan

BANDUNG, FOKUSJABAR.COM: Istilah Web Scrape  mungkin sudah tidak asing lagi didalam dunia Development, Istilah ini biasa disebut  web harvesting atau web data extraction mengekstrack seluruh isi data dari sebuah page website. Hal ini biasanya dilakukan oleh para developer sebagai pengumpulan data/informasi yang nanti nya dijadikan sebagai data dummy, atau membuat aplikasi rss. Contoh sederhana jika kita meng-click kanan , kemudian view page source, pada sebuah halaman website, akan muncul kode-kode (tag HTML, javascript, dll) dan bagian itu lah yang akan kita tarik datanya, untuk melakukannya kita menggunakan teknik Parsing/Parse HTML (Parse html adalah suatu teknik untuk memisahkan suatu teks dari tag2 code-code html pada halaman website). Ilustrasi sederhananya seperti berikut : [caption id="attachment_170956" align="alignnone" width="1183"] Cara Kerja Web Scrape (Foto: Web)[/caption] Sekarang, kita coba membuat 1 buah scrapper dengan menggunakan frameworks CodeIgniter, yang kita butuhkan adalah : Framework CodeIgniter Database Server MySQL Command Prompt Pertama, kita buat database dan table nya terlebih dahulu seperti berikut : Kemudian, kita download Frameworks dan lakukan konfigurasi database dan baseUrl, setelah itu buat 1 buah file, beri nama cli.php dan simpan sejajar dengan folder root, lalu isi dengan script berikut : Kemudian buat 1 buah Controller (scrap.php), isi dengan script berikut : setelah semua dibuat, buka command prompt dan lakukan perintah php cli.php scrap/thisPage jika berhasil, tampilan command prompt akan muncul seperti gambar dibawah : [caption id="attachment_170958" align="aligncenter" width="600"] Hasil Pengambilan Data (Foto: Suhendra)[/caption] Scrapper biasanya dilakukan atau dieksekusi melalui cronjob karena hal ini merupakan rutinitas yang dapat di otomasi. Melakukan Scrap dengan teknik parser Dom ini memang masih terdapat kekurangan, karena kita harus mengetahui struktur DOM HTML pada saat akan melakukan scrapping, namun setidaknya ini akan menghemat waktu untuk menulis. Baca juga: Menjadi Penulis Online Untuk SEO Tips Blogging: Cintailah Menulis Happy Coding :) Source URL : //pastebin.com/jmLiDe5V (Database) //pastebin.com/niAP4Ybx (CLI.php) //pastebin.com/pHukj8C7 (Controllers) GitHub : https://github.com/cuheguevara/webscrapper Library : //simplehtmldom.sourceforge.net/ (Suhendra)

TAMBAHKAN KOMENTAR
BERITA BERIKUTNYA