Recovery File di Server dengan Wayback Machine

Buat Saya terkadang harus ada masalah dulu biar nemu pengalaman baru, Misalnya dalam kesempatan kali ini yaitu, melakukan proses recovery data di server. Bagaimana tidak bingung, komputer server sudah tidak bisa digunakan sedangkan yang hilang adalah data penting dari website bloggerngalam.

Awalnya Saya mencoba untuk mencari archive dari cache Google, namun belum beruntung. Karena menurut Google, snapshot yang ada sudah terhapus. Saya kira wajarlah servernya sudah rusak hampir setahun. Lewat sebuah diskusi kecil dengan mas yudha, akhirnya pencarian dilanjutkan pada web archive. Dan eureka! Hampir 85% snapshot bisa ditemukan pada web ini. Berhenti sampai disini? Belum!

Mengenal lebih dekat kembali web archive, website ini layaknya sebuah perpustakaan online dari internet. Yang mana tujuannya adalah menawarkan kepada setiap pengguna internet catatan dari masa lampau(keterangan secara detail bisa Anda akses pada about page web archive). Nyatanya website ini  termasuk salah satu penyedia layanan open data. Selain itu website ini menyediakan API yang mudah diakses dan ini adalah salah satu poin penting dalam proses pencarian ini, karena sangat tidak mungkin. Maksud Saya mungkin tapi sulit dilakukan untuk melakukan proses restore secara manual yaitu copy-paste dari web archive ke dalam file berbentuk html ataupun database. Berangkat dari masalah ini saya menemukan sebuah script sederhana yaitu wayback_machine_downloader. Saya menggunakan script tersebut untuk melakukan scrapping seluruh file bloggerngalam di web archive, bukan hanya teks dari kontennya saja.

Wayback Machine Downloader

Penggunaan secara detail bisa Anda ikuti pada link github di headline, saya sebenarnya tidak malas tapi kemudian mengulang lagi dengan bahasa yang berbeda kiranya kurang efektif saja 😀 . Keterangan yang belum ada mungkin Anda harus melakukan install ruby, pada linux (saya menggunakan ubuntu) untuk melakukan instalasi ruby ketikan

sudo apt-get install ruby-dev

Maka secara otomatis ruby akan terinstall pada perangkat milik Anda, lalu barulah lakukan langkah-langkah sesuai pada link tadi. Begitupun cara penggunaan dan hasil dari crawl bisa Anda lihat pada laman tersebut.

06Hasil dari crawl tersebut tidak lain adalah folder dan file hasil generate dari snapshot. Biasanya berupa file html, php, js maupun css. Seperti yang sempat saya jelaskan pada posting open data, bahwa untuk aktifitas scrapping, data hasilnya bisa dikatakan lumayan random. Begitupun hasil dengan penggunaan script ini. Jadi, jangan harap Anda bisa dengan instan melakukan upload pada server. Anda harus melakukan pemilihan dan pemilahan data dari hasil scrapping tersebut.  14

Proses pemilihan dan pemilahan sejujurnya saya lakukan secara manual, hingga kemudian saya tentukan bagian yang dianggap butuh dan tidak. Cukup menyulitkan memang tapi ketika mengautomasinya hasilnya belum maksimal. Ketika telah selesai, mengupload file tersebut pada hosting adalah tahap selanjutnya yang Saya lakukan. Proses ini tergantung jasa hosting dan koneksi internet milik Anda. Jika kecepatan sedang tidak baik maka proses akan memakan cukup waktu.

Ketika file sudah terupload di server, Untuk mengaksesnya Anda harus memperhatikan URL dan permission pada server. Pada bagian ini saya tidak menjelaskan detail tentang permission, jelasnya saya melakukan set permission file menjadi 755. Sedang untuk URL biasanya didapatkan dari nama folder, misalkan directory/2013/01/29/nama-file.html. ‘directory/2013/01/29‘ adalah directory tempat file ‘nama-file.html‘ disimpan

Sekali lagi saya kemudian melakukan reminder, “melakukan manual itu mungkin tapi sulit dilakukan karena butuh waktu dan tenaga” :). Jadi, Saya mencoba bagaimana mendapatkan nama directory secara otomatis. Linux yang saya gunakan sangat membantu dalam menjawab solusi ini dengan terminal.

file */*/* >> ../files.txt

command tersebut adalah jawabanya. Penjelasan singkat untuk command tersebut adalah

  • “file” menunjukan bahwa yang ditunjuk adalah file. (Sejujurnya bingung njelasin perintah ini)
  • “*/*/*” menunjukan jumlah directory, semakin dalam maka jumlah nya semakin banyak. maksudnya adalah seperti ini 2013/01/29/ , jika Anda menghendaki melakukan akses lebih dalam lagi silahkan tambahkan ‘/*’ lagi
  • “../files.txt” hasil disimpan dalam file.txt

Berikut adalah hasil dari command tersebut.

29baiklah, sampai disini adalah melanjutkannya menjadi laman yang bisa dengan mudah diakses publik. Menulis tag html secara manual memang bisa dilakukan, tapi kemudian ratusan baris membuat saya mengurungkan niat melakukannya. Lagi-lagi ada salah satu software yang membantu melakukannya yaitu sublime text, editor sehari-hari. Lewat IDE ini, regex bisa dilakukan pada fungsi find & replace (kombinasi tombol ctrl+g). Dan inilah yang kemudian saya lakukan  50

Gampang-gampang susah memang, tapi tidak terlalu banyak menguras waktu untuk melakukan manualisasi. Beberapa improvisasi pun juga saya lakukan, walhasil jadilah laman arsip bloggerngalam namun, saya sesungguhnya sedih. Karena bloggerngalam.com bisa diarchive tapi elfarqy.net yang merupakan blog pribadi milik Saya sendiri nyatanya tidak bisa direstore. Ah sudahlah..

Barangkali jika Anda pernah punya blog tapi sekarang hilang dan belum tersempat backup coba dulu lewat web archive tadi. Atau mau saya restore-kan? 😀

One Reply to “Recovery File di Server dengan Wayback Machine”

Leave a Reply

Your email address will not be published. Required fields are marked *