Ads 468x60px

Monday, 13 October 2014

Apa Itu Bigdata?

Pembicaraan mengenai Bigdata dalam entri saya kali ini adalah hasil carian dan kutipan dari artikel yang pernah keluar di media cetak mahupun media elektronik. 
Apa itu Bigdata?

Sebelum membicarakan Bigdata dengan lebih lanjut, ada baiknya kita melihat sedikit penjelasan terminologi Bigdata yang diambil dari wikipedia,
Big data is a blanket term for any collection of data sets so large and complex that it becomes difficult to process using on-hand data management tools or traditional data processing applications.

The challenges include capture, curation, storage, search, sharing, transfer, analysis and visualization. The trend to larger data sets is due to the additional information derivable from analysis of a single large set of related data, as compared to separate smaller sets with the same total amount of data, allowing correlations to be found to “spot business trends, prevent diseases, combat crime and so on.

Bigdata merupakan satu  istilah umum untuk sebarang koleksi set-set data yang begitu besar dan kompleks yang begitu sukar untuk diproses menggunakan alat pengurusan data yang sedia ada atau aplikasi pemprosesan data tradisional

Apakah semua data yang besar dapat disebut sebagai bigdata ? Bigdata memiliki 3 ciri utama iaitu :

1. Volume
Volume data yang besar pada pada bigdata ini meningkat seiring dengan berkembangnya teknologi internet. Jutaan orang memproduksi data video yang ada di youtube, status di facebook, foto di instagram dan lain-lainnya. Banyaknya data yang diproduksi telah menghasilkan begitu besar volume data yang tersimpan secara format digital di internet.

2. Velocity
Volume data yang banyak tersebut bertambah dengan kecepatan yang begitu cepat sehingga sukar bagi kita untuk mengelola hal tersebut.

3. Variety
Data yang begitu banyak dan cepat tersebut memiliki jenis yang pelbagai. Ada teks, gambar, video, foto, animasi, dan lebih banyak lagi jenis data yang lain.


Bigdata bukan hanya membicarakan masalah ukuran, namun juga meliputi kelajuan pertumbuhan data serta variasi data. Itu sebabnya dikenal istilah “Volume”, “Velocity”, and “Variety” sebagai ciri-ciri Bigdata.

Jika permasalahan data hanya terhad pada ukuran, maka teknologi database ketika ini masih mampu untuk menangani data berjumlah sangat besar tersebut. Namun ketika data tumbuh sangat cepat disertai dengan jenis yang semakin beragam maka teknologi sekarang akan menemui banyak keterbatasan untuk memproses data-data tersebut.

Ketika sekumpulan data dimasukan ke dalam database, setidak-tidaknya pembangun (developer) harus menentukan struktur data tersebut dalam database. Format data input harus ditentukan atau diketahui sebelumnya. Apa yang akan terjadi semasa implementasi dan operasional berjalan ternyata ada data dalam bentuk lain juga ingin dimasukan ke dalam database? Data tersebut harus melalui proses normalisasi, format data harus disesuaikan terlebih dahulu dengan format yang telah didefinisikan oleh database barulah kemudian data boleh dimasukkan ke dalam database. Sebesar apapun jumlah data yang akan dimasukan asalkan format datanya sesuai maka akan dapat ditangani oleh teknologi database yang digunakan. Data bukan hanya untuk disimpan dalam database, namun juga untuk diproses serta ditampilkan kembali. Apabila format data telah sesuai dengan design database awal, memproses dan menampilkan data adalah hal yang mudah. Apalagi jika didukung dengan hardware yang selayaknya.

Seiring dengan perkembangan dunia digital, data yang perlu untuk disimpan ke dalam database semakin besar. Data tersebut boleh meningkat dalam hitungan saat, dan yang lebih parah adalah bentuk data tersebut semakin beragam. Kemungkinan terjadi data-data tersebut memiliki format video, gambar, logs, binary, trace logs (.pcap), dsb. Ketika data-data tersebut meningkat (growth) dan ingin disimpan dalam database sehingga dapat diproses oleh aplikasi maka diperlukan suatu pendekatan baru untuk menyimpan data-data tersebut serta memprosesnya dalam waktu singkat. Kita tidak perlu membuat definisi struktur terlebih dahulu untuk menyimpan data tersebut sehingga apapun bentuk datanya maka tinggal ‘lempar’ saja ke dalam media penyimpanan / database, apabila diperlukan maka kita boleh memproses data apapun dalam media penyimpanan tersebut untuk mendapatkan hasil pemrosesan dalam waktu singkat. Ingat, dalam waktu singkat. Jika dengan teknologi database sekarang ini untuk mendapatkan hasil dalam waktu singkat sangat memungkinkan disebabkan adanya struktur data yang jelas, maka bagaimana caranya apabila sekumpulan data tersebut benar-benar mentah?

Hadoop & Bigdata Market Segments

Bigdata adalah konsep, implementasi dari suatu konsep tentunya mungkin beragam. Mungkin Hadoop adalah implementasi core bigdata yang paling popular pada saat ini, namun bukan bererti Hadoop adalah satu-satunya. Vendor seperti Microsoft dan LexisNexis misalnya, masing-masing memiliki project dalam kerangka Bigdata: Dryad dan HPCC, walaupun pada akhirnya project Dryad tidak diteruskan lagi dan Microsoft fokus pada Hadoop.

Hadoop merupakan satu projek sumber terbuka (opensource) di bawah Apache. Silakan baca buku “Hadoop — The Definitive Guide” untuk mengetahui lebih lanjut tentang sejarah Hadoop. Hadoop merupakan implementasi "opensource project" yang dapat memecahkan 3 karakteristik masalah pada Bigdata iaitu Volume, Velocity, dan Variety.

Seperti layaknya kernel pada sistem operasi maka Hadoop yang terdiri dari 2 komponen utama: HDFS (Hadoop Distributed Filesystem) dan MapReduce, memerlukan suatu ekosistem untuk dapat memanfaatkan implementasi Hadoop secara maksima. Jelasnya, ekosistem tersebut berfungsi sebagai add-on tambahan bagi Hadoop, misalnya: Hive. Hive memungkinkan seseorang mengekstrak data dari Hadoop menggunakan syntax seperti SQL. Hive akan mengkompil SQL language tersebut ke dalam MapReduce untuk mengakses data di dalam Hadoop. Dengan adanya Hive, maka seorang pakar database tidak perlu belajar Java dan membuat aplikasi MapReduce untuk dapat mengakses serta memproses data dari Hadoop. Contoh lain projek dalam ekosistem Hadoop adalah Pig, HBase, Mahout, dan sebagainya.

Keperluan Bigdata yang semakin besar membuka peluang baru bagi masyarakat IT untuk memasuki pasaran tersebut, mulai dari membuat implementasi core Bigdata alternatif seperti yang dilakukan oleh LexisNexis, membuat distribusi Hadoop-stack seperti yang dilakukan oleh Cloudera, MapR, ataupun hortonworks, hingga aplikasi yang bermain dalam kerangka analisis dan visualisasi seperti Karmasphere.

Jeff Kelly membuat presentasi segmentasi Bigdata market yang cukup menarik melalui rajah berikut:
Segmentasi di atas menunjukan peluang besar bagi ragam startup untuk masuk ke dalam pasaran Bigdata.
Malah, International Data Corporation (IDC) menjangkakan bahawa pasaran Bigdata akan mencapai USD16.1 billion pada tahun 2014, tumbuh 6 kali lebih cepat jika dibandingkan dengan rata-rata pasaran IT. Jumlah ini termasuk infrastruktur (server, storage, dan lain-lain), servis, dan software. Saya belum melakukan eksplorasi lebih lanjut mengenai pasaran Bigdata di Asia khususnya di Malaysia, namun jika melihat keperluan Bigdata di Amerika Syarikat (US), maka tidak salah apabila muncul istilah “Bigdata is the new H1B Visa”. Tidak percaya? Cuba lihat pencarian pekerjaan ini (Hadoop Developer) dan ini (Hadoop System Administrator) di Linkedin, itu baru sebahagian kecil saja dan baru mengenai hadoop developer serta system administrator namun sudah menunjukan betapa besarnya pasaran Bigdata di US.

Cepat atau lambat keperluan Bigdata akan masuk ke pasaran Asia, dan tentunya Malaysia akan terkena tempiasnya memandangkan kandungan maklumat yang pantas berkembang sama ada melalui internet, aplikasi telefon pintar dan tablet. 

Seiring perkembangan zaman, pemilik perniagaan (business players)  tidak lagi sekadar memerlukan aplikasi front-end seperti website ataupun mobile apps, bahkan mereka akan memerlukan suatu teknologi yang dapat membantu mereka memprediksi serta menentukan arah kebijakan bisnes (business intelligence) dengan cepat, bukan lagi berdasarkan pengalaman ataupun intuisi, namun berdasarkan acuan ketepatan data (data accuracy) yang diambil dari sekumpulan data terstruktur mahupun semi-terstruktur.

Sumber:

1. www.wikipedia.org
2. blogdetik.com

0 comments:

Post a Comment