Pembicaraan mengenai Bigdata dalam entri saya kali ini adalah hasil
carian dan kutipan dari artikel yang pernah keluar di media cetak
mahupun media elektronik.
Apa itu Bigdata?
Sebelum membicarakan Bigdata dengan lebih lanjut, ada baiknya kita melihat sedikit
penjelasan terminologi Bigdata yang diambil dari
wikipedia,
Big data is a blanket term for any collection of data sets
so large and complex that it becomes difficult to process using on-hand
data management tools or traditional data processing applications.
The challenges include capture, curation, storage,
search, sharing, transfer, analysis and visualization. The trend to
larger data sets is due to the additional information derivable from
analysis of a single large set of related data, as compared to separate
smaller sets with the same total amount of data, allowing correlations
to be found to “spot business trends, prevent diseases, combat crime and
so on.
Bigdata merupakan satu istilah umum untuk sebarang koleksi set-set data yang begitu besar dan kompleks yang begitu sukar untuk diproses menggunakan alat pengurusan data yang sedia ada atau aplikasi pemprosesan data tradisional
Apakah semua data yang besar dapat disebut sebagai bigdata ? Bigdata memiliki 3 ciri utama iaitu :
1. Volume
Volume data yang besar pada pada bigdata ini
meningkat
seiring dengan berkembangnya teknologi internet. Jutaan orang
memproduksi data video yang ada di youtube, status di facebook, foto di
instagram dan lain-lainnya. Banyaknya data yang diproduksi telah menghasilkan begitu besar
volume data yang tersimpan secara format digital di internet.
2. Velocity
Volume data yang banyak tersebut bertambah dengan
kecepatan yang begitu
cepat sehingga sukar bagi kita untuk mengelola hal tersebut.
3. Variety
Data yang begitu banyak dan cepat tersebut
memiliki jenis yang pelbagai. Ada teks, gambar, video, foto, animasi, dan lebih banyak
lagi jenis data yang lain.
Bigdata bukan hanya membicarakan masalah ukuran,
namun juga meliputi kelajuan pertumbuhan data serta variasi data. Itu sebabnya
dikenal istilah “Volume”, “Velocity”, and “Variety” sebagai ciri-ciri Bigdata.
Jika
permasalahan data hanya terhad pada ukuran, maka teknologi database ketika ini
masih mampu untuk menangani data berjumlah sangat besar tersebut.
Namun ketika data tumbuh sangat cepat disertai dengan jenis yang semakin
beragam maka teknologi sekarang akan menemui banyak keterbatasan untuk
memproses data-data tersebut.
Ketika sekumpulan data dimasukan ke dalam database, setidak-tidaknya pembangun (developer) harus
menentukan struktur data tersebut dalam database. Format data input
harus ditentukan atau diketahui sebelumnya. Apa yang akan terjadi
semasa implementasi dan operasional berjalan ternyata ada
data dalam bentuk lain juga ingin dimasukan ke dalam database? Data
tersebut harus melalui proses normalisasi, format data harus disesuaikan
terlebih dahulu dengan format yang telah didefinisikan oleh database
barulah kemudian data boleh dimasukkan ke dalam database. Sebesar apapun
jumlah data yang akan dimasukan asalkan format datanya sesuai maka akan dapat ditangani oleh teknologi database yang digunakan. Data bukan hanya
untuk disimpan dalam database, namun juga untuk diproses serta
ditampilkan kembali. Apabila format data telah sesuai dengan design
database awal, memproses dan menampilkan data adalah hal yang mudah.
Apalagi jika didukung dengan hardware yang selayaknya.
Seiring
dengan perkembangan dunia digital, data yang perlu untuk disimpan
ke dalam database semakin besar. Data tersebut boleh meningkat dalam
hitungan saat, dan yang lebih parah adalah bentuk data tersebut semakin
beragam. Kemungkinan terjadi data-data tersebut memiliki format video, gambar,
logs, binary, trace logs (.pcap), dsb. Ketika data-data tersebut meningkat (growth) dan ingin disimpan dalam database sehingga dapat
diproses oleh aplikasi maka diperlukan suatu pendekatan baru untuk
menyimpan data-data tersebut serta memprosesnya dalam waktu singkat.
Kita tidak perlu membuat definisi struktur terlebih dahulu untuk
menyimpan data tersebut sehingga apapun bentuk datanya maka tinggal
‘lempar’ saja ke dalam media penyimpanan / database, apabila diperlukan
maka kita boleh memproses data apapun dalam media penyimpanan tersebut
untuk mendapatkan hasil pemrosesan dalam waktu singkat. Ingat, dalam waktu singkat.
Jika dengan teknologi database sekarang ini untuk mendapatkan hasil
dalam waktu singkat sangat memungkinkan disebabkan adanya struktur data
yang jelas, maka bagaimana caranya apabila sekumpulan data tersebut
benar-benar mentah?
Hadoop & Bigdata Market Segments
Bigdata
adalah konsep, implementasi dari suatu konsep tentunya mungkin beragam.
Mungkin Hadoop adalah implementasi core bigdata yang paling popular pada saat
ini, namun bukan bererti Hadoop adalah satu-satunya. Vendor seperti
Microsoft dan LexisNexis misalnya, masing-masing memiliki project dalam kerangka Bigdata:
Dryad dan
HPCC, walaupun pada akhirnya project Dryad tidak diteruskan lagi dan
Microsoft fokus pada Hadoop.
Hadoop
merupakan satu projek sumber terbuka (opensource) di bawah Apache. Silakan baca buku
“Hadoop — The Definitive Guide” untuk mengetahui lebih lanjut tentang sejarah
Hadoop. Hadoop merupakan implementasi "opensource project" yang dapat
memecahkan 3 karakteristik masalah pada Bigdata iaitu Volume, Velocity, dan
Variety.
Seperti layaknya kernel pada sistem operasi
maka Hadoop yang terdiri dari 2 komponen utama: HDFS (Hadoop Distributed
Filesystem) dan MapReduce, memerlukan suatu ekosistem untuk dapat
memanfaatkan implementasi Hadoop secara maksima. Jelasnya, ekosistem
tersebut berfungsi sebagai add-on tambahan bagi Hadoop, misalnya:
Hive.
Hive memungkinkan seseorang mengekstrak data dari Hadoop menggunakan
syntax seperti SQL. Hive akan mengkompil SQL language tersebut ke dalam
MapReduce untuk mengakses data di dalam Hadoop. Dengan adanya Hive, maka
seorang pakar database tidak perlu belajar Java dan membuat aplikasi
MapReduce untuk dapat mengakses serta memproses data dari Hadoop. Contoh
lain projek dalam ekosistem Hadoop adalah Pig, HBase, Mahout, dan sebagainya.
Keperluan Bigdata yang semakin besar membuka
peluang baru bagi masyarakat IT untuk memasuki pasaran tersebut, mulai
dari membuat implementasi core Bigdata alternatif seperti yang dilakukan
oleh LexisNexis, membuat distribusi Hadoop-stack seperti yang dilakukan
oleh
Cloudera,
MapR, ataupun
hortonworks, hingga aplikasi yang bermain dalam kerangka analisis dan visualisasi seperti
Karmasphere.
Jeff Kelly membuat
presentasi segmentasi Bigdata market yang cukup menarik melalui rajah berikut:
Segmentasi di atas menunjukan peluang besar bagi ragam startup untuk masuk ke dalam pasaran Bigdata.
Malah, International Data Corporation (IDC)
menjangkakan bahawa pasaran Bigdata akan mencapai USD16.1 billion pada tahun
2014, tumbuh 6 kali lebih cepat jika dibandingkan dengan rata-rata pasaran IT.
Jumlah ini termasuk infrastruktur (server, storage, dan lain-lain), servis, dan
software. Saya belum melakukan eksplorasi lebih lanjut mengenai pasaran
Bigdata di Asia khususnya di Malaysia, namun jika melihat keperluan Bigdata di Amerika Syarikat (US), maka
tidak salah apabila muncul istilah “Bigdata is the new H1B Visa”. Tidak
percaya? Cuba lihat pencarian pekerjaan
ini (Hadoop Developer) dan
ini
(Hadoop System Administrator) di Linkedin, itu baru sebahagian kecil saja
dan baru mengenai hadoop developer serta system administrator namun
sudah menunjukan betapa besarnya pasaran Bigdata di US.
Cepat
atau lambat keperluan Bigdata akan masuk ke pasaran Asia, dan tentunya Malaysia akan terkena tempiasnya memandangkan kandungan maklumat yang pantas berkembang sama ada melalui internet, aplikasi telefon pintar dan tablet.
Seiring perkembangan zaman, pemilik perniagaan (business players) tidak lagi sekadar memerlukan aplikasi front-end seperti website
ataupun mobile apps, bahkan mereka akan memerlukan suatu teknologi yang
dapat membantu mereka memprediksi serta menentukan arah kebijakan
bisnes (
business intelligence) dengan cepat, bukan lagi berdasarkan pengalaman ataupun intuisi,
namun berdasarkan acuan ketepatan data (data accuracy) yang diambil dari sekumpulan data
terstruktur mahupun semi-terstruktur.
Sumber:
1.
www.wikipedia.org
2.
blogdetik.com