Pertimbangan Ketika Memulai BIG DATA
Pendahuluan
Perkembangan jaman hingga saat ini sangat berdampak besar terhadap kehidupan sekarang. Salah satu hal yang berubah adalah cara menggunakan data. Hal tersebut sangat dipengaruhi oleh perkembangan teknologi, karena dapat dilihat sekarang penggunaan tiap individu terhadap data sudah sangat tinggi, hampir semua orang memiliki data dalam setiap perangkatnya (komputer / laptop, smartphone, flashdisk, harddisk eksternal, dll) yang jika dijumlahkan akan menjadi besar sekali. Hal ini dipengaruhi juga dengan mudahnya tiap individu untuk mendapatkan data yang diinginkannya (film, musik, games, dll) melalui internet. Internet menghubungkan tiap individu di seluruh dunia dengan mudah tanpa memperdulikan jarak / lokasi dan waktu. Sekarang dengan terjadinya perkembangan teknologi, data menjadi hal yang penting dalam menjalankan berbagai hal, beberapa diantaranya; mengetahui tren pasar, mengetahui keinginan konsumen saat ini, meningkatkan hasil penjualan, dll. Hasil perubahan ini sangatlah besar, data pun diolah dengan lebih terkomputerisasi sehingga penyimpanan beberapa data dapat menghemat tempat dalam kantor perusahaan dengan cara penyimpanan softcopy. Data yang tersimpan ini lama kelamaan menjadi sangat banyak dan besar sehingga semakin susah untuk digunakan, hal tersebut disebut big data. Dengan perkembangan sekarang, big data ini sudah dapat diolah dan digunakan lagi, bahkan memberikan hasil yang lebih baik karena mencakup pengolahan data yang ada di dalam social media.
Dengan perkembangan data inilah big data muncul dan saat ini mulai berkembang. Penggunaannya pun semakin luas, hingga mencakup social media, sehingga dapat menganalisa tren pasar dengan melihat sentimen analisis pelanggan melalui social media. Dengan perkembangan saat ini, ada baiknya untuk memahami lebih dalam mengenai big data, sehingga dapat dimanfaatkan dengan lebih maksimal.
Ukuran data dan informasi yang dikumpulkan setiap harinya merupakan tantangan tersendiri bagi suatu organisasi yang ingin tetap berpartisipasi dalam kompetisi. Big Data bukanlah hal baru, Big Data telah ada sebelum istilah Big Data menjadi populer saat ini. Munculnya open source menyebabkan teknologi Big Data telah dapat dijangkau oleh banyak orang. Semakin banyak orang yang dapat menjangkau Big Data, maka semakin banyak juga orang yang dapat menyadari potensi dan aplikasi Big Data dalam berbagai bidang, misalnya manufaktur, pemasaran, penjualan, kesehatan, dll. Pemanfaatan Big Data memungkinkan terjadinya hal-hal besar yang menjadi domain pada akhir abad 20 dan 21.
Meskipun potensi Big Data sangat besar, bukan berarti tidak ada tantangan yang menghalangi. Pemanfaatan Big Data tidak semudah me-download suatu perangkat lunak kemudian dinyatakan selesai. Berikut ini beberapa tantangan yang mungkin terjadi saat melakukan adopsi Big Data.
Problemyang dipecahkan Big Data
Saat ini, data bagaikan raja yang digunakan untuk mendukung suatu pernyataan agar tetap berada di atas. Dalam situasi seperti ini, kita harus tahu sumber data mana yang akan dikumpulkan, bagaimana cara mengumpulkannya, bagaimana penyimpanan dan pemrosesan data, serta jenis query yang akan dijalankan pada data (Streaming versus Batch). Pertanyaan selanjutnya adalah ukuran potensial dari work load yang dibebankan. Hal ini penting karena perlu dirancang investasi infrastruktur di awal.
Tools apa yang digunakan dalam Big Data
Dalam dunia open source, inovasi muncul dengan kecepatan yang cepat, bahkan untuk beberapa kasus terdapat banyak jumlah pilihan open source yang dapat dipilih. Kita dapat memilih antara MapReduce, NoSQL, Apache Spark, Pig, atau Pig Latin. Kita dapat berkaca pada beragam indicator industri untuk mengetahui open source mana yang dapat kita gunakan. Hal ini tidak berarti kita harus memiliki dan menggunakan seluruh open source yang ada, karena dapat menyebabkan kebingungan.
Keahlian apa yang dibutuhkan dalam Big Data
Kita mungkin dapat meggunakan pengetahuan dasar SQL untuk mengolah Big Data, namun nyatanya Big Data lebih dari itu. Big Data mencakup infrastruktur, perangkat lunak, tools, aplikasi, dan tentu saja data. Dua set keahlian dalam dunia Big Data adalah membangun aplikasi dengan memanfaatkan teknologi Big Data dan memanfaatkan (mendukung) teknologi Big Data.
Infrastruktur apa yang mendukung Big Data
Infastruktur merupakan salah satu komponen terbesar dalam Big Data. Ukuran data dalam Big Data berkisar antara terabyte bahkan petabyte. Hal ini memaksa kita memiliki infrastruktur yang baik untuk mendukung besarnya ukuran data dalam Big Data. Jenis data atau informasi yang dikumpulkan dan disimpan juga mempengaruhi kebutuhan infrastruktur. Misalnya, jika data yang dikumpulkan mengandung Personally Identifiable Information (PII), maka aturan kedaulatan data berlaku pada kasus ini dan teknologi enkripsi perlu diterapkan. Selain itu, pemilihan penyimpanan berbasis Cloud atau data center juga perlu dipertimbangkan.
An Integrated Information Architecture
Salah satu tantangan yang diteliti dalam pemakaian Hadoop dalam perusahaan adalah kurangnya integrasi dengan ekosistem BI yang ada. Saat ini BI tradisional dan ekosistem big data terpisah dan menyebabkan analis data terintegrasi mengalami kebingungan. Sebagai hasilnya, hal ini tidaklah siap untuk digunakan oleh pengguna bisnis dan eksekutif biasa.
Pengguna big data yang pertama kali mencoba menggunakan, seringkali menulis kode khusus untuk memindahkan hasil big data yang telah diproses kembali ke dalam database untuk dibuat laporan dan dianalisa. Pilihan – pilihan ini mungkin tidak layak dan ekonomis untuk perusahaan IT. Pertama, karena menyebabkan penyebaran salah satu data dan standar yang berbeda, sehingga arsitekturnya mempengaruhi ekonomi IT. Big data dilakukan secara independen untuk menjalankan resiko investasi yang redundan, sebagai tambahannya, banyak bisnis yang sama sekali tidak memiliki staff dan ketrampilan yang dibutuhkan untuk pengembangan pekerjaan yang khusus.
Big Data for development
Big Data untuk keperluan development berkaitan dengan, tetapi berbeda dari, 'tradisional Data pembangunan '(misalnya data survei, statistik resmi), dan sektor swasta dan media mainstream menyebutnya 'Big Data’. Big Data untuk sumber Pengembangan umumnya memiliki beberapa / semua fitur ini:
1. Digitally generated
data yang dihasilkan secara digital (sebagai lawan yang didigitalkan manual), dan dapat disimpan dengan menggunakan rangkaian satu dan nol, dan dengan demikian dapat dimanipulasi oleh komputer
2. Passively produced
Data ini merupakan data yang dihasilkan atau produk dari kehidupan kita sehari-hari atau interaksi dengan jasa digital
3. Automatically collected
Data-data yang terbentuk dari data-data operasional dan transaksi yang dikumpulkan dan telah diproses (ETL) dan si simpan kedalam data mart
4. Geographically or temporally trackable
Data –data yang menunjukan lokasi atau posisi, misalnya data lokasi ponsel atau durasi waktu panggilan
5. Continuously analysed
informasi yang relevan dengan kesejahteraan manusia dan pembangunan dan dapat dianalisis secara real-time
Pengunaan Big Data dalam perusahaan
Ø IT logs Analytics
Penyimpanan Log jangka panjang, digunakan untuk analisa proses sistem yang sedang berjalan untuk mencegah dan menaggulangi kegagalan dalam sistem, mengunakan hasil analisa log untuk menemukan dan mentukan secara pasti kegagalan apa yang terjadi didalam sistem, menyiapkan langkah-langkah pasti yang dapat digunakan sebagai solusi masalah sistem.
Ø Fraud Detection Pattern
Banyak digunakan dalam Bidang keuangan atau dimana saja transaksi finasial terlibat, Memaksimalkan pengunaan data-data yang ada untuk memberikan kemampuan unutk mendeteksi fraud ketika transaksi sedang berlangsung
Ø The Social Media Pattern
Pengunaan Big data untuk analisa media social dan sentiment pelangan, memberikan kemampuan bagi perusahan untuk mengetahui keinginan customer secara luas, mendapatkan feedback secara langsung, dan mengenali langsung dampak sentimen terhadap penjualan, serta efektivitas dan penerimaan pelangan terhadap pemasaran yang dilakukan.
Ø The Call centere Mantra
Penyimpanan hasil perbincangan atau laporan customer dalam bentuk text yang kemudian digunakan sebagai data untuk analisa masalah yang dihadapai customer, memberikan kemampuan bagi perusahaan untuk memberikan tanggapan yang cepat maupun secara langsung terhadap masalah yang dihadapi customer, serta kemampuan unutk mendeteksi penurunan loyalitas customer dikarenakan masalah dan ketidakpuasaan.
Ø Risk: Patterns for Modeling and Management
Memberikan kempuaan pengunaan data secara penuh dan analisis dalam pemodelan resiko dan menejemen resiko untuk memberikan pengetahuan akan resiko dan penanggulangannya secara tepat dan langsung
Ø Big data and The Energy Sector
Memberikan kemampuan penyimpanan dan pemrosesan data secara langsung dari berbagai sumber(sensor), analisa dan kemudahan dalam pengenalan noise untuk memisahkannya dari signal.
Membangun Big Data PlatformSeperti data pergudangan, toko web atau platform TI, infrastruktur untuk data yang besar memiliki kebutuhan yang unik. Dalam mempertimbangkan semua komponen platform data yang besar, penting untuk diingat bahwa tujuan akhir adalah untuk dengan mudah mengintegrasikan data yang besar dengan data perusahaan Anda untuk memungkinkan Anda untuk melakukan analisis mendalam pada set data gabungan. Infrastructure Requirements, Requirement dalam big data infrastruktur :
· data acquisition,
· data organization
· data analysis
Data acquisition
Tahap akuisisi adalah salah satu perubahan besar dalam infrastruktur pada hari-hari sebelum big data. Karena big data mengacu pada aliran data dengan kecepatan yang lebih tinggi dan ragam yang bervariasi, infrastruktur yang diperlukan untuk mendukung akuisisi data yang besar harus disampaikan secara perlahan, dapat diprediksi baik di dalam menangkap data dan dalam memprosesnya secara cepat dan sederhana, dapat menangani volume transaksi yang sangat tinggi , sering dalam lingkungan terdistribusi, dan dukungan yang fleksibel, struktur data dinamis.
Database NoSQL sering digunakan untuk mengambil dan menyimpan big data. Mereka cocok untuk struktur data dinamis dan sangat terukur. Data yang disimpan dalam database NoSQL biasanya dari berbagai variasi/ragam karena sistem dimaksudkan untuk hanya menangkap semua data tanpa mengelompokkan dan parsing data.
Sebagai contoh, database NoSQL sering digunakan untuk mengumpulkan dan menyimpan data media sosial. Ketika aplikasi yang digunakan pelanggan sering berubah, struktur penyimpanan dibuat tetap sederhana. Alih-alih merancang skema dengan hubungan antar entitas, struktur sederhana sering hanya berisi kunci utama untuk mengidentifikasi titik data, dan kemudian wadah konten memegang data yang relevan. Struktur sederhana dan dinamis ini memungkinkan perubahan berlangsung tanpa reorganisasi pada lapisan penyimpanan.
Data Organization
Dalam istilah Data pergudangan klasik, pengorganisasian data disebut integrasi data. Karena ada volume/jumlah data yang sangat besar, ada kecenderungan untuk mengatur data pada lokasi penyimpanan aslinya, sehingga menghemat waktu dan uang dengan tidak memindah-midahkan data dengen volume yang besar. Infrastruktur yang diperlukan untuk mengatur data yang besar harus mampu mengolah dan memanipulasi data di lokasi penyimpanan asli. Biasanya diproses didalam batch untuk memproses data yang besar, beragam format, dari tidak terstruktur menjadi terstruktur.
Apache Hadoop adalah sebuah teknologi baru yang memungkinkan volume data yang besar untuk diatur dan diproses sambil menjaga data pada cluster penyimpanan data asli. Hadoop Distributed File System (HDFS) adalah sistem penyimpanan jangka panjang untuk log web misalnya. Log web ini berubah menjadi perilaku browsing dengan menjalankan program MapReduce di cluster dan menghasilkan hasil yang dikumpulkan di dalam cluster yang sama. Hasil ini dikumpulkan kemudian dimuat ke dalam sistem DBMS relasional.
Data Analysis
Karena data tidak selalu bergerak selama fase organisasi, analisis ini juga dapat dilakukan dalam lingkungan terdistribusi, di mana beberapa data akan tinggal di mana data itu awalnya disimpan dan diakses secara transparan dari sebuah data warehouse. Infrastruktur yang diperlukan untuk menganalisis data yang besar harus mampu mendukung analisis yang lebih dalam seperti analisis statistik dan data mining, pada data dengan jenis yang beragam dan disimpan dalam sistem yang terpisah, memberikan waktu respon lebih cepat didorong oleh perubahan perilaku; dan mengotomatisasi keputusan berdasarkan model analitis. Yang paling penting, infrastruktur harus mampu mengintegrasikan analisis pada kombinasi data yang besar dan data perusahaan tradisional. Wawasan baru datang bukan hanya dari analisis data baru, tapi dari menganalisisnya dalam konteks yang lama untuk memberikan perspektif baru tentang masalah lama.
Misalnya, menganalisis data persediaan dari mesin penjual otomatis cerdas dalam kombinasi dengan acara kalender untuk tempat di mana mesin penjual otomatis berada, akan menentukan kombinasi produk yang optimal dan jadwal pengisian untuk mesin penjual otomatis.
Refrensi
http://komangaryasa.com/page/4/
Pengenalan Big Data, Binus University
Perkembangan jaman hingga saat ini sangat berdampak besar terhadap kehidupan sekarang. Salah satu hal yang berubah adalah cara menggunakan data. Hal tersebut sangat dipengaruhi oleh perkembangan teknologi, karena dapat dilihat sekarang penggunaan tiap individu terhadap data sudah sangat tinggi, hampir semua orang memiliki data dalam setiap perangkatnya (komputer / laptop, smartphone, flashdisk, harddisk eksternal, dll) yang jika dijumlahkan akan menjadi besar sekali. Hal ini dipengaruhi juga dengan mudahnya tiap individu untuk mendapatkan data yang diinginkannya (film, musik, games, dll) melalui internet. Internet menghubungkan tiap individu di seluruh dunia dengan mudah tanpa memperdulikan jarak / lokasi dan waktu. Sekarang dengan terjadinya perkembangan teknologi, data menjadi hal yang penting dalam menjalankan berbagai hal, beberapa diantaranya; mengetahui tren pasar, mengetahui keinginan konsumen saat ini, meningkatkan hasil penjualan, dll. Hasil perubahan ini sangatlah besar, data pun diolah dengan lebih terkomputerisasi sehingga penyimpanan beberapa data dapat menghemat tempat dalam kantor perusahaan dengan cara penyimpanan softcopy. Data yang tersimpan ini lama kelamaan menjadi sangat banyak dan besar sehingga semakin susah untuk digunakan, hal tersebut disebut big data. Dengan perkembangan sekarang, big data ini sudah dapat diolah dan digunakan lagi, bahkan memberikan hasil yang lebih baik karena mencakup pengolahan data yang ada di dalam social media.
Dengan perkembangan data inilah big data muncul dan saat ini mulai berkembang. Penggunaannya pun semakin luas, hingga mencakup social media, sehingga dapat menganalisa tren pasar dengan melihat sentimen analisis pelanggan melalui social media. Dengan perkembangan saat ini, ada baiknya untuk memahami lebih dalam mengenai big data, sehingga dapat dimanfaatkan dengan lebih maksimal.
Sumber : Connolly, 2012)
Kenapa Big Data?Ukuran data dan informasi yang dikumpulkan setiap harinya merupakan tantangan tersendiri bagi suatu organisasi yang ingin tetap berpartisipasi dalam kompetisi. Big Data bukanlah hal baru, Big Data telah ada sebelum istilah Big Data menjadi populer saat ini. Munculnya open source menyebabkan teknologi Big Data telah dapat dijangkau oleh banyak orang. Semakin banyak orang yang dapat menjangkau Big Data, maka semakin banyak juga orang yang dapat menyadari potensi dan aplikasi Big Data dalam berbagai bidang, misalnya manufaktur, pemasaran, penjualan, kesehatan, dll. Pemanfaatan Big Data memungkinkan terjadinya hal-hal besar yang menjadi domain pada akhir abad 20 dan 21.
Meskipun potensi Big Data sangat besar, bukan berarti tidak ada tantangan yang menghalangi. Pemanfaatan Big Data tidak semudah me-download suatu perangkat lunak kemudian dinyatakan selesai. Berikut ini beberapa tantangan yang mungkin terjadi saat melakukan adopsi Big Data.
Problemyang dipecahkan Big Data
Saat ini, data bagaikan raja yang digunakan untuk mendukung suatu pernyataan agar tetap berada di atas. Dalam situasi seperti ini, kita harus tahu sumber data mana yang akan dikumpulkan, bagaimana cara mengumpulkannya, bagaimana penyimpanan dan pemrosesan data, serta jenis query yang akan dijalankan pada data (Streaming versus Batch). Pertanyaan selanjutnya adalah ukuran potensial dari work load yang dibebankan. Hal ini penting karena perlu dirancang investasi infrastruktur di awal.
Tools apa yang digunakan dalam Big Data
Dalam dunia open source, inovasi muncul dengan kecepatan yang cepat, bahkan untuk beberapa kasus terdapat banyak jumlah pilihan open source yang dapat dipilih. Kita dapat memilih antara MapReduce, NoSQL, Apache Spark, Pig, atau Pig Latin. Kita dapat berkaca pada beragam indicator industri untuk mengetahui open source mana yang dapat kita gunakan. Hal ini tidak berarti kita harus memiliki dan menggunakan seluruh open source yang ada, karena dapat menyebabkan kebingungan.
Keahlian apa yang dibutuhkan dalam Big Data
Kita mungkin dapat meggunakan pengetahuan dasar SQL untuk mengolah Big Data, namun nyatanya Big Data lebih dari itu. Big Data mencakup infrastruktur, perangkat lunak, tools, aplikasi, dan tentu saja data. Dua set keahlian dalam dunia Big Data adalah membangun aplikasi dengan memanfaatkan teknologi Big Data dan memanfaatkan (mendukung) teknologi Big Data.
Infrastruktur apa yang mendukung Big Data
Infastruktur merupakan salah satu komponen terbesar dalam Big Data. Ukuran data dalam Big Data berkisar antara terabyte bahkan petabyte. Hal ini memaksa kita memiliki infrastruktur yang baik untuk mendukung besarnya ukuran data dalam Big Data. Jenis data atau informasi yang dikumpulkan dan disimpan juga mempengaruhi kebutuhan infrastruktur. Misalnya, jika data yang dikumpulkan mengandung Personally Identifiable Information (PII), maka aturan kedaulatan data berlaku pada kasus ini dan teknologi enkripsi perlu diterapkan. Selain itu, pemilihan penyimpanan berbasis Cloud atau data center juga perlu dipertimbangkan.
An Integrated Information Architecture
Salah satu tantangan yang diteliti dalam pemakaian Hadoop dalam perusahaan adalah kurangnya integrasi dengan ekosistem BI yang ada. Saat ini BI tradisional dan ekosistem big data terpisah dan menyebabkan analis data terintegrasi mengalami kebingungan. Sebagai hasilnya, hal ini tidaklah siap untuk digunakan oleh pengguna bisnis dan eksekutif biasa.
Pengguna big data yang pertama kali mencoba menggunakan, seringkali menulis kode khusus untuk memindahkan hasil big data yang telah diproses kembali ke dalam database untuk dibuat laporan dan dianalisa. Pilihan – pilihan ini mungkin tidak layak dan ekonomis untuk perusahaan IT. Pertama, karena menyebabkan penyebaran salah satu data dan standar yang berbeda, sehingga arsitekturnya mempengaruhi ekonomi IT. Big data dilakukan secara independen untuk menjalankan resiko investasi yang redundan, sebagai tambahannya, banyak bisnis yang sama sekali tidak memiliki staff dan ketrampilan yang dibutuhkan untuk pengembangan pekerjaan yang khusus.

Sumber : Sun & Heller, 2012, p. 13
Big Data for development
Big Data untuk keperluan development berkaitan dengan, tetapi berbeda dari, 'tradisional Data pembangunan '(misalnya data survei, statistik resmi), dan sektor swasta dan media mainstream menyebutnya 'Big Data’. Big Data untuk sumber Pengembangan umumnya memiliki beberapa / semua fitur ini:
1. Digitally generated
data yang dihasilkan secara digital (sebagai lawan yang didigitalkan manual), dan dapat disimpan dengan menggunakan rangkaian satu dan nol, dan dengan demikian dapat dimanipulasi oleh komputer
2. Passively produced
Data ini merupakan data yang dihasilkan atau produk dari kehidupan kita sehari-hari atau interaksi dengan jasa digital
3. Automatically collected
Data-data yang terbentuk dari data-data operasional dan transaksi yang dikumpulkan dan telah diproses (ETL) dan si simpan kedalam data mart
4. Geographically or temporally trackable
Data –data yang menunjukan lokasi atau posisi, misalnya data lokasi ponsel atau durasi waktu panggilan
5. Continuously analysed
informasi yang relevan dengan kesejahteraan manusia dan pembangunan dan dapat dianalisis secara real-time
Pengunaan Big Data dalam perusahaan
Ø IT logs Analytics
Penyimpanan Log jangka panjang, digunakan untuk analisa proses sistem yang sedang berjalan untuk mencegah dan menaggulangi kegagalan dalam sistem, mengunakan hasil analisa log untuk menemukan dan mentukan secara pasti kegagalan apa yang terjadi didalam sistem, menyiapkan langkah-langkah pasti yang dapat digunakan sebagai solusi masalah sistem.
Ø Fraud Detection Pattern
Banyak digunakan dalam Bidang keuangan atau dimana saja transaksi finasial terlibat, Memaksimalkan pengunaan data-data yang ada untuk memberikan kemampuan unutk mendeteksi fraud ketika transaksi sedang berlangsung
Ø The Social Media Pattern
Pengunaan Big data untuk analisa media social dan sentiment pelangan, memberikan kemampuan bagi perusahan untuk mengetahui keinginan customer secara luas, mendapatkan feedback secara langsung, dan mengenali langsung dampak sentimen terhadap penjualan, serta efektivitas dan penerimaan pelangan terhadap pemasaran yang dilakukan.
Ø The Call centere Mantra
Penyimpanan hasil perbincangan atau laporan customer dalam bentuk text yang kemudian digunakan sebagai data untuk analisa masalah yang dihadapai customer, memberikan kemampuan bagi perusahaan untuk memberikan tanggapan yang cepat maupun secara langsung terhadap masalah yang dihadapi customer, serta kemampuan unutk mendeteksi penurunan loyalitas customer dikarenakan masalah dan ketidakpuasaan.
Ø Risk: Patterns for Modeling and Management
Memberikan kempuaan pengunaan data secara penuh dan analisis dalam pemodelan resiko dan menejemen resiko untuk memberikan pengetahuan akan resiko dan penanggulangannya secara tepat dan langsung
Ø Big data and The Energy Sector
Memberikan kemampuan penyimpanan dan pemrosesan data secara langsung dari berbagai sumber(sensor), analisa dan kemudahan dalam pengenalan noise untuk memisahkannya dari signal.
Membangun Big Data PlatformSeperti data pergudangan, toko web atau platform TI, infrastruktur untuk data yang besar memiliki kebutuhan yang unik. Dalam mempertimbangkan semua komponen platform data yang besar, penting untuk diingat bahwa tujuan akhir adalah untuk dengan mudah mengintegrasikan data yang besar dengan data perusahaan Anda untuk memungkinkan Anda untuk melakukan analisis mendalam pada set data gabungan. Infrastructure Requirements, Requirement dalam big data infrastruktur :
· data acquisition,
· data organization
· data analysis
Data acquisition
Tahap akuisisi adalah salah satu perubahan besar dalam infrastruktur pada hari-hari sebelum big data. Karena big data mengacu pada aliran data dengan kecepatan yang lebih tinggi dan ragam yang bervariasi, infrastruktur yang diperlukan untuk mendukung akuisisi data yang besar harus disampaikan secara perlahan, dapat diprediksi baik di dalam menangkap data dan dalam memprosesnya secara cepat dan sederhana, dapat menangani volume transaksi yang sangat tinggi , sering dalam lingkungan terdistribusi, dan dukungan yang fleksibel, struktur data dinamis.
Database NoSQL sering digunakan untuk mengambil dan menyimpan big data. Mereka cocok untuk struktur data dinamis dan sangat terukur. Data yang disimpan dalam database NoSQL biasanya dari berbagai variasi/ragam karena sistem dimaksudkan untuk hanya menangkap semua data tanpa mengelompokkan dan parsing data.
Sebagai contoh, database NoSQL sering digunakan untuk mengumpulkan dan menyimpan data media sosial. Ketika aplikasi yang digunakan pelanggan sering berubah, struktur penyimpanan dibuat tetap sederhana. Alih-alih merancang skema dengan hubungan antar entitas, struktur sederhana sering hanya berisi kunci utama untuk mengidentifikasi titik data, dan kemudian wadah konten memegang data yang relevan. Struktur sederhana dan dinamis ini memungkinkan perubahan berlangsung tanpa reorganisasi pada lapisan penyimpanan.
Data Organization
Dalam istilah Data pergudangan klasik, pengorganisasian data disebut integrasi data. Karena ada volume/jumlah data yang sangat besar, ada kecenderungan untuk mengatur data pada lokasi penyimpanan aslinya, sehingga menghemat waktu dan uang dengan tidak memindah-midahkan data dengen volume yang besar. Infrastruktur yang diperlukan untuk mengatur data yang besar harus mampu mengolah dan memanipulasi data di lokasi penyimpanan asli. Biasanya diproses didalam batch untuk memproses data yang besar, beragam format, dari tidak terstruktur menjadi terstruktur.
Apache Hadoop adalah sebuah teknologi baru yang memungkinkan volume data yang besar untuk diatur dan diproses sambil menjaga data pada cluster penyimpanan data asli. Hadoop Distributed File System (HDFS) adalah sistem penyimpanan jangka panjang untuk log web misalnya. Log web ini berubah menjadi perilaku browsing dengan menjalankan program MapReduce di cluster dan menghasilkan hasil yang dikumpulkan di dalam cluster yang sama. Hasil ini dikumpulkan kemudian dimuat ke dalam sistem DBMS relasional.
Data Analysis
Karena data tidak selalu bergerak selama fase organisasi, analisis ini juga dapat dilakukan dalam lingkungan terdistribusi, di mana beberapa data akan tinggal di mana data itu awalnya disimpan dan diakses secara transparan dari sebuah data warehouse. Infrastruktur yang diperlukan untuk menganalisis data yang besar harus mampu mendukung analisis yang lebih dalam seperti analisis statistik dan data mining, pada data dengan jenis yang beragam dan disimpan dalam sistem yang terpisah, memberikan waktu respon lebih cepat didorong oleh perubahan perilaku; dan mengotomatisasi keputusan berdasarkan model analitis. Yang paling penting, infrastruktur harus mampu mengintegrasikan analisis pada kombinasi data yang besar dan data perusahaan tradisional. Wawasan baru datang bukan hanya dari analisis data baru, tapi dari menganalisisnya dalam konteks yang lama untuk memberikan perspektif baru tentang masalah lama.
Misalnya, menganalisis data persediaan dari mesin penjual otomatis cerdas dalam kombinasi dengan acara kalender untuk tempat di mana mesin penjual otomatis berada, akan menentukan kombinasi produk yang optimal dan jadwal pengisian untuk mesin penjual otomatis.
Refrensi
http://komangaryasa.com/page/4/
Pengenalan Big Data, Binus University
Komentar