Category Archives: Big Data

Big Data Sebagai Alat Bantu Pengeboran Minyak dan Gas

Industri minyak dan gas kini tengah menghadapi tantangan berat, seperti meningkatnya biaya produksi dan gejolak politik internasional. Hal tersebut mempersulit usaha ekplorasi dan pengeboran cadangan minyak baru.

Beberapa tahun belakangan ini Royal Dutch Shell mengembangkan ide untuk membangun ladang minyak yang didukung oleh data atau disebut “data-driven oilfield” dalam usaha untuk mengurangi biaya pengeboran yang merupakan biaya utama industri migas.

Sejak beberapa tahun ini Shell sudah mulai memasang kabel serat optik dalam sumur minyak. Pada kabel serat optik ini terpasang sensor-sensor yang mengukur segala sesuatu dalam sumur. Dengan data-data dari sensor tersebut, Shell dapat melakukan analisa yang lebih akurat mengenai keadaan sumur minyak atau seberapa besar gas yang masih tersisa.

Sensor super sensitif dalam kabel serat optik membantu Shell menemukan minyak tambahan di dalam sumur yang diduga telah kering. Sensor-sensor yang buat oleh Hewlett-Packard ini menghasilkan data dalam jumlah yang sangat besar dan ditransfer ke dalam sistem komputasi awan Amazon Virtual Private Cloud dengan menggunakan Hadoop. Sejak pertama kali dimulai mereka telah mengumpulkan 46 petabyte data dan pada tes pertama yang mereka lakukan di salah satu sumur minyak menghasilkan 1 petabyte informasi.

Shell juga bekerja sama dengan IBM dan DreamWorks Hollywood untuk memvisualisasikan data-data yang didapat oleh sensor. Semua data yang diterima dari sensor seismik dianalisis oleh sistem kecerdasan buatan yang dikembangkan oleh Shell dan dirender menjadi peta 3D dan 4D dari reservoir minyak. Meskipun analisis dilakukan dalam komputasi awan, visualisasi segera tersedia bagi awak yang bekerja di pabrik lokal.

Melihat hasil yang dicapai mereka berkeinginan memasang sensor untuk sekitar 10.000 sumur minyak, dengan perkiraan 10 Exabytes data, atau sekitar 10 hari dari semua data yang dihasilkan oleh internet.

Source :

https://datafloq.com/read/shell-drills-deep-with-big-data/508

http://www.oilreviewmiddleeast.com/information-technology/big-data-is-the-new-drilling-tool-for-shell

http://www.smartdatacollective.com/bernardmarr/358203/big-data-big-oil-amazing-ways-shell-uses-analytics-drive-business-success/508


Sumber :

Id Big Data

Ambari 2.0. Apa Yang Baru?

Pada awal bulan ini, tepatnya 8 April 2015, Ambari 2.0, salah satu komponen pendukung ekosistem Hadoop, resmi diluncurkan.

Lalu, mahluk apakah Ambari ini, dan apa istimewanya angka 2.0 di belakangnya, sehingga Arun Murthy, co-founder Hortonwork, menyebut rilis Ambari 2.0 ini sama pentingnya dengan Hadoop 2.0?

Ambari adalah aplikasi untuk memudahkan melakukan provisioning, manajemen, dan monitoring terhadap Apache Hadoop clusters.

Pada awalnya Ambari dikembangkan oleh Hortonworks, dan sekarang sudah menjadi salah satu project Apache.

Dengan Ambari, seorang sysadmin dapat melakukan:

1.  Provisioning sebuah Hadoop cluster
Ambari menyediakan wizard yang menuntun langkah demi langkah dalam instalasi Hadoop service. Ambari juga menangani konfigurasi hadoop service untuk cluster tersebut.
2.  Manajemen Hadoop Cluster
Ambari menyediakan tools untuk melakukan start, stop, dan rekonfigurasi hadoop service di seluruh cluster.
3.  Monitoring Hadoop Cluster

ambari illus

Ambari menyediakan sebuah dashboard untuk memonitor ‘kesehatan’ dan status sebuah cluster Hadoop. Ambari memanfaatkan Ambari metric system untuk melakukan metrics collection (pengumpulan data status cluster). Ambari juga memanfaatkan Ambari alert framework untuk sistem peringatan, dan akan mengirimkan alert jika terjadi hal-hal yang perlu diperhatikan oleh sysadmin (misalnya sebuah node mati, disk space hampir penuh, dll).

Ambari juga memungkinkan para developer dan sistem integrator untuk mengintegrasikan fasilitas provisioning, manajemen dan monitoring ini ke dalam aplikasi mereka sendiri melalui Ambari REST APIs.

Fitur yang ditambahkan pada rilis 2.0 ini diantaranya adalah:

  • Automated Rolling Update terhadap HDP stack, yang memungkinkan dilakukannya upgrade terhadap sebuah cluster Hadoop yang aktif tanpa memerlukan shutdown cluster ataupun aplikasi/job di atasnya. Dengan fitur ini diharapkan user dapat tetap menggunakan cluster tersebut selama proses upgrade berlangsung.
  • – Hadoop security yang lebih komprehensif dan simpel. Ambari 2.0 membantu  provisioning, manajemen dan monitoring Hadoop cluster dengan dua cara, pertama Ambari menyederhanakan proses setup, konfigurasi dan maintenance  Kerberos untuk autentikasi dalam cluster. Kedua, Ambari menyertakan support untuk instalasi dan konfigurasi Apache Ranger, yang digunakan untuk  administrasi, autorisasi dan audit sekuriti secara terpusat.
  • – Ambari alerts framework, di mana diperkenalkan sistem metrics dan monitoring Hadoop yang baru, untuk menggantikan Nagios dan Ganglia. Ide di balik sistem yang baru ini adalah memonitor Hadoop dengan Hadoop. Hasil pengukuran dan pencatatan sistem disimpan ke dalam HBase cluster, sehingga pengguna dapat menentukan sendiri berapa lama dan berapa besar data monitoring yang akan dicatat dan disimpan.

Dengan berbagai fitur tersebut, dan banyak lagi yang akan ditambahkan ke depannya, maka pantaslah jika Ambari 2.0 disebut sebagai tools open source untuk Hadoop Cluster manajemen yang paling lengkap saat ini.

Source :

http://hortonworks.com/blog/announcing-apache-ambari-2-0/
https://ambari.apache.org/
http://www.zdnet.com/article/hortonworks-founder-ambari-2-0-is-as-big-a-deal-as-hadoop-2-0/


Id Big Data

Penggunaan Big Data Untuk Memantau Kondisi Pesawat Selama Penerbangan

UTC Aerospace Systems menggunakan data dari sistem onboard pesawat untuk memantau kondisi operasional dan posisi pesawat selama berada dalam rute penerbangan. Aircraft Data Management yang dimiliki oleh UTC Aerospace System menggunakan data sangat besar yang dihasilkan oleh pesawat, yang digunakan oleh awak operasi pesawat dan juga dapat digunakan secara bersamaan oleh tim operasional yang berada di darat. Penggabungan informasi kondisi pesawat dengan informasi posisi memungkinkan operator untuk mendapatkan informasi yang jelas terhadap seluruh armada penerbangan yang ada pada waktu tertentu.

Laporan dan data dari kondisi dan posisi pesawat terintegrasi dengan berbagai jenis penyedia jasa komunikasi, termasuk SATCOM atau ACARS, yang mengintegrasikan antara sistem onboard pada pesawat dengan portal komunikasi selama penerbangan. Semua ini berkat Aircraft Interface Device (AID) yang dimiliki oleh UTC Aircraft System. Semua anomali informasi apapun harus dapat dideteksi dan dikirimkan kepada tim operasional yang berada di darat secara otomatis dan cepat, sehingga dapat meningkatkan faktor keselamatan penerbangan.

Sumber :

Id Big Data


Big Data dan Penerbangan

Menurut Fajar Muharandy, Chief Solution Architect, kebanyakan orang masih terpaku dengan Big Data sebagai istilah di mana terdapat kumpulan himpunan data dalam jumlah sangat besar sukar ditangani dengan manajemen basis data biasa, sehingga membutuhkan suatu teknologi. Lebih dari itu, Fajar mengatakan bahwa pemanfaatan Big Data sangat penting bagi perusahaan untuk meningkatkan layanan mereka.

Setiap perusahaan penerbangan mempunyai data masing-masing, namun, menurut Fajar, perusahaan penerbangan saat ini umumnya hanya menggunakan data pembelian tiket penumpang, seperti kota asal dan kota tujuan, serta pembelian tiket melalui situs resmi atau tidak. Perusahaan penerbangan tidak melihat data di luar itu, data interaksi ketika calon penumpang berada di depan komputer untuk membeli tiket, misalnya.

“Airlines mungkin hanya melihat si Fajar terbang dari Jakarta-Jogja misalnya, tapi sebelum memutuskan itu sebenarnya dia ingin menuju Solo,” ujar Fajar.

Menurut Fajar, penting bagi perusahaan penerbangan untuk melihat pola interaksi calon penumpangnya. Sebagai contoh, ketika penumpang mengetik Solo dalam situs penjualan tiket, kemudian menge-klik back dan mengetik Jogja, kota dengan bandara terdekat dari Solo, perusahaan patut mencurigai pola interaksi seperti ini. Bisa jadi penumpang membeli tiket Jogja karena penerbangan Solo lebih terbatas atau lebih mahal.

Perusahaan penerbangan dapat memanfaatkan Big Data tersebut untuk kemudian memperbanyak jumlah penerbangan ke Solo atau memberikan harga promo atau bekerja sama dengan travel agent untuk memfasilitasi penumpang dari Jogja ke Solo. “Kalau Airlines mengetahui data ini (Big Data aktivitas penumpang di website), mereka mungkin bisa mengambil keputusan yang lebih tepat, dengan membuat rute yang lebih atraktif karena mengetahui market yang potensial,” kata Fajar.

Source :

Industri Penerbangan Memanfaatkan Teknologi Big Data


Big Data dan IoT Meningkatkan Layanan Transportasi Umum di London

Transportation for London (TfL) menggunakan data transaksi pelanggan maupun data sensor untuk memberikan layanan yang lebih baik dan inovasi untuk memberikan kepuasan pada penggunanya. TfL merupakan sebuah badan pemerintah daerah yang mengelola dan mengawasi sistem transportasi bis, kereta api, taksi, jalan raya, jalur sepeda, jalan setapak dan bahkan feri yang digunakan oleh jutaan orang setiap harinya di kawasan London dan sekitarnya. Data diambil melalui sistem tiket serta sensor yang ada pada kendaraan dan sinyal lalu lintas, survei dan kelompok fokus, dan juga media sosial.

Lauren Sager-Weinstein, kepala analisis di TfL, mengatakan tentang dua prioritas utama dalam pengumpulan dan penganalisaan data yaitu layanan perencanaan perjalanan dan memberikan informasi kepada pelanggan.
“London tumbuh pada tingkat yang fenomenal,” katanya.
“Populasi saat ini 8,6 juta dan diperkirakan akan mencapai 10 juta dengan cepat. Kita harus memahami bagaimana mereka berperilaku dan bagaimana mengelola kebutuhan transportasi mereka.”

Data dan analisanya digunakan antara lain untuk :

  1. Pemetaan perjalanan. Data dibuat anonim dan digunakan untuk menghasilkan peta yang menunjukkan kapan dan dimana orang-orang bepergian, sehingga dapat memberikan gambaran secara keseluruhan yang lebih akurat, serta memungkinkan analisa yang lebih detail sampai pada level individu.
  2. Kejadian tak terduga. Analisa Big Data membantu TfL memberikan reaksi yang cepat ketika terjadi gangguan layanan transportasi. Seperti misalnya pada kejadian penutupan Putney Bridge yang dilintasi 870 ribu orang setiap harinya. Untuk mengatasi permasalahan semacam ini, informasi rute dan moda transportasi alternatif harus diberikan secara akurat.
  3. Berita perjalanan. Data perjalanan juga digunakan untuk mengidentifikasi pelanggan yang menggunakan rute tertentu secara rutin dan memberikan informasi terkini disesuaian dengan profile mereka.

TfL sedang berusaha untuk mengadopsi Hadoop dan solusi Open Source lainnya untuk mengatasi pertumbuhan data yang sangat cepat. Rencana kedepannya termasuk untuk meningkatkan kapasitas analisa real-time dan mengintegrasikan sumber data yang lebih banyak. TfL juga menyediakan data melalui API yang dapat digunakan oleh pengembang aplikasi lain. Semua itu bertujuan untuk memberikan layanan yang lebih baik mengenai perencanaan perjalanan dan informasi kepada pengguna jasa.


Sumber :

Id Big Data

Penerapan Deep Learning Dalam Mendeteksi Malware

Tim data science dari Cylance , tengah mengembangkan pendeteksi malware dengan menggunakan teknik yang disebut “Deep Learning”, sebuah subset lebih rinci dari machine learning. Teknik ini yang diklaim mampu mendeteksi dan menentukan apakah sepenggal kode mengandung malware atau tidak hanya dalam waktu 100 milidetik bahkan kurang.

Dengan peningkatan jumlah malware yang dihasilkan setiap hari, kebutuhan untuk metode yang lebih otomatis dan cerdas untuk belajar, beradaptasi, dan menangkap malware sangat penting. Cylance memiliki sampai 2 petabyte data set untuk digunakan dalam teknik machine learning.

Matt Wolf, kepala data science di Cylance, mengatakan bahwa ia dan timnya biasanya menggunakan beberapa ratus CPU yang berjalan selama berhari-hari untuk memproses dan bekerja dalam mengolah data, dan membutuhkan waktu berminggu-minggu bahkan bulanan untuk melatih mesin untuk belajar tentang hal-hal tersebut. Dibutuhkan ratusan gigabyte memori, CPU dan “mesin besar,” katanya.

Menurut Wolf, premis utama di balik machine learning adalah pencocokan pola. Ketika melihat sebuah malware, mungkin tidak akan terlihat pola. Tapi ketika melihat setengah dari miliaran contoh, mungkin ada banyak sekali pola yang relatif mudah untuk dibedakan. Tujuan dari model ini adalah untuk menemukan pola-pola ini.

Konsep dalam penggunaan machine learning dan deep learning bukan merupakan suatu hal yang baru, tetapi dalam beberapa tahun terakhir hal ini menjadi lebih realistis untuk diimplementasikan. Dengan opsi komputasi awan membuat biaya komputasi big data menjadi lebih terjangkau, karena kita tidak perlu membangun data center dengan ratusan server lagi.

Sebuah sistem deep learning akhirnya bisa menggantikan alat deteksi malware yang ada saat ini, Wolff mengatakan. “Sebuah sistim machine learning lebih efektif dari mesin berbasis signature”

Untuk informasi lebih lengkap, dapat mengakases artikel Researchers Enlist Machine Learning In Malware Detection DISINI


Sumber :

Id Big Data

Big Data Untuk Penanggulangan Bencana: Ketika Data Menyelamatkan Jiwa

Menangani bencana alam adalah sebuah pekerjaan yang tidak mudah. Sering kali diperlukan koordinasi berlapis-lapis dan komunikasi antara berbagai organisasi bahkan berbagai negara untuk dapat memberikan bantuan dengan efektif. Permasalahan ini masih ditambah lagi dengan keadaan wilayah yang rusak setelah tertimpa bencana alam, dan putusnya jalur-jalur komunikasi akibat kerusakan infrastruktur. Di beberapa negara berkembang, infrastruktur ini tidak memadai bahkan kadang tidak tersedia sama sekali. Pemerintah biasanya memegang peranan penting dalam mengatasi tantangan-tantangan logistik semacam ini, akan tetapi beberapa tahun belakangan ini ada lagi hal penting yang terbukti sangat membantu penanganan bencana, yaitu adanya usaha pemerintah untuk mendukung kebebasan penggunaan dan penyebaran data sesudah kejadian-kejadian darurat.

Inisiatif untuk menyediakan open data dan mendukung pengembangan teknologi baru terkait data, terbukti telah menyelamatkan banyak jiwa. Mulai dari bencana gempa bumi tahun 2010 di Haiti sampai dengan gempa bumi di Nepal tahun 2015. Pembuat kebijakan di seluruh dunia perlu melihat contoh-contoh nyata tersebut untuk dapat meningkatkan dukungan mereka dalam hal penanggulangan bencana, maupun untuk lebih mempersiapkan diri menghadapi kemungkinan adanya bencana di masa yang akan datang.

Open data telah menjadi salah satu alat yang paling bermanfaat dalam membantu para relawan dan pekerja tanggap darurat, dengan memberikan informasi geospasial yang terkini dan akurat, dan memberikan informasi yang sangat diperlukan untuk melakukan perencanaan dan penentuan prioritas dalam pengambilan keputusan bagi organisasi kemanusiaan maupun pemerintah. Platform data geospasial semacam OpenStreetMap, yaitu sebuah project pemetaan yang bersifat open source, memungkinkan para relawan untuk memperkirakan tingkat kerusakan dengan cepat, dan memonitor pelaksanaan penanggulangan bencana.

Sesudah super taifun Haiyan melanda Filipina pada bulan November 2013, Palang Merah Internasional dan para relawan online berkolaborasi dalam melakukan lebih dari 1.5 juta update pada OpenStreetMap dalam waktu 6 hari saja, dengan menggabungkan laporan yang bersifat crowdsource dari berbagai pekerja lapangan dengan data dari lembaga geospasial Amerika serta data dari pemerintah Filipina.

Untuk mengantisipasi kedatangan Hurricane Sandy, pemerintah kota New York menerbitkan peta daerah evakuasi yang terbaru di portal open datanya, dan bekerja sama dengan organisasi seperti The New York Times dan Google’s Crisis Response Team untuk mengolah dan menggabungkan data dari penampungan, pusat distribusi makanan, dan jalur-jalur evakuasi. Sebuah pekerjaan yang diperkirakan memerlukan 10 kali lipat tenaga dibanding metode tradisional.

Saat ini usaha penanggulangan bencana untuk Nepal memanfaatkan Humanitarian Data Exchange, sebuah open portal yang menggabungkan data-data penting dari pemerintah, lembaga kemanusiaan, dan sumber akademik, yang sebelumnya sangat sulit atau memakan banyak waktu bagi para relawan dan pekerja sosial untuk mendapatkannya. Sebagai contoh, para relawan dapat menemukan data sebaran curah hujan dari USAID bersama dengan data batas administratif Nepal dari University of Georgia, serta data harga bahan makanan dari World Food Programme dari PBB.

Selain menyediakan data yang penting, pemerintah juga dapat berperan penting dalam mendukung inovasi teknologi yang dapat membantu para relawan. Sesudah Badai Sandy melanda New York, dilakukan upaya penanggulangan bencana menggunakan teknologi analytics yang dibuat oleh Palantir, sebuah perusahaan yang dimulai dari pendanaan CIA, untuk memprediksi lokasi-lokasi yang mungkin paling memerlukan obat-obatan, makanan, dan pakaian, serta mengkoordinasikan usaha untuk mengatasinya. Di Nepal, para relawan bencana berhasil menyelamatkan empat korban yang terjebak dalam reruntuhan dengan menggunakan sensor canggih dari NASA dan U.S. Department of Homeland Security, yang dapat mendeteksi detak jantung di balik timbunan reruntuhan. Dan baru-baru ini U.S. National Science Foundation bersama Lembaga Sains dan Teknologi Jepang menjalin kerja sama untuk mengembangkan teknologi tanggap darurat yang bersifat data-driven, mulai dari sistem penyampaian informasi yang context-aware sampai dengan algoritma pencarian yang dapat mengenali bau, untuk mendeteksi polutan dan bahan berbahaya menggunakan jaringan sensor dalam air maupun udara.

Tentunya tidak hanya pemerintah yang berperan penting dalam hal penanggulangan bencana, sektor swasta pun dapat menyumbangkan data yang penting untuk kejadian-kejadian darurat. Ketika gempa bumi dan tsunami Tohoku memporak porandakan Jepang pada 11 Maret 2011, pemerintah Jepang meminta pabrikan mobil semacam Toyota dan Honda untuk mengaktifkan GPS tracking di kendaraan yang mereka buat. Perusahaan-perusahaan ini menggunakan data perjalanan pengguna mobil mereka, yang menunjukkan di mana para pengemudi memutar arah akibat kerusakan jalan, kecelakaan dan hambatan lainnya, untuk membuat peta yang akurat tentang jalur-jalur yang aman dan masih dapat dilalui dalam waktu hanya 24 jam setelah terjadinya bencana.

Jenis-jenis data tools ini telah terbukti sangat membantu aksi tanggap darurat dan dapat menyelamatkan banyak jiwa. Dukungan yang terus menerus dari pemerintah sangat mendukung kesuksesan upaya semacam ini. Meyadari hal ini, para pembuat kebijakan hendaknya mengetahui cara-cara untuk dapat mendukung secara proaktif pengembangan dan penggunaan teknologi data bagi penanggulangan bencana, dan melakukan upaya pencegahan terhadap potensi masalah yang bisa muncul, tanpa menunggu datangnya keadaan darurat. Sebagai contoh, sebagian besar data geospasial yang sangat penting bagi kegiatan tanggap darurat sumbernya adalah dari pemerintah, akan tetapi tanpa komitmen yang mengikat secara hukum bagi pemerintah dan lembaganya untuk membuka akses terhadap open data, data krusial ini bisa jadi tidak terakses oleh para relawan.

Di tingkat lokal, negara bagian dan propinsi, para pengambil keputusan mestinya mencontoh apa yang dilakukan oleh pemerintah kota New York dan membangun portal open data yang robust, berisi informasi yang bermanfaat bagi masyarakat di masa darurat. Negara-negara yang memiliki sarana hendaknya terus berinvestasi dalam riset dan pengembangan project data yang dapat menjadi penyelamat jiwa dalam keadaan bencana.

Seiring munculnya metode baru yang berbasiskan data, seperti misalnya penggunaan data telepon selular untuk mengawasi penyebaran Ebola di Afrika Barat, masyarakat mungkin khawatir akan resiko terganggunya privacy sehingga enggan untuk berpartisipasi. Di samping itu, negara dengan aturan privacy yang ketat mungkin tidak dapat mengikuti jejak Jepang dalam kesuksesannya memanfaatkan sistem emergency car tracking yang disebutkan di atas. Meski demikian, para pengambil keputusan memiliki tanggung jawab untuk mempertimbangkan dengan sungguh-sungguh bahwa keuntungan penggunaan teknologi yang dapat menyelamatkan jiwa ini bisa jadi jauh lebih besar dari resiko privacy yang mungkin timbul.

Meskipun bencana alam dan bencana lainnya mungkin tak dapat dihindarkan terjadinya, penggunaan data telah terbukti dapat mengurangi kerusakan dan kerugian material maupun jiwa yang ditimbulkannya. Dan dengan dukungan dari para pembuat keputusan, mestinya penggunaan data dan teknologinya akan dapat menyelamatkan jauh lebih banyak lagi jiwa.


Diterjemahkan dari : http://www.datainnovation.org/2015/07/big-data-means-big-relief-for-disaster-victims/


Sumber :

Id Big Data

Pivotal Analytics Engine Memperkuat Ekosistem Open Source Hadoop

Akhir september 2015 lalu, Pivotal mengumumkan telah menyumbangkan HAWQ dan MADLib kepada dunia open source melalui Apache Software Foundation. Pivotal merupakan sebuah perusahaan penyedia perangkat lunak dan layanan pengembangan aplikasi untuk data dan analisis berbasis teknologi komputasi awan.

Apache HAWQ, diluncurkan pertama kali tahun 2013 dengan nama Pivotal HAWQ, yang dibangun berdasar pengetahuan dan pengalaman yang diperoleh dari pengembangan data warehouse sistem Pivotal Greenplum dan PostgreSQL. Apache HAWQ menyediakan kemampuan untuk melakukan query dengan antarmuka SQL pada Hadoop secara native. HAWQ dapat membaca dan menulis data dari HDFS.

Apache HAWQ memiliki beberapa keunggulan :

1. Kinerja yang sangat tinggi
Arsitektur pemrosesan paralel HAWQ memberikan throughput kinerja tinggi dan waktu respon yang cepat, berpotensi mendekati real time, dan dapat menangani data berskala petabyte, serta beroperasi secara native dengan Hadoop.

2. ANSI SQL
mendukung antarmuka SQL, yang tentu saja akan mudah diintegrasikan dengan aplikasi lain termasuk BI/visualisasi tools, serta mampu mengeksekusi query yang kompleks.

3. Integrasi dengan Ekosistem Hadoop.
Terintegrasi dan dapat dikelola melalui YARN, serta dapat diinstal dengan AMBARI. HAWQ juga mendukung Parquet, AVRO, HBase dan lainnya. HAQW mudah diupgrade untuk menjaga kinerja dan kapasitas melalui penambahan nodes.

MADlib merupakan machine learning library untuk SQL yang terintegrasi dengan HAWQ. MADlib dikembangkan oleh Pivotal, bekerjasama dengan peneliti dari Unversitas California, Berkeley, Universitas Standford, Universitas Florida dan klien dari Pivotal. MADlib telah digunakan di bidang finansial, otomotif, media, telekomunikasi dan industri transportasi.

Dalam press release yang diumumkan melalui pivotal.io, Gavin Sherry, Vice President dan CTO Pivotal, berkeyakinan bahwa teknologi HAWQ dan MADlib sebagai proyek inkubasi Apache akan memberikan kemampuan pemrosesan SQL yang belum pernah terjadi sebelumnya kepada pengembang dan pengguna Hadoop.

sumber :

http://pivotal.io/big-data/press-release/pivotal-open-sources-top-analytics-engine

http://hawq.incubator.apache.org/

http://madlib.incubator.apache.org/


Sumber :

Id Big Data

Kini Anda pun Bisa Ikut Mengembangkan Google Machine Learning Engine

Baru-baru ini Google mengumumkan bahwa mereka membuka TensorFlow menjadi open source dengan lisensi Apache 2.

Tensor Flow sendiri adalah machine learning engine yang dipakai Google di banyak aplikasi mereka, mulai dari pengenalan suara, SmartReply yang membantu pengguna dengan mengidentifikasi email penting sekaligus memberikan usulan balasannya, pengenalan gambar yang memungkinkan kita melakukan pencarian berdasarkan foto, mengenali dan menerjemahkan tulisan dari sebuah foto, dan lain-lain.

Menurut Google, engine ini dapat digunakan baik dalam riset maupun komersial, mulai dari mesin besar sampai telepon genggam. TensorFlow menggunakan metode deep learning dalam prosesnya, namun dapat juga menggunakan reinforcement learning and logistic regression.

Tentunya tidak semua aspek dari machine learning engine ini dibuka untuk umum. Saat ini hanya beberapa algoritma saja yang dicakup dalam paket open source ini. Dan tentunya Google tidak membuka arsitektur dari infrastruktur luar biasa canggih di balik engine tersebut. Versi open source ini pun adalah versi yang hanya akan berjalan di single computer, bukan yang bisa berjalan di jaringan yang besar. Namun demikian, langkah ini tetaplah sebuah langkah yang luar biasa, mengingat TensorFlow adalah bagian dari aplikasi inti Google saat ini.

Dengan langkah ini Google mengharapkan akan banyak pihak yang ikut mengembangkan teknologi Artificial Intelligence, terutama dengan menggunakan tools mereka. Dengan demikian diharapkan teknologi ini dapat berkembang dengan lebih cepat. Cara ini juga diharapkan dapat mencetak banyak ahli di bidang AI, dan membantu Google untuk menemukan calon-calon potensial untuk ditarik bekerja di Google.

Google sudah mempersiapkan website yang dilengkapi dengan tutorial dan dokumentasi untuk mulai mempelajari machine learning. Kini siapapun dapat ikut serta mengembangkan TensorFlow, termasuk anda.

Selamat belajar!


Sumber :

Id Big Data

Microsoft Machine Learning Toolkit Bergabung ke Open Source

Kurang dari seminggu setelah Google mengumumkan dibukanya status TensorFlow menjadi open source, Microsoft pun membuka akses ke machine learning platform mereka, DMTK (Distributed Machine Learning Toolkit).

DMTK dikembangkan oleh lab penelitian Microsoft Asia, dan di dalamnya mencakup server-based framework yang memungkinkan developer melakukan pemrograman machine learning dengan mudah. Toolkit ini juga mencakup dua algoritma yang dikembangkan Microsoft untuk melatih komputer untuk berbagai tugas.

Langkah Google dan Microsoft ini meramaikan persaingan dalam menanamkan pengaruh dan menciptakan tenaga-tenaga ahli di bidang machine learning, setelah sebelumnya di awal tahun ini Facebook juga membuka Torch , sistem deep-learning mereka. Sedangkan bagi Microsoft, strategi ini adalah langkah lebih jauh untuk menarik para developer, setelah mereka melengkapi Azure dengan kemampuan machine learning dalam cloud.

Saat ini DMTK sudah tersedia di github dengan lisensi MIT. Toolkit berisi kerangka kerja untuk model pelatihan pada beberapa server, algoritma pemodelan topik, dan algoritma word-embedding untuk pengolahan bahasa alami.

Dengan menggunakan toolkit ini, developer dapat menangani machine learning di skala dengan server yang lebih sedikit, George Thomas Jr. dari Microsoft Research.

Ketiga perusahaan ini membangun machine learning talent pool, dan kode open-source berarti bahwa orang-orang di luar kantor mereka dapat berkolaborasi dan memperbaiki itu. Perusahaan-perusahaan lain bahkan bisa menyewa orang dari komunitas ini.


Sumber :

Id Big Data

Ledakan Data di Bidang Genomics

Salah satu bidang yang menghasilkan data yang sangat besar adalah genomics. Seiring dengan semakin terjangkaunya biaya pemetaan dan semakin banyak genome yang dianalisis, data genomics akan mengalami ledakan yang dahsyat. Bidang ini bahkan diperkirakan akan menjadi penghasil data terbesar, melebihi data astronomi misalnya.

Menurut laporan yang dipublikasikan di jurnal PloS Biology (http://dx.doi.org/10.1371/journal.pbio.1002195), di tahun 2025 akan ada antara 100 juta sampai 2 milyar human genome yang telah dipetakan. Kapasitas penyimpanan data untuk keperluan ini saja dapat mencapai 2–40 exabytes (1 exabyte = 1018 bytes), karena jumlah data yang harus disimpan untuk sebuah genome setidaknya memerlukan 30 kali ukuran data genome itu sendiri. Hal ini untuk mengantisipasi adanya kesalahan yang mungkin timbul selama proses pemetaan dan analisis pendahuluan.

Jumlah tersebut melebihi perkiraan kapasitas penyimpanan data YouTube di tahun 2025, yang sebesar 1-2 exabytes, dan data Twitter yang diperkirakan mencapai 1-17 petabytes per tahun (1 petabyte = 1015 bytes). Jumlah data tersebut juga melebihi perkiraan data tahunan Square Kilometre Array (http://www.nature.com/news/cloud-computing-beckons-scientists-1.15298), sebuah project yang direncanakan menjadi project astronomi terbesar di dunia.

Namun permasalahan penyimpanan ini hanyalah salah satu permasalahan saja. Keperluan komputasi untuk mengumpulkan, mendistribusi, dan menganalisis data genomics ini akan jauh lebih besar lagi.

Perubahan Besar

Gene Robinson, ahli biologi UIUC yang juga salah satu co-author paper tersebut menyatakan, hal ini menegaskan bahwa bidang genomics akan memberikan banyak tantangan berat. Beberapa perubahan besar perlu dilakukan untuk dapat menangani ukuran data yang besar dan kebutuhan akan kecepatan analisis.

Narayan Desai, seorang computer scientist dari Ericsson San Jose mengatakan bahwa perbandingan data dengan bidang lain seperti dilaporkan dalam paper tersebut sebenarnya kurang tepat. Ada banyak hal yang tidak diperhatikan dalam melakukan perbandingan, seperti misalnya laporan tersebut menganggap ringan pemrosesan dan analisis video dan teks yang dilakukan oleh YouTube maupun Twitter, seperti misalnya untuk keperluan iklan yang terarah maupun penyajian video ke dalam format yang beragam.

Meskipun demikian, genomics tetap harus memperhatikan permasalahan mendasar mengenai berapa besar data yang sebenarnya akan dihasilkan di bidang ini. Karena sehebat apapun teknologi, kapasitas penyimpanan dan komputasi untuk mengumpulkan dan menganalisis data tetaplah terbatas, sehingga kedua hal tersebut harus digunakan dengan sebaik-baiknya. Karena proses pemetaan semakin terjangkau, komunitas genomics pun tumbuh dengan sangat pesat dan tersebar. Komunitas yang tersebar ini cukup menyulitkan dalam mengatasi permasalahan seperti yang disebutkan di atas. Bidang-bidang lain yang memerlukan banyak resource semacam ini, seperti misalnya high-energy physics, komunitasnya lebih terpusat. Mereka memerlukan koordinasi dan konsensus untuk perancangan instrumen, pengumpulan data, dan strategi sampling. Berbeda dengan data genomics yang terkotak-kotak, meskipun akhir-akhir ini mulai muncul ketertarikan untuk menyimpan data-data genomics secara terpusat dalam cloud.

Kerja Sama

Berbeda dengan ahli genomics, setelah data mentah dikumpulkan para astronomer dan ahli fisika segera memprosesnya, dan kemudian data mentah tersebut dibuang. Cara ini menyederhanakan langkah-langkah distribusi dan analisis selanjutnya. Akan tetapi genomics belum memiliki standar baku untuk konversi data mentah menjadi data yang sudah diproses.

Menurut paper tersebut, jenis analisis yang ingin dilakukan oleh para ahli biologi terhadap data genomics ini juga sangat beragam dan metode yang digunakan belum tentu dapat berfungsi baik dengan peningkatan volume data yang besar. Misalnya untuk membandingkan dua genome diperlukan perbandingan antara dua set varian genetik. “Jika kita mempunyai satu juta genome, maka jumlah perbandingannya adalah satu juta kuadrat”, papar Saurabh Sinha, seorang komputer saintis dari UIUC dan salah satu co-author dari paper tersebut. “Algoritma yang digunakan untuk melakukan proses tersebut akan sangat kewalahan.”

Robert Brunner, seorang Observational cosmologist dari UIUC mengatakan, alih-alih membandingkan bidang ilmu, dia ingin ada sebuah kerja sama dalam mengatasi permasalahan terkait big-data yang mencakup banyak bidang, sehingga didapatkan manfaat yang lebih besar. Misalnya keterbatasan jenjang karir untuk spesialisasi komputasi dalam dunia sains, dan kebutuhan akan jenis penyimpanan dan kapasitas analisis yang belum tentu dapat dipenuhi oleh dunia industri.

“Genomics menghadapi tantangan yang sama dengan astronomi, ilmu mengenai atmosfer, ilmu tentang tumbuh-tumbuhan, fisika partikel, dan domain-domain big data yang lain,” kata Brunner. “Yang penting untuk dilakukan saat ini adalah menentukan apa masalah yang dapat kita pecahkan bersama-sama.”

Diterjemahkan dari : Genome researchers raise alarm over big data


Sumber :

Id Big Data