Tag Archives: IdBigData

Apache Storm 1.0 Peningkatan Performa dan Sarat Fitur Baru

Pada tanggal 12 April lalu versi terbaru dari Apache Storm dirilis. Taylor Goetz, VP Apache Software Foundation untuk project Apache Storm, menyatakan bahwa versi 1.0 ini merupakan sebuah titik yang penting dalam evolusi Apache Storm. Versi terbaru ini mengandung sejumlah besar fitur baru dan perbaikan kinerja.

Storm merupakan sebuah event processor yang memungkinkan dilakukannya proses data streaming secara terdistribusi. Aplikasi Storm terdiri dari komponen yang disebut dengan “spout” dan “bolt”, yang dikonfigurasi dalam sebuah Direct Acyclic Graph untuk merepresentasikan pemrosesan data. Ciri utama dari Storm adalah kemampuan untuk melakukan proses data secara real time.

Apache Storm versi 1.0 memiliki peningkatan performa yang cukup dramatis bahkan diklaim hingga 16 kali lebih cepat dari versi sebelumnya dengan pengurangan latensi hingga 60%. Selain performa ada beberapa fitur yang patut menjadi perhatian, diantaranya :

  1. Pacemaker, heartbeat daemon yang memiliki performa lebih baik dari Zookeeper
  2. Distributed Cache API, yang memungkinkan berbagi file antar topology
  3. High Availability Nimbus, mengatasi permasalahan single point of failure pada Nimbus proses
  4. Streaming Window API, yang menambahkan dukungan terhadap parameter window length dan sliding interval
  5. Automatic Backpressure, yang memungkinkan memperlambat spout secara otomatis ketika ambang batas dari ukuran task buffer terlampaui
  6. Resources Aware Scheduler, implementasi scheduler baru yang menggunakan ketersediaan memory dan CPU sebagai dasar untuk pengaturan task kepada worker
  7. Dynamic Worker Profiling, fitur baru ini memungkinkan pengguna untuk melihat data profile dari worker langsung dari Storm UI

Apache Storm 1.0 ini dapat didownload pada laman https://storm.apache.org/releases.html


Source : IDBigData

Challenges For The Biomedical Industry In Terms Of Big Data

Tantangan Industri Biomedis untuk Big Data

Lahirnya Next-Generation Sequencing (NGS) berakibat pada pertumbuhan data genomic secara eksponensial. NGS berhasil memangkas waktu dan biaya yang dibutuhkan untuk melakukan sequencing sebuah genom secara drastis. Biaya sequencing turun secara signifikan dari sekitar US$100M pada tahun 2001 menjadi sekitar US$1000 di tahun 2015. Sebuah studi kasus diagnostik genom http://www.genomemedicine.com/content/7/1/100?utm_source=datafloq&utm_medium=ref&utm_campaign=datafloq pada tahun 2015 menunjukkan bahwa waktu yang diperlukan untuk melakukan whole genome sequencing, analisis dan diagnosis penyakit genetik pada bayi yang sakit berat adalah 26 jam.

8-challenge_04

Apakah perpaduan teknologi antara industri biomedis dan big data akan dapat mendukung perkembangan data genomics di masa datang? Berikut adalah beberapa hambatan dan tantangan yang dihadapi dalam perkembangan pemanfaatan data genomics :

  • Meskipun biaya sequencing dan storage sudah relatif rendah, namun biaya komputasi terutama dari sisi infrastruktur masih relatif tinggi. Cloud computing dapat menjadi solusi terhadap kebutuhan komputasi, namun transfer data genomics yang sangat besar dari mesin sequencing ke cloud dapat menjadi tantangan tersendiri.
  • Privasi data genomics juga menjadi sebuah isu, karena penggunaan dan penyebaran (sharing) data tersebut tidak dapat diprediksi. Meskipun data dikumpulkan secara anonimus, masih ada kemungkinan re-identifikasi sehingga menjadi peluang timbulnya pelanggaran privasi.
  • Interoperabilitas antar database genomics maupun dengan sistem medis lainnya (misalnya Electronic Medical Records atau EMR) menjadi tantangan lain yang harus diatasi agar proyek-proyek kolaborasi semacam 100.000 Genome Project (http://www.genomicsengland.co.uk/the-100000-genomes-project/?utm_source=datafloq&utm_medium=ref&utm_campaign=datafloq) dapat memberikan manfaat yang sebesar-besarnya bagi masyarakat maupun pasien yang membutuhkan.
  • Nilai tambah yang ditawarkan oleh bidang translational genomics kepada industri biomedis mungkin tidak langsung terlihat hasilnya. Biaya yang harus dikeluarkan oleh sebuah organisasi untuk menyimpan dan mengolah data genomics mungkin tidak bisa memberikan keuntungan finansial dalam jangka pendek. Hal ini dapat menyurutkan keinginan untuk berinvestasi di bidang ini. Namun, pengetahuan yang didapat dari proyek-proyek yang bersifat riset dapat memberi manfaat yang sangat besar bagi masyarakat maupun bagi pengembangan produk mereka sendiri. Penyedia solusi big data yang mendukung platform big data di bidang genomics akan dapat memperoleh keuntungan dengan menyediakan jasa penyimpanan, pemrosesan dan analisis data.

Perusahaan seperti AWS, Oracle dan Google menempatkan diri sebagai pemain kunci dalam penyediaan infrastruktur komputasional di bidang biomedis dengan menyediakan infrastruktur bagi penyimpanan dan analisis data genomics. Mereka menyadari potensi nilai yang didapat dari penyediaan platform untuk riset genomics.

Dengan semakin menurunnya biaya sequencing dan dengan dimungkinkannya sequencing dalam skala besar, kita dapat menyaksikan pergeseran dari pengobatan reaksioner (mengobati setelah timbulnya penyakit) menjadi pengobatan prediktif dan proaktif. Database genomics yang besar memungkinkan dilakukannya riset untuk lebih memahami dasar-dasar genetik pada bermacam-macam penyakit.

Pengetahuan ini akan mendorong pengembangan obat-obatan dan terapi yang lebih terarah dan bersifat preventif, dan juga memungkinkan pengembangan alat interpretasi genomics secara individual untuk keperluan konseling bagi individu untuk mencegah kemungkinan munculnya penyakit atau kondisi yang berkaitan dengan kecenderungan genetik.


Source :

Id Big data – Challenger For The Biomedical Industry In Terms Of Big Data

Solusi247 Mengadakan Pelatihan Big Data untuk Dosen & Mahasiswa FST UAI

Jakarta- Solusi247 bekerjasama dengan Fakultas Teknik Informatika Universitas Al Azhar Indonesia menyelenggarakan Workshop Big Data. Acara ini diadakan pada tanggal 7-8 Maret 2016 bertempat di Laboraturium Puskom yang dihadiri oleh narasumber  Bapak Ir. Solechoel Arifin, M.Sc dari Solusi247 dan Rusnah Setiani, S.T dari alumni Teknik Informatika UAI, juga hadir Bapak Dr. Ir. Ade Jamal Wakil Rektor II, Mahasiswa Teknik Informatika dan para Dosen FST UAI yang mengikuti pelatihan ini. Acara ini diawali dengan Penandatanganan kerjasama antara Ibu Ir. Winangsari Pradani, M.T. selaku Ketua Program Studi Teknik Informatika dan Bapak Aria Rahendra selaku Chief Marketing Officer (CSO) Solusi247.

Para peserta diberikan kesempatan untuk berlatih bagaimana cara mengelola kekuatan data yang sangat besar (Big Data) yang selanjutnya akan dianalisa atau diolah lagi untuk keperluan tertentu seperti membuat keputusan, memprediksi, dan hal lainnya yang memerlukan infrastruktur yang dapat mengelola dan memproses data.

Diharapkan dalam pelatihan ini dapat meningkatkan kemampuan para peserta yang tidak lain adalah Dosen dan Mahasiswa FST UAI. Acara diakhiri dengan penyerahan cideramata dan foto bersama.


 

Source : Pelatihan Big Data di UAI

Apache Arrow – In-Memory Columnar Data Layer

Pada tanggal 17 Februari 2016 lalu, Apache Software Foundation mengumumkan Apache Arrow sebagai top-level project tanpa melalui masa inkubasi yang panjang. Apache Arrow semula merupakan pengembangan dari Apache Drill, dibangun atas kolaborasi beberapa project open source unggulan lainnya dan bertujuan untuk menjadi standar de-facto bagi pemrosesan data in-memory yang tersusun secara columnar. Proyek-proyek Big Data yang telah bergabung dalam pengembangan Apache Arrow adalah Calcite, Cassandra, Drill, Hadoop, HBase, Impala, Kudu (incubating), Parquet, Phoenix, Spark, Storm, Pandas dan Ibis.

Apache Arrow bukan merupakan sebuah engine ataupun sistem penyimpanan. Ia adalah sebuah format dan algoritma untuk bekerja secara hirarkis, in-memory dan columnar serta mendukung sejumlah bahasa pemrograman yang dapat bekerja diatasnya.

“Data dalam memori yang tersusun secara columnar memungkinkan sistem dan aplikasi memproses data pada kecepatan maksimum dari hardware” ujar Todd Lipcon, pendiri Apache Kudu dan anggota komite manajemen Apache Arrow Project.

Pada banyak proses pengolahan data, 70-80% siklus CPU dihabiskan untuk proses serialisasi dan deserialisasi data antar proses. Arrow mengatasi masalah ini dengan memungkinkan adanya sharing data antar sistem dan proses tanpa melalui proses serialisasi, deserialisasi atau penggandaan memory. Penggunaan Apache Arrow diklaim mampu mempercepat proses hingga 100 kali.

Arrow juga telah mendukung data yang kompleks dengan skema dinamis. Contohnya, Arrow mampu menangani data JSON yang umumnya digunakan pada proses IoT, aplikasi modern dan log file. Implementasinya juga sedang dikembangkan untuk beberapa bahasa pemrograman termasuk java, c++ dan python untuk memungkinkan interoperabilitas solusi big data yg lebih besar. Software apache arrow sudah rilis dengan menggunakan lisensi Apache v2.0 dan untuk mengunduh software, dokumentasi dan cara bergabung dengan Apache Arrow project silahkan mengunjungi http://arrow.apache.org/


Sumber :

Id Big Data

Genomics : The Next Big Thing in Big Data

Apa itu Genomics?

Genomics adalah bidang yang mempelajari genome, untuk memahami bagaimana suatu organisme bekerja, dan apa akibat dari interaksi antar gen serta pengaruh lingkungan terhadapnya. Sedangkan genome adalah materi genetik yang menjadi cetak biru atau rancangan dari suatu mahluk hidup. Informasi ini diwariskan secara turun temurun dan tersimpan dalam DNA, atau pada beberapa jenis virus, dalam RNA.

Ukuran genome dinyatakan dalam bp atau base pair, yaitu jumlah pasangan nukleotida dalam DNA.

Manusia memiliki sekitar 3 miliar bp dalam genome-nya. Sebetulnya manusia genome manusia 99.9% mirip. Namun perbedaan yang hanya 0.1% tersebut telah menghasilkan keragaman yang sangat besar pada penampilan maupun kondisi fisik seseorang.

Apa Pentingnya Genomics?

Saat ini genomics memiliki peran yang besar dalam berbagai bidang, mulai dari kesehatan, pertanian, lingkungan, industri maupun perkembangan ilmu pengetahuan. Dengan mempelajari gen, manusia dapat menemukan solusi dari banyak permasalahan mendasar di banyak bidang kehidupan.

Misalnya, di bidang medis, genomics dapat membantu dalam meningkatkan kualitas diagnosis penyakit, mengidentifikasi predisposisi terhadap penyakit tertentu (misalnya diabetes tipe 2, penyakit huntington, dll), mendeteksi virus dan bakteri penyebab penyakit, mengembangkan obat yang disesuaikan dengan informasi genetik seseorang (disebut juga ‘personalized medicine’, misalnya penggunaan penanda genetik untuk membantu menentukan dosis War¬farin, obat anti penggumapalan darah, menentukan jenis dan dosis obat untuk kanker, dll), atau memantau pengaruh gaya hidup dan lingkungan terhadap genome dan kesehatan manusia.

Di bidang lingkungan, genomics membantu untuk menemukan sumber-sumber energi yang lebih sustainable seperti biofuels, mengendalikan polusi, melakukan dekontaminasi daerah yang terkena limbah (disebut juga bioremediation, seperti misalnya mikroba yang digunakan untuk membantu membersihkan tumpahan minyak di teluk Meksiko), memantau keragaman hayati dan identifikasi spesies baru.

Dalam bidang pertanian genomics dapat digunakan untuk mengembangkan tanaman yang lebih tahan terhadap serangan hama, penyakit, dan lingkungan, dapat juga digunakan untuk membantu mengidentifikasi hama, mengembangkan tanaman pangan yang lebih kaya kandungan gizi, ataupun mengembangkan ternak yang lebih berkualitas dan tahan terhadap serangan penyakit, dan lain sebagainya.

Teknologi di Balik Perkembangan Genomics

Peran genomics yang besar tersebut dimungkinkan dengan berkembangnya teknologi dalam bidang pemetaan gen dan pengolahan data.

Next Generation Sequencing

Dengan hadirnya teknologi yang disebut dengan Next Generation Sequencing, maka biaya untuk melakukan pemetaan genetik juga mengalami penurunan yang sangat ekstrim.

genomics_pt1_02

Jika sebelumnya biaya untuk melakukan sequencing atau pemetaan terhadap genome manusia adalah sebesar 100 juta US$ (dana yang digunakan pada Human Genome Project, yang di-launch di tahun 1986 dan selesai pada 2003), maka saat ini biaya pemetaan genome manusia adalah sekitar 1000 US$.

Penurunan biaya dan waktu pemrosesan menjadikan pemetaan genome menjadi sebuah proses yang terjangkau, sehingga banyak pihak dapat turut memanfaatkan dan mengembangkannya. Sebagai akibatnya, genomics pun menjadi sebuah bidang yang mengalami perkembangan yang sangat cepat pada dekade terakhir ini.

Big Data

Pemetaan dan analisis genome menghasilkan dan membutuhkan data yang sangat besar. Data hasil sequencing dapat mencapai 130 GB lebih per genome. Dengan semakin banyaknya genome yang dipetakan dan dianalisis, terjadilah ledakan di sisi data yang dihasilkan.

Tantangan selanjutnya adalah bagaimana data yang sedemikian besar dapat diproses dan dianalisis, sehingga semakin banyak penelitian maupun pemanfaatan data genomics dapat dilakukan.

Salah satu pendekatannya adalah dengan cara meningkatkan kecepatan prosesor. Teknologi seperti GPU ataupun FPGA (Field Programmable Gate Arrays) menjadi beberapa alternatif dalam hal ini. Solusi lain adalah penggunaan cloud computing, di mana data yang akan digunakan diproses di cloud, sehingga para peneliti tidak perlu membangun sendiri infrastruktur yang mereka gunakan. Namun permasalahannya adalah ketika diperlukan analisis seperti variant calling untuk mendeteksi mutasi gen, sejumlah data yang sangat besar perlu diakses dan dipindahkan ke environment analisis yang sesuai. Transfer data yang sangat besar melalui jaringan menjadi sebuah permasalahan berikutnya.

Dengan kehadiran big data, khususnya Hadoop sebagai solusi komputasi dan penyimpanan data terdistribusi, para peneliti memiliki alternatif baru yang lebih terjangkau. Hadoop menjadi alternatif bagi penyimpanan dan pemrosesan data genome dengan memberikan solusi berupa : biaya yang lebih terjangkau dengan pemanfaatan commodity hardware, peningkatan kapasitas komputasi dengan penggunaan banyak mesin secara paralel, mengurangi data movement dengan melakukan komputasi secara lokal, di mana data tersebut disimpan secara fisik.

Di samping itu, saat ini telah banyak teknologi yang dikembangkan di atas ataupun melengkapi Hadoop ekosistem, seperti misalnya Hive, Pig, Mahout, Yarn, dan lain sebagainya. Terlebih lagi setelah munculnya Spark sebagai platform pemrosesan in memory secara terdistribusi, big data menjadi sebuah alternatif solusi yang tidak dapat diabaikan lagi.

Salah satu pemanfaatan teknologi big data dalam bidang genomics ini adalah ADAM, yaitu platform analisis genomik dengan format file khusus. Dibangun menggunakan Apache Avro, Apache Spark dan Parquet. ADAM pada awalnya dikembangkan oleh Universitas Berkeley dan berlisensi Apache 2.

Referensi :

http://www.whygenomics.ca/why-should-i-care

http://blogs.uw.edu/ngopal/why-genomics/

https://blog.pivotal.io/data-science-pivotal/features/re-architecting-genomics-pipelines-to-handle-the-rising-wave-of-data


Sumber :

Id Big Data

Big Data Sebagai Alat Bantu Pengeboran Minyak dan Gas

Industri minyak dan gas kini tengah menghadapi tantangan berat, seperti meningkatnya biaya produksi dan gejolak politik internasional. Hal tersebut mempersulit usaha ekplorasi dan pengeboran cadangan minyak baru.

Beberapa tahun belakangan ini Royal Dutch Shell mengembangkan ide untuk membangun ladang minyak yang didukung oleh data atau disebut “data-driven oilfield” dalam usaha untuk mengurangi biaya pengeboran yang merupakan biaya utama industri migas.

Sejak beberapa tahun ini Shell sudah mulai memasang kabel serat optik dalam sumur minyak. Pada kabel serat optik ini terpasang sensor-sensor yang mengukur segala sesuatu dalam sumur. Dengan data-data dari sensor tersebut, Shell dapat melakukan analisa yang lebih akurat mengenai keadaan sumur minyak atau seberapa besar gas yang masih tersisa.

Sensor super sensitif dalam kabel serat optik membantu Shell menemukan minyak tambahan di dalam sumur yang diduga telah kering. Sensor-sensor yang buat oleh Hewlett-Packard ini menghasilkan data dalam jumlah yang sangat besar dan ditransfer ke dalam sistem komputasi awan Amazon Virtual Private Cloud dengan menggunakan Hadoop. Sejak pertama kali dimulai mereka telah mengumpulkan 46 petabyte data dan pada tes pertama yang mereka lakukan di salah satu sumur minyak menghasilkan 1 petabyte informasi.

Shell juga bekerja sama dengan IBM dan DreamWorks Hollywood untuk memvisualisasikan data-data yang didapat oleh sensor. Semua data yang diterima dari sensor seismik dianalisis oleh sistem kecerdasan buatan yang dikembangkan oleh Shell dan dirender menjadi peta 3D dan 4D dari reservoir minyak. Meskipun analisis dilakukan dalam komputasi awan, visualisasi segera tersedia bagi awak yang bekerja di pabrik lokal.

Melihat hasil yang dicapai mereka berkeinginan memasang sensor untuk sekitar 10.000 sumur minyak, dengan perkiraan 10 Exabytes data, atau sekitar 10 hari dari semua data yang dihasilkan oleh internet.

Source :

https://datafloq.com/read/shell-drills-deep-with-big-data/508

http://www.oilreviewmiddleeast.com/information-technology/big-data-is-the-new-drilling-tool-for-shell

http://www.smartdatacollective.com/bernardmarr/358203/big-data-big-oil-amazing-ways-shell-uses-analytics-drive-business-success/508


Sumber :

Id Big Data

Ambari 2.0. Apa Yang Baru?

Pada awal bulan ini, tepatnya 8 April 2015, Ambari 2.0, salah satu komponen pendukung ekosistem Hadoop, resmi diluncurkan.

Lalu, mahluk apakah Ambari ini, dan apa istimewanya angka 2.0 di belakangnya, sehingga Arun Murthy, co-founder Hortonwork, menyebut rilis Ambari 2.0 ini sama pentingnya dengan Hadoop 2.0?

Ambari adalah aplikasi untuk memudahkan melakukan provisioning, manajemen, dan monitoring terhadap Apache Hadoop clusters.

Pada awalnya Ambari dikembangkan oleh Hortonworks, dan sekarang sudah menjadi salah satu project Apache.

Dengan Ambari, seorang sysadmin dapat melakukan:

1.  Provisioning sebuah Hadoop cluster
Ambari menyediakan wizard yang menuntun langkah demi langkah dalam instalasi Hadoop service. Ambari juga menangani konfigurasi hadoop service untuk cluster tersebut.
2.  Manajemen Hadoop Cluster
Ambari menyediakan tools untuk melakukan start, stop, dan rekonfigurasi hadoop service di seluruh cluster.
3.  Monitoring Hadoop Cluster

ambari illus

Ambari menyediakan sebuah dashboard untuk memonitor ‘kesehatan’ dan status sebuah cluster Hadoop. Ambari memanfaatkan Ambari metric system untuk melakukan metrics collection (pengumpulan data status cluster). Ambari juga memanfaatkan Ambari alert framework untuk sistem peringatan, dan akan mengirimkan alert jika terjadi hal-hal yang perlu diperhatikan oleh sysadmin (misalnya sebuah node mati, disk space hampir penuh, dll).

Ambari juga memungkinkan para developer dan sistem integrator untuk mengintegrasikan fasilitas provisioning, manajemen dan monitoring ini ke dalam aplikasi mereka sendiri melalui Ambari REST APIs.

Fitur yang ditambahkan pada rilis 2.0 ini diantaranya adalah:

  • Automated Rolling Update terhadap HDP stack, yang memungkinkan dilakukannya upgrade terhadap sebuah cluster Hadoop yang aktif tanpa memerlukan shutdown cluster ataupun aplikasi/job di atasnya. Dengan fitur ini diharapkan user dapat tetap menggunakan cluster tersebut selama proses upgrade berlangsung.
  • – Hadoop security yang lebih komprehensif dan simpel. Ambari 2.0 membantu  provisioning, manajemen dan monitoring Hadoop cluster dengan dua cara, pertama Ambari menyederhanakan proses setup, konfigurasi dan maintenance  Kerberos untuk autentikasi dalam cluster. Kedua, Ambari menyertakan support untuk instalasi dan konfigurasi Apache Ranger, yang digunakan untuk  administrasi, autorisasi dan audit sekuriti secara terpusat.
  • – Ambari alerts framework, di mana diperkenalkan sistem metrics dan monitoring Hadoop yang baru, untuk menggantikan Nagios dan Ganglia. Ide di balik sistem yang baru ini adalah memonitor Hadoop dengan Hadoop. Hasil pengukuran dan pencatatan sistem disimpan ke dalam HBase cluster, sehingga pengguna dapat menentukan sendiri berapa lama dan berapa besar data monitoring yang akan dicatat dan disimpan.

Dengan berbagai fitur tersebut, dan banyak lagi yang akan ditambahkan ke depannya, maka pantaslah jika Ambari 2.0 disebut sebagai tools open source untuk Hadoop Cluster manajemen yang paling lengkap saat ini.

Source :

http://hortonworks.com/blog/announcing-apache-ambari-2-0/
https://ambari.apache.org/
http://www.zdnet.com/article/hortonworks-founder-ambari-2-0-is-as-big-a-deal-as-hadoop-2-0/


Id Big Data

Penggunaan Big Data Untuk Memantau Kondisi Pesawat Selama Penerbangan

UTC Aerospace Systems menggunakan data dari sistem onboard pesawat untuk memantau kondisi operasional dan posisi pesawat selama berada dalam rute penerbangan. Aircraft Data Management yang dimiliki oleh UTC Aerospace System menggunakan data sangat besar yang dihasilkan oleh pesawat, yang digunakan oleh awak operasi pesawat dan juga dapat digunakan secara bersamaan oleh tim operasional yang berada di darat. Penggabungan informasi kondisi pesawat dengan informasi posisi memungkinkan operator untuk mendapatkan informasi yang jelas terhadap seluruh armada penerbangan yang ada pada waktu tertentu.

Laporan dan data dari kondisi dan posisi pesawat terintegrasi dengan berbagai jenis penyedia jasa komunikasi, termasuk SATCOM atau ACARS, yang mengintegrasikan antara sistem onboard pada pesawat dengan portal komunikasi selama penerbangan. Semua ini berkat Aircraft Interface Device (AID) yang dimiliki oleh UTC Aircraft System. Semua anomali informasi apapun harus dapat dideteksi dan dikirimkan kepada tim operasional yang berada di darat secara otomatis dan cepat, sehingga dapat meningkatkan faktor keselamatan penerbangan.

Sumber :

Id Big Data


Big Data dan Penerbangan

Menurut Fajar Muharandy, Chief Solution Architect, kebanyakan orang masih terpaku dengan Big Data sebagai istilah di mana terdapat kumpulan himpunan data dalam jumlah sangat besar sukar ditangani dengan manajemen basis data biasa, sehingga membutuhkan suatu teknologi. Lebih dari itu, Fajar mengatakan bahwa pemanfaatan Big Data sangat penting bagi perusahaan untuk meningkatkan layanan mereka.

Setiap perusahaan penerbangan mempunyai data masing-masing, namun, menurut Fajar, perusahaan penerbangan saat ini umumnya hanya menggunakan data pembelian tiket penumpang, seperti kota asal dan kota tujuan, serta pembelian tiket melalui situs resmi atau tidak. Perusahaan penerbangan tidak melihat data di luar itu, data interaksi ketika calon penumpang berada di depan komputer untuk membeli tiket, misalnya.

“Airlines mungkin hanya melihat si Fajar terbang dari Jakarta-Jogja misalnya, tapi sebelum memutuskan itu sebenarnya dia ingin menuju Solo,” ujar Fajar.

Menurut Fajar, penting bagi perusahaan penerbangan untuk melihat pola interaksi calon penumpangnya. Sebagai contoh, ketika penumpang mengetik Solo dalam situs penjualan tiket, kemudian menge-klik back dan mengetik Jogja, kota dengan bandara terdekat dari Solo, perusahaan patut mencurigai pola interaksi seperti ini. Bisa jadi penumpang membeli tiket Jogja karena penerbangan Solo lebih terbatas atau lebih mahal.

Perusahaan penerbangan dapat memanfaatkan Big Data tersebut untuk kemudian memperbanyak jumlah penerbangan ke Solo atau memberikan harga promo atau bekerja sama dengan travel agent untuk memfasilitasi penumpang dari Jogja ke Solo. “Kalau Airlines mengetahui data ini (Big Data aktivitas penumpang di website), mereka mungkin bisa mengambil keputusan yang lebih tepat, dengan membuat rute yang lebih atraktif karena mengetahui market yang potensial,” kata Fajar.

Source :

Industri Penerbangan Memanfaatkan Teknologi Big Data


Big Data dan IoT Meningkatkan Layanan Transportasi Umum di London

Transportation for London (TfL) menggunakan data transaksi pelanggan maupun data sensor untuk memberikan layanan yang lebih baik dan inovasi untuk memberikan kepuasan pada penggunanya. TfL merupakan sebuah badan pemerintah daerah yang mengelola dan mengawasi sistem transportasi bis, kereta api, taksi, jalan raya, jalur sepeda, jalan setapak dan bahkan feri yang digunakan oleh jutaan orang setiap harinya di kawasan London dan sekitarnya. Data diambil melalui sistem tiket serta sensor yang ada pada kendaraan dan sinyal lalu lintas, survei dan kelompok fokus, dan juga media sosial.

Lauren Sager-Weinstein, kepala analisis di TfL, mengatakan tentang dua prioritas utama dalam pengumpulan dan penganalisaan data yaitu layanan perencanaan perjalanan dan memberikan informasi kepada pelanggan.
“London tumbuh pada tingkat yang fenomenal,” katanya.
“Populasi saat ini 8,6 juta dan diperkirakan akan mencapai 10 juta dengan cepat. Kita harus memahami bagaimana mereka berperilaku dan bagaimana mengelola kebutuhan transportasi mereka.”

Data dan analisanya digunakan antara lain untuk :

  1. Pemetaan perjalanan. Data dibuat anonim dan digunakan untuk menghasilkan peta yang menunjukkan kapan dan dimana orang-orang bepergian, sehingga dapat memberikan gambaran secara keseluruhan yang lebih akurat, serta memungkinkan analisa yang lebih detail sampai pada level individu.
  2. Kejadian tak terduga. Analisa Big Data membantu TfL memberikan reaksi yang cepat ketika terjadi gangguan layanan transportasi. Seperti misalnya pada kejadian penutupan Putney Bridge yang dilintasi 870 ribu orang setiap harinya. Untuk mengatasi permasalahan semacam ini, informasi rute dan moda transportasi alternatif harus diberikan secara akurat.
  3. Berita perjalanan. Data perjalanan juga digunakan untuk mengidentifikasi pelanggan yang menggunakan rute tertentu secara rutin dan memberikan informasi terkini disesuaian dengan profile mereka.

TfL sedang berusaha untuk mengadopsi Hadoop dan solusi Open Source lainnya untuk mengatasi pertumbuhan data yang sangat cepat. Rencana kedepannya termasuk untuk meningkatkan kapasitas analisa real-time dan mengintegrasikan sumber data yang lebih banyak. TfL juga menyediakan data melalui API yang dapat digunakan oleh pengembang aplikasi lain. Semua itu bertujuan untuk memberikan layanan yang lebih baik mengenai perencanaan perjalanan dan informasi kepada pengguna jasa.


Sumber :

Id Big Data

Penerapan Deep Learning Dalam Mendeteksi Malware

Tim data science dari Cylance , tengah mengembangkan pendeteksi malware dengan menggunakan teknik yang disebut “Deep Learning”, sebuah subset lebih rinci dari machine learning. Teknik ini yang diklaim mampu mendeteksi dan menentukan apakah sepenggal kode mengandung malware atau tidak hanya dalam waktu 100 milidetik bahkan kurang.

Dengan peningkatan jumlah malware yang dihasilkan setiap hari, kebutuhan untuk metode yang lebih otomatis dan cerdas untuk belajar, beradaptasi, dan menangkap malware sangat penting. Cylance memiliki sampai 2 petabyte data set untuk digunakan dalam teknik machine learning.

Matt Wolf, kepala data science di Cylance, mengatakan bahwa ia dan timnya biasanya menggunakan beberapa ratus CPU yang berjalan selama berhari-hari untuk memproses dan bekerja dalam mengolah data, dan membutuhkan waktu berminggu-minggu bahkan bulanan untuk melatih mesin untuk belajar tentang hal-hal tersebut. Dibutuhkan ratusan gigabyte memori, CPU dan “mesin besar,” katanya.

Menurut Wolf, premis utama di balik machine learning adalah pencocokan pola. Ketika melihat sebuah malware, mungkin tidak akan terlihat pola. Tapi ketika melihat setengah dari miliaran contoh, mungkin ada banyak sekali pola yang relatif mudah untuk dibedakan. Tujuan dari model ini adalah untuk menemukan pola-pola ini.

Konsep dalam penggunaan machine learning dan deep learning bukan merupakan suatu hal yang baru, tetapi dalam beberapa tahun terakhir hal ini menjadi lebih realistis untuk diimplementasikan. Dengan opsi komputasi awan membuat biaya komputasi big data menjadi lebih terjangkau, karena kita tidak perlu membangun data center dengan ratusan server lagi.

Sebuah sistem deep learning akhirnya bisa menggantikan alat deteksi malware yang ada saat ini, Wolff mengatakan. “Sebuah sistim machine learning lebih efektif dari mesin berbasis signature”

Untuk informasi lebih lengkap, dapat mengakases artikel Researchers Enlist Machine Learning In Malware Detection DISINI


Sumber :

Id Big Data