Category Archives: Big Data

Spark 2.0.0 – Kecepatan dan Kemudahan dalam Kemasan Simple

Databrick akhirnya mengumumkan release Spark 2.0.0 pada 26 Juli 2016. Dua bulan sebelumnya mereka melansir preview-release untuk memberikan kesempatan para penggunanya bereksperimen dan memberikan feedback mengenai fitur-fitur baru Spark.

Release Spark versi 2.0.0 merupakan momen yang ditunggu-tunggu karena menjanjikan banyak kemajuan di sisi fitur dan performance, dan juga mencakup 2500 patches dari 300 lebih kontributor.

Beberapa hal yang dijanjikan oleh Spark 2.0.0 adalah :

apache spark20 technical preview

Lebih Mudah :

Support ANSI SQL dan API yang disederhanakan. Spark berfokus pada dua hal : a) dukungan ANSI SQL dan b) penyederhanaan API. Beberapa hal yang dilakukan pada sisi programming API adalah: menggabungkan API developer dalam library Spark, seperti misalnya antara DataFrames dan Datasets, serta SQLContext dan HiveContext. API berbasis dataFrame dengan “pipeline” API-nya akan menjadi package utama dari API machine learning. Meskipun library yang lama tetap dipertahankan untuk backward compatibility, fokus di masa depan akan lebih pada pengembangan API berbasis DataFrame. User dapat menyimpan dan me-load pipeline dan model machine learning dalam berbagai bahasa pemrograman yang disupport oleh Spark. Support tambahan untuk R, yaitu : Algoritma terdistribusi untuk Generalized Linear Models (GLM), Naive Bayes, Survival Regression, and K-Means Mendukung UDF (user defined function) untuk dapat dijalankan di level partisi (dapply & gapply) serta tuning hyper-parameter (lapply)

Lebih Cepat :

Peningkatan kecepatan 5 sampai 10 kali daripada Spark 1.6 untuk beberapa operator, sebagai hasil dari project Tungsten Fase 2 yang mencakup whole stage code generation dan optimisasi code Catalyst.

Lebih Cerdas :

Streaming terstruktur, yaitu menggabungkan berbagai macam komponen komputasi Spark yang mendukung komputasi streaming untuk menghasilkan aplikasi yang berkesinambungan. Selama ini pemrosesan streaming sering dinilai sebagai titik lemah dari Spark, dan Spark 2.0.0 bertujuan untuk mengatasi hal ini. Ada beberapa perbaikan yang dilakukan dalam Spark 2.0, di antaranya:

  • Intergrasi streaming API dengan batch job
  • Interaksi transaksional dengan storage system
  • Integrasi dengan komponen komputasi lain melalui Spark SQL, penggabungan dengan data statis, dan library yang sudah menggunakan DataFrame. Target selanjutnya adalah integrasi dengan MLlib dan library-library lain.

Partisipasi Solusi247 dalam IBM SolutionsConnect 2016

Dengan lebih dari 330.000 pegawai di seluruh dunia dan pendapatan US$96 miliar (angka dari 2004), IBM adalah perusahaan teknologi informasi terbesar di dunia, dan salah satu yang terus berlanjut dari abad 19. Dia memiliki teknisi dan konsultan di lebih dari 170 negara dan laboratorium pengembangan yang berlokasi di seluruh dunia, di setiap cabang ilmu komputer dan teknologi informasi; beberapa dari mereka adalah pionir di bidang mulai dari komputer mainframe ke nanoteknologi.


IBM di Indonesia

Kita hidup di era digital di mana apa pun yang bisa didigitalkan. Juga, karena revolusi mobile, telah ada pertumbuhan eksponensial dalam jumlah perangkat yang terhubung. Kedua tren ini telah menyebabkan ledakan data dan perangkat. Menurut sebuah perkiraan, jumlah perangkat akan mencapai 75 miliar pada tahun 2020. Dan sekitar sembilan puluh persen dari data yang dibuat dalam dua tahun terakhir adalah karena proliferasi perangkat ini.

Ditahun 2016 ini, IBM mengadakan event IBM SolutionsConnect 2016 yang bertajuk “Technology Leadership in the Cognitive Era”, yang diselenggarakan di InterContinental Midplaza Hotel - Jakarta, 9 August 2016. IBM ingin teknologinya bermanfaat bagi masyarakat Indonesia, baik itu bagi penyedia maupun pengguna teknologi. Event ini diusung oleh IBM dengan tujuan untuk memperkenalkan produk-produk baru mereka kepada kurang lebih 350 CIO yang hadir dalam event tersebut.

photo_2016-08-09_10-59-39

Sebagai partner dari IBM, Solusi247 ikut berpartsipasi dalam acara tersebut dikarenakan Solusi247 memiliki produk appliance yang dimana produk tersebut menggunakan hardware dari IBM sebagai servernya. Produk dari Solusi247 tersebut dinamakan Braja Appliance with IBM Power Linux Cluster.

IBM SolutionsConnect merupakan acara yang sangat penting, tidak hanya untuk penyedia-penyedia teknologi tapi juga untuk pengguna teknologi seperti klien-klien kita di area Telkom, militer, government, ini (IBM SolutionsConnect) sangat penting karena disini akan diperkenalkan banyak sekali teknologi-teknologi baru yang dikeluarkan oleh IBM yang merupakan leader dari berbagai macam teknologi IT di dunia.

Teknologi IBM yang menjadi pionir bagi semua teknologi di kognitif era ini menjadi sesuatu yang harus diperkenalkan kepada banyak pihak terutama pihak pengguna teknologi karena teknologi-teknologi IBM merupakan teknologi yang paling terdepan dibandingkan teknologi-teknologi lainnya.” Papar Bagus Rully selaku perwakilan dari Solusi247 yang hadir di event IBM SolutionsConnect 2016.


 

Big Data Membantu NYPD Menangani Kejahatan Dengan Lebih Cepat

Pada tanggal 4 Desember 2015, petugas NYPD di kantor polisi 73 New York menerima peringatan pada ponsel mereka dari sistem baru mereka, Shot-spotter : Delapan tembakan telah dilepaskan di dekat 409 Saratoga Avenue di kawasan Bedford-Stuyvesant, Brooklyn.

Kejadian selanjutnya menunjukkan seberapa jauh teknologi dapat berperan dalam membantu tugas polisi.

Polisi menemukan selongsong peluru di atap gedung, kemudian dengan menggunakan ponsel mereka, mengetahui ada sebuah surat perintah penangkapan yang belum dieksekusi untuk seorang wanita di gedung tersebut. Mereka kemudian mendapat surat perintah penggeledahan untuk apartement wanita tersebut melalui ponsel mereka, di mana mereka menemukan dua senjata, dan menangkap tiga orang tersangka.

Para petugas NYPD berhasil melaksanakan tugasnya dengan cepat berkat bantuan sistem kesadaran situasional / Situational Awareness System, yang disebut dengan DAS (Domain Awareness System).

Ide mengenai kesadaran situasional atau situational awareness ini bukanlah sesuatu yang baru. Setiap individu maupun organisasi idealnya dapat menyesuaikan perilaku dan tindakan mereka dengan situasi yang ada. Dan seiring dengan perkembangan teknologi sensor dan sinyal, semakin besar kebutuhan untuk dapat mengumpulkan data dari dunia luar ke dalam sebuah sistem untuk melakukan monitoring dan analisis. Mengetahui apa yang terjadi di domain yang relevan di dunia luar merupakan sesuatu yang penting dan semakin menjadi kebutuhan banyak pihak.

Salah satu pihak yang tampaknya paling berkepentingan terhadap hal ini adalah organisasi di sektor publik. Kepolisian New York (NYPD), pemerintah kota Chicago, dan juga sebuah grup yang terdiri dari instansi-instansi pemerintah di Kanada adalah beberapa pihak yang telah mengembangkan dan memanfaatkan sistem kesadaran situasional. Salah satu hal yang dipelajari dari pengalaman mereka membangun sistem SA adalah, semakin terarah target sistemnya, semakin baik hasilnya.

MASAS, atau Multi-Agency Situational Awareness System, yang dikelola oleh Canadian Public Safety Operations Organizations (CanOps), dimaksudkan untuk memonitor dan menampilkan informasi yang relevan dengan keamanan publik. MASAS mencakup informasi mengenai kebakaran, gempa bumi, cuaca buruk, masalah lalulintas, kerusakan jalan, kerumunan massa, lokasi dan status shelter, perbatasan, dan lain sebagainya.

Cakupan luas dari MASAS ini sebetulnya bertujuan baik, namun hal ini sepertinya membatasi value dari sistemnya sendiri. Misalnya seperti disebutkan pada website mereka, karena instansi-instansi enggan untuk berbagi informasi sensitif dengan instansi lain, maka informasi yang di-share adalah informasi yang tidak sensitif (yang akhirnya juga tidak terlalu bermanfaat).

Chicago termasuk kota pertama yang mengadopsi sistem SA pada tahun 2012. Sistem yang dinamakan WindyGrid ini adalah sistem informasi geografis yang menyajikan gambaran terpadu dari pengoperasian kota di atas peta Chicago, yang memberikan akses ke seluruh data spasial kota, baik secara historikal maupun real time.

WindyGrid mencakup informasi mengenai layanan panggilan 911 dan 311, lokasi aset transit dan mobile, status bangunan, tweets berdasarkan lokasi geografis, dan lain sebagainya. Sistem ini hanya berfokus pada data spasial, sehingga cakupannya lebih sempit daripada sistem di Kanada. Sebenarnya yang lebih dibutuhkan oleh Chicago adalah sistem yang berfokus pada penangangan kejahatan. Karena WindyGrid dibangun atas prakarsa CIO kota Chicago, maka sistem ini cenderung didasari oleh kebutuhan efisiensi informasi dibandingkan prioritas strategis.

Pencegahan kejahatan dan terorisme menjadi prioritas dari sistem DAS yang dimiliki NYPD. Sistem ini pada awalnya dikembangkan oleh biro kontraterorisme, dan saat ini digunakan secara luas dalam tugas harian kepolisian. DAS mengumpulkan dan menganalisa data dari berbagai sensor -termasuk 9000 kamera CCTV, 500 kamera pembaca plat nomor, 600 sensor radiasi dan kimia, dan jaringan detektor untuk mendeteksi suara tembakan yang menjangkau 24 mil persegi, dan 54 juta panggilan ke 911 dari masyarakat. Sistem ini juga dapat menarik data dari arsip kejahatan NYPD, termasuk 100 juta surat pemanggilan.

Project DAS dimulai pada tahun 2008 dan terus dikembangkan hingga saat ini. Pada tahun 2010 ditambahkan fungsi analytics, dan pada 2011 ditambahkan kemampuan pengenalan pola. Pada tahun 2014 mulai dikembangkan fungsi “predictive policing” , dan pada tahun 2015 petugas kepolisian dapat memperoleh informasi 911 secara real-time.

Antarmuka utama dengan sistem adalah smartphone, yang saat ini digunakan oleh 35.000 anggota NYPD. Lebih dari 10.000 polisi menggunakan DAS setiap harinya. Sistem ini disebut sebagai ‘keajaiban teknologi’, yang lahir dari kepemimpinan dan prioritas yang kuat.

Terfokusnya SA yang dimiliki NYPD merupakan kunci kesuksesan sistem ini. Tingkat kejahatan di kota New York semakin menurun (saat ini di bawah rata-rata nasional US), dan tingkat penyelesaian kasus pembunuhan meningkat. Tentunya banyak faktor yang menjadi penyebabnya, termasuk di antaranya penggunaan DAS ini, namun salah satu yang paling penting adalah budaya kepolisian yang mengedepankan bukti (evidenced based policing) yang menjadi karakteristik NYPD.

Dari beberapa pengalaman penerapan sistem berbasis kesadaran situasional ini terlihat jelas nilai strategis dari penerapan sebuah sistem berbasis kesadaran situasional. Teknologi yang ada saat ini sangat memungkinkan untuk mengetahui apa yang terjadi di luar, yang mungkin mempengaruhi kesuksesan sebuah organisasi atau perusahaan. Namun mengingat keluasan dan kompleksitas dunia luar itu sendiri, sebaiknya sistem SA dibangun dengan fokus yang jelas, misalnya pada customer, kompetitor, atau regulator. Pada akhirnya yang dituju tentunya adalah pemahaman terhadap situasi secara menyeluruh, namun mulailah dari sesuatu yang spesifik.

Diterjemahkan dari : http://fortune.com/2016/07/17/big-data-nypd-situational-awareness/


Source : ID Big Data - Big Data Membantu NYPD Menangani Kejahatan Dengan Lebih Cepat

Twitter Open Source-kan Heron, Framework Real Time Stream Processing

Satu lagi framework yang bergabung ke dalam ekosistem Big Data Open Source. Meramaikan percaturan dalam pemrosesan Big Data, khususnya real-time streaming data processing, bulan Mei lalu Twitter mengumumkan bahwa mereka meng-open-source-kan Heron, sistem real-time stream processing yang mereka kembangkan untuk menggantikan Apache Storm.

Setelah sebelumnya mengumumkan bahwa mereka mengganti framework pemrosesan real-time streaming mereka dari Storm ke Heron, dan menerbitkan paper mengenai arsitekturnya, baru setahun kemudian publik dapat ikut menggunakan dan mengembangkannya.

Alasan Twitter mengembangkan Heron pada awalnya adalah karena beberapa kesulitan yang mereka hadapi ketika menggunakan Storm, terutama ketika sistem yang mereka deploy sudah sangat besar. Beberapa kesulitan yang dihadapi di antaranya adalah kesulitan dalam hal profiling dan reasoning mengenai Storm worker di tingkat data dan tingkat topologi, alokasi resource yang bersifat statis, tidak adanya dukungan back-pressure, dan lain sebagainya.

Mengapa saat itu Twitter tidak beralih ke Apache Spark streaming atau Apache Flink misalnya, dan justru memutuskan untuk mengembangkan sendiri sistemnya secara internal? Alasan utamanya adalah peralihan framework tersebut akan menyebabkan mereka harus menulis ulang banyak sekali code dari sistem mereka yang sudah sangat besar. Sebab, sebagai pihak yang mengembangkan Storm, Twitter adalah pengguna Apache Storm yang paling lama, jauh sebelum Storm menjadi open source.

Heron didesain sebagai sebuah sistem yang memiliki backward compatibility dengan Apache Storm. Hal ini merupakan sebuah keputusan yang strategis, bukan saja untuk Twitter sendiri, namun juga untuk pengguna yang sudah mengimplementasikan Apache Storm, mereka dapat beralih ke Heron dengan relatif mudah.

Paradigma pemrosesan Heron sangat mirip dengan Apache Storm, di mana dasarnya adalah DAG (Direct Acyclic Diagram) yang disebut topology, dengan komponennya berupa spout dan bolt.

Heron dibangun dengan perubahan mendasar dalam arsitektur streamingnya, dari sistem berbasis thread, menjadi sebuah sistem berbasis proses. Heron juga didesain untuk deployment dalam cluster dengan mengintegrasikannya dengan scheduler open source yang powerful seperti Apache Mesos, Apache Aurora, Apache REEF atau Slurm.

Banyak yang dijanjikan dengan Heron, seperti misalnya 2-5 kali efisiensi, kemudahan dan stabilitas, dan lain sebagainya. Salah satu kelebihan utama Heron adalah sudah dibuktikan dalam skala yang besar di Twitter sendiri, dan kompatibilitasnya dengan Storm sebagai framework yang sudah banyak diimplementasi sebelumnya. Namun apakah masyarakat Big Data akan dengan serta merta mengadopsinya sebagai framework pilihan mereka, masih harus kita lihat bagaimana perkembangannya ke depan. Karena saat ini banyak sekali framework open source untuk pemrosesan streaming yang ada dan berkompetisi untuk menjadi yang terdepan, seperti misalnya Apache Spark, Apache Flink, Apache Samza, Apache Apex, atau bahkan Apache Storm sendiri yang juga telah me-release versi 1.0 dengan banyak perubahan dan perbaikan.

Baca juga : APACHE STORM 1.0 PENINGKATAN PERFORMA DAN SARAT FITUR BARU


Source : ID Big Data

Braja Appliance di INTEL IoT Conference 2016

Jakarta, Selasa, 14 Juni 2016.

       Solusi247 mengikuti event tahunan yang diselenggarakan oleh INTEL yang bertemakan INTEL IoT SOLUTIONS CONFERENCE 2016. Ini adalah kali ketiga Solusi247 mengikuti event tersebut. Solusi247 diminta untuk mengikuti showcase pada acara tersebut. Showcase yang dipamerkan Solusi247 pada event ini adalah Braja Appliance, Braja Appliance, dimana Braja tersebut menggunakan processor INTEL dalam setiap nodes server-nya.

       Braja Big data Appliance adalah solusi Big Data terpadu yang bertujuan untuk mempermudah dan mempercepat adopsi Big Data dalam suatu organisasi. Hal ini dirancang untuk memenuhi kebutuhan dalam mengolah data yang sangat besar dan kompleks di mana aplikasi pengolah data umum saja tidak cukup. Dengan mengintegrasikan berbagai kerangka kerja Big Data dan komponen ke dalam satu produk. Braja adalah infrastruktur Big Data yang terjangkau dan sangat terukur untuk bisnis Anda.

       Internet of Things (IoT) memacu inovasi di hampir semua segi kehidupan kita. Dengan menghubungkan “benda” yang belum pernah dihubungkan sebelumnya, akan tercipta pengetahuan data baru yang melahirkan perubahan berharga. Namun, ada hambatan yang memperlambat penerapan IoT.

       Antusias peserta sangat besar saat mengunjungi booth dari Solusi247. Hal ini dikarenakan Braja sangat mendukung pengolahan big data dimana teknologi big data diperkirakan akan menjadi fenomenal di tahun 2018 nanti.

       Perwakilan dari Solusi247 dalam event tahunan INTEL ini diantaranya Bpk. S. Arifin, Bagus Rully Muttaqien, dan Sigit Prasetyo. Peserta yang berpartisipasi dalam acara ini tidak lain adalah government serta perusahaan yang bergerak di industri IT.

Apache Storm 1.0 Peningkatan Performa dan Sarat Fitur Baru

Pada tanggal 12 April lalu versi terbaru dari Apache Storm dirilis. Taylor Goetz, VP Apache Software Foundation untuk project Apache Storm, menyatakan bahwa versi 1.0 ini merupakan sebuah titik yang penting dalam evolusi Apache Storm. Versi terbaru ini mengandung sejumlah besar fitur baru dan perbaikan kinerja.

Storm merupakan sebuah event processor yang memungkinkan dilakukannya proses data streaming secara terdistribusi. Aplikasi Storm terdiri dari komponen yang disebut dengan “spout” dan “bolt”, yang dikonfigurasi dalam sebuah Direct Acyclic Graph untuk merepresentasikan pemrosesan data. Ciri utama dari Storm adalah kemampuan untuk melakukan proses data secara real time.

Apache Storm versi 1.0 memiliki peningkatan performa yang cukup dramatis bahkan diklaim hingga 16 kali lebih cepat dari versi sebelumnya dengan pengurangan latensi hingga 60%. Selain performa ada beberapa fitur yang patut menjadi perhatian, diantaranya :

  1. Pacemaker, heartbeat daemon yang memiliki performa lebih baik dari Zookeeper
  2. Distributed Cache API, yang memungkinkan berbagi file antar topology
  3. High Availability Nimbus, mengatasi permasalahan single point of failure pada Nimbus proses
  4. Streaming Window API, yang menambahkan dukungan terhadap parameter window length dan sliding interval
  5. Automatic Backpressure, yang memungkinkan memperlambat spout secara otomatis ketika ambang batas dari ukuran task buffer terlampaui
  6. Resources Aware Scheduler, implementasi scheduler baru yang menggunakan ketersediaan memory dan CPU sebagai dasar untuk pengaturan task kepada worker
  7. Dynamic Worker Profiling, fitur baru ini memungkinkan pengguna untuk melihat data profile dari worker langsung dari Storm UI

Apache Storm 1.0 ini dapat didownload pada laman https://storm.apache.org/releases.html


Source : IDBigData

Challenges For The Biomedical Industry In Terms Of Big Data

Tantangan Industri Biomedis untuk Big Data

Lahirnya Next-Generation Sequencing (NGS) berakibat pada pertumbuhan data genomic secara eksponensial. NGS berhasil memangkas waktu dan biaya yang dibutuhkan untuk melakukan sequencing sebuah genom secara drastis. Biaya sequencing turun secara signifikan dari sekitar US$100M pada tahun 2001 menjadi sekitar US$1000 di tahun 2015. Sebuah studi kasus diagnostik genom http://www.genomemedicine.com/content/7/1/100?utm_source=datafloq&utm_medium=ref&utm_campaign=datafloq pada tahun 2015 menunjukkan bahwa waktu yang diperlukan untuk melakukan whole genome sequencing, analisis dan diagnosis penyakit genetik pada bayi yang sakit berat adalah 26 jam.

8-challenge_04

Apakah perpaduan teknologi antara industri biomedis dan big data akan dapat mendukung perkembangan data genomics di masa datang? Berikut adalah beberapa hambatan dan tantangan yang dihadapi dalam perkembangan pemanfaatan data genomics :

  • Meskipun biaya sequencing dan storage sudah relatif rendah, namun biaya komputasi terutama dari sisi infrastruktur masih relatif tinggi. Cloud computing dapat menjadi solusi terhadap kebutuhan komputasi, namun transfer data genomics yang sangat besar dari mesin sequencing ke cloud dapat menjadi tantangan tersendiri.
  • Privasi data genomics juga menjadi sebuah isu, karena penggunaan dan penyebaran (sharing) data tersebut tidak dapat diprediksi. Meskipun data dikumpulkan secara anonimus, masih ada kemungkinan re-identifikasi sehingga menjadi peluang timbulnya pelanggaran privasi.
  • Interoperabilitas antar database genomics maupun dengan sistem medis lainnya (misalnya Electronic Medical Records atau EMR) menjadi tantangan lain yang harus diatasi agar proyek-proyek kolaborasi semacam 100.000 Genome Project (http://www.genomicsengland.co.uk/the-100000-genomes-project/?utm_source=datafloq&utm_medium=ref&utm_campaign=datafloq) dapat memberikan manfaat yang sebesar-besarnya bagi masyarakat maupun pasien yang membutuhkan.
  • Nilai tambah yang ditawarkan oleh bidang translational genomics kepada industri biomedis mungkin tidak langsung terlihat hasilnya. Biaya yang harus dikeluarkan oleh sebuah organisasi untuk menyimpan dan mengolah data genomics mungkin tidak bisa memberikan keuntungan finansial dalam jangka pendek. Hal ini dapat menyurutkan keinginan untuk berinvestasi di bidang ini. Namun, pengetahuan yang didapat dari proyek-proyek yang bersifat riset dapat memberi manfaat yang sangat besar bagi masyarakat maupun bagi pengembangan produk mereka sendiri. Penyedia solusi big data yang mendukung platform big data di bidang genomics akan dapat memperoleh keuntungan dengan menyediakan jasa penyimpanan, pemrosesan dan analisis data.

Perusahaan seperti AWS, Oracle dan Google menempatkan diri sebagai pemain kunci dalam penyediaan infrastruktur komputasional di bidang biomedis dengan menyediakan infrastruktur bagi penyimpanan dan analisis data genomics. Mereka menyadari potensi nilai yang didapat dari penyediaan platform untuk riset genomics.

Dengan semakin menurunnya biaya sequencing dan dengan dimungkinkannya sequencing dalam skala besar, kita dapat menyaksikan pergeseran dari pengobatan reaksioner (mengobati setelah timbulnya penyakit) menjadi pengobatan prediktif dan proaktif. Database genomics yang besar memungkinkan dilakukannya riset untuk lebih memahami dasar-dasar genetik pada bermacam-macam penyakit.

Pengetahuan ini akan mendorong pengembangan obat-obatan dan terapi yang lebih terarah dan bersifat preventif, dan juga memungkinkan pengembangan alat interpretasi genomics secara individual untuk keperluan konseling bagi individu untuk mencegah kemungkinan munculnya penyakit atau kondisi yang berkaitan dengan kecenderungan genetik.


Source :

Id Big data – Challenger For The Biomedical Industry In Terms Of Big Data

Solusi247 Mengadakan Pelatihan Big Data untuk Dosen & Mahasiswa FST UAI

Jakarta- Solusi247 bekerjasama dengan Fakultas Teknik Informatika Universitas Al Azhar Indonesia menyelenggarakan Workshop Big Data. Acara ini diadakan pada tanggal 7-8 Maret 2016 bertempat di Laboraturium Puskom yang dihadiri oleh narasumber  Bapak Ir. Solechoel Arifin, M.Sc dari Solusi247 dan Rusnah Setiani, S.T dari alumni Teknik Informatika UAI, juga hadir Bapak Dr. Ir. Ade Jamal Wakil Rektor II, Mahasiswa Teknik Informatika dan para Dosen FST UAI yang mengikuti pelatihan ini. Acara ini diawali dengan Penandatanganan kerjasama antara Ibu Ir. Winangsari Pradani, M.T. selaku Ketua Program Studi Teknik Informatika dan Bapak Aria Rahendra selaku Chief Marketing Officer (CSO) Solusi247.

Para peserta diberikan kesempatan untuk berlatih bagaimana cara mengelola kekuatan data yang sangat besar (Big Data) yang selanjutnya akan dianalisa atau diolah lagi untuk keperluan tertentu seperti membuat keputusan, memprediksi, dan hal lainnya yang memerlukan infrastruktur yang dapat mengelola dan memproses data.

Diharapkan dalam pelatihan ini dapat meningkatkan kemampuan para peserta yang tidak lain adalah Dosen dan Mahasiswa FST UAI. Acara diakhiri dengan penyerahan cideramata dan foto bersama.


 

Source : Pelatihan Big Data di UAI

Apache Arrow – In-Memory Columnar Data Layer

Pada tanggal 17 Februari 2016 lalu, Apache Software Foundation mengumumkan Apache Arrow sebagai top-level project tanpa melalui masa inkubasi yang panjang. Apache Arrow semula merupakan pengembangan dari Apache Drill, dibangun atas kolaborasi beberapa project open source unggulan lainnya dan bertujuan untuk menjadi standar de-facto bagi pemrosesan data in-memory yang tersusun secara columnar. Proyek-proyek Big Data yang telah bergabung dalam pengembangan Apache Arrow adalah Calcite, Cassandra, Drill, Hadoop, HBase, Impala, Kudu (incubating), Parquet, Phoenix, Spark, Storm, Pandas dan Ibis.

Apache Arrow bukan merupakan sebuah engine ataupun sistem penyimpanan. Ia adalah sebuah format dan algoritma untuk bekerja secara hirarkis, in-memory dan columnar serta mendukung sejumlah bahasa pemrograman yang dapat bekerja diatasnya.

“Data dalam memori yang tersusun secara columnar memungkinkan sistem dan aplikasi memproses data pada kecepatan maksimum dari hardware” ujar Todd Lipcon, pendiri Apache Kudu dan anggota komite manajemen Apache Arrow Project.

Pada banyak proses pengolahan data, 70-80% siklus CPU dihabiskan untuk proses serialisasi dan deserialisasi data antar proses. Arrow mengatasi masalah ini dengan memungkinkan adanya sharing data antar sistem dan proses tanpa melalui proses serialisasi, deserialisasi atau penggandaan memory. Penggunaan Apache Arrow diklaim mampu mempercepat proses hingga 100 kali.

Arrow juga telah mendukung data yang kompleks dengan skema dinamis. Contohnya, Arrow mampu menangani data JSON yang umumnya digunakan pada proses IoT, aplikasi modern dan log file. Implementasinya juga sedang dikembangkan untuk beberapa bahasa pemrograman termasuk java, c++ dan python untuk memungkinkan interoperabilitas solusi big data yg lebih besar. Software apache arrow sudah rilis dengan menggunakan lisensi Apache v2.0 dan untuk mengunduh software, dokumentasi dan cara bergabung dengan Apache Arrow project silahkan mengunjungi http://arrow.apache.org/


Sumber :

Id Big Data

Genomics : The Next Big Thing in Big Data

Apa itu Genomics?

Genomics adalah bidang yang mempelajari genome, untuk memahami bagaimana suatu organisme bekerja, dan apa akibat dari interaksi antar gen serta pengaruh lingkungan terhadapnya. Sedangkan genome adalah materi genetik yang menjadi cetak biru atau rancangan dari suatu mahluk hidup. Informasi ini diwariskan secara turun temurun dan tersimpan dalam DNA, atau pada beberapa jenis virus, dalam RNA.

Ukuran genome dinyatakan dalam bp atau base pair, yaitu jumlah pasangan nukleotida dalam DNA.

Manusia memiliki sekitar 3 miliar bp dalam genome-nya. Sebetulnya manusia genome manusia 99.9% mirip. Namun perbedaan yang hanya 0.1% tersebut telah menghasilkan keragaman yang sangat besar pada penampilan maupun kondisi fisik seseorang.

Apa Pentingnya Genomics?

Saat ini genomics memiliki peran yang besar dalam berbagai bidang, mulai dari kesehatan, pertanian, lingkungan, industri maupun perkembangan ilmu pengetahuan. Dengan mempelajari gen, manusia dapat menemukan solusi dari banyak permasalahan mendasar di banyak bidang kehidupan.

Misalnya, di bidang medis, genomics dapat membantu dalam meningkatkan kualitas diagnosis penyakit, mengidentifikasi predisposisi terhadap penyakit tertentu (misalnya diabetes tipe 2, penyakit huntington, dll), mendeteksi virus dan bakteri penyebab penyakit, mengembangkan obat yang disesuaikan dengan informasi genetik seseorang (disebut juga ‘personalized medicine’, misalnya penggunaan penanda genetik untuk membantu menentukan dosis War¬farin, obat anti penggumapalan darah, menentukan jenis dan dosis obat untuk kanker, dll), atau memantau pengaruh gaya hidup dan lingkungan terhadap genome dan kesehatan manusia.

Di bidang lingkungan, genomics membantu untuk menemukan sumber-sumber energi yang lebih sustainable seperti biofuels, mengendalikan polusi, melakukan dekontaminasi daerah yang terkena limbah (disebut juga bioremediation, seperti misalnya mikroba yang digunakan untuk membantu membersihkan tumpahan minyak di teluk Meksiko), memantau keragaman hayati dan identifikasi spesies baru.

Dalam bidang pertanian genomics dapat digunakan untuk mengembangkan tanaman yang lebih tahan terhadap serangan hama, penyakit, dan lingkungan, dapat juga digunakan untuk membantu mengidentifikasi hama, mengembangkan tanaman pangan yang lebih kaya kandungan gizi, ataupun mengembangkan ternak yang lebih berkualitas dan tahan terhadap serangan penyakit, dan lain sebagainya.

Teknologi di Balik Perkembangan Genomics

Peran genomics yang besar tersebut dimungkinkan dengan berkembangnya teknologi dalam bidang pemetaan gen dan pengolahan data.

Next Generation Sequencing

Dengan hadirnya teknologi yang disebut dengan Next Generation Sequencing, maka biaya untuk melakukan pemetaan genetik juga mengalami penurunan yang sangat ekstrim.

genomics_pt1_02

Jika sebelumnya biaya untuk melakukan sequencing atau pemetaan terhadap genome manusia adalah sebesar 100 juta US$ (dana yang digunakan pada Human Genome Project, yang di-launch di tahun 1986 dan selesai pada 2003), maka saat ini biaya pemetaan genome manusia adalah sekitar 1000 US$.

Penurunan biaya dan waktu pemrosesan menjadikan pemetaan genome menjadi sebuah proses yang terjangkau, sehingga banyak pihak dapat turut memanfaatkan dan mengembangkannya. Sebagai akibatnya, genomics pun menjadi sebuah bidang yang mengalami perkembangan yang sangat cepat pada dekade terakhir ini.

Big Data

Pemetaan dan analisis genome menghasilkan dan membutuhkan data yang sangat besar. Data hasil sequencing dapat mencapai 130 GB lebih per genome. Dengan semakin banyaknya genome yang dipetakan dan dianalisis, terjadilah ledakan di sisi data yang dihasilkan.

Tantangan selanjutnya adalah bagaimana data yang sedemikian besar dapat diproses dan dianalisis, sehingga semakin banyak penelitian maupun pemanfaatan data genomics dapat dilakukan.

Salah satu pendekatannya adalah dengan cara meningkatkan kecepatan prosesor. Teknologi seperti GPU ataupun FPGA (Field Programmable Gate Arrays) menjadi beberapa alternatif dalam hal ini. Solusi lain adalah penggunaan cloud computing, di mana data yang akan digunakan diproses di cloud, sehingga para peneliti tidak perlu membangun sendiri infrastruktur yang mereka gunakan. Namun permasalahannya adalah ketika diperlukan analisis seperti variant calling untuk mendeteksi mutasi gen, sejumlah data yang sangat besar perlu diakses dan dipindahkan ke environment analisis yang sesuai. Transfer data yang sangat besar melalui jaringan menjadi sebuah permasalahan berikutnya.

Dengan kehadiran big data, khususnya Hadoop sebagai solusi komputasi dan penyimpanan data terdistribusi, para peneliti memiliki alternatif baru yang lebih terjangkau. Hadoop menjadi alternatif bagi penyimpanan dan pemrosesan data genome dengan memberikan solusi berupa : biaya yang lebih terjangkau dengan pemanfaatan commodity hardware, peningkatan kapasitas komputasi dengan penggunaan banyak mesin secara paralel, mengurangi data movement dengan melakukan komputasi secara lokal, di mana data tersebut disimpan secara fisik.

Di samping itu, saat ini telah banyak teknologi yang dikembangkan di atas ataupun melengkapi Hadoop ekosistem, seperti misalnya Hive, Pig, Mahout, Yarn, dan lain sebagainya. Terlebih lagi setelah munculnya Spark sebagai platform pemrosesan in memory secara terdistribusi, big data menjadi sebuah alternatif solusi yang tidak dapat diabaikan lagi.

Salah satu pemanfaatan teknologi big data dalam bidang genomics ini adalah ADAM, yaitu platform analisis genomik dengan format file khusus. Dibangun menggunakan Apache Avro, Apache Spark dan Parquet. ADAM pada awalnya dikembangkan oleh Universitas Berkeley dan berlisensi Apache 2.

Referensi :

http://www.whygenomics.ca/why-should-i-care

http://blogs.uw.edu/ngopal/why-genomics/

https://blog.pivotal.io/data-science-pivotal/features/re-architecting-genomics-pipelines-to-handle-the-rising-wave-of-data


Sumber :

Id Big Data