HGrid (Hadoop Grid) – Tools Pemroses Big Data Tercepat dan Terefisien dari Indonesia

Tidak bisa dipungkiri, semakin cepatnya perkembangan teknologi saat ini menjadikan semakin banyaknya data yang dihasilkan setiap harinya. Data-data yang terdistribusi sudah tak terhitung lagi jumlahnya.  Bayangkan saja, semakin banyak pengguna smartphone, sudah dipastikan semakin banyak pula pengguna media social. Jika dihitung dari jumlah penduduk Indonesia, kemungkinan bisa 90% nya adalah pengguna media social. Sudah dipastikan juga data yang terdistribusi di dunia maya sangat besar jumlahnya. Lonjakan jumlah data tersebut mengakibatkan ledakan data atau biasa disebut dengan BIG DATA.

Menanggapi permasalahan tersebut, SOLUSI247 menawarkan kepada dunia tools big data processing tercepat dan termudah dari Indonesia. Tools ini dinamakan HGRID atau lengkapnya adalah Hadoop Grid.

Mengapa tercepat dan termudah?

HGRID sengaja dibuat dengan tujuan untuk mempercepat dan mempermudah pemrosesan big data dikarenakan salah satu keunggulan dari HGRID adalah TANPA CODING. Bayangkan saja, jika seharusnya para programmer atau developer melakukan pemrosesan big data dilakukan dengan coding yang biasanya membutuhkan waktu yang cukup lama untuk proses pengerjaannya, dengan menggunakan HGRID para programmer atau  developer hanya perlu melakukan drag and drop  dalam mengerjakan pemrosesan big data. Keunggulan HGRID yang lainnya adalah tools ini bersifat open source. HGRID juga menyediakan penyimpanan besar-besaran untuk semua jenis dan tipe data. HGRID memiliki kekuatan yang besar dalam mengerjakan pemrosesan data, serta mampu untuk menangani tugas atau pekerjaan tanpa henti.

Dikarenakan kualitas HGRID yang sudak tidak diragukan lagi, HGRID sudah dipakai untuk melakukan pemrosesan data di beberapa perusahaan telco ternama di Indonesia.

Buka Puasa Bersama dan Santunan 100 Anak Yatim

خُذْ مِنْ أَمْوَٰلِهِمْ صَدَقَةً تُطَهِّرُهُمْ وَتُزَكِّيهِم بِهَا وَصَلِّ عَلَيْهِمْ ۖ إِنَّ صَلَوٰتَكَ سَكَنٌ لَّهُمْ ۗ وَٱللَّهُ سَمِيعٌ عَلِيمٌ

Artinya: "Ambillah zakat dari sebagian harta mereka, dengan zakat itu kamu membersihkan dan mensucikan mereka dan berdoalah untuk mereka. Sesungguhnya doa kamu itu (menjadi) ketentraman jiwa bagi mereka. Dan Alloh maha mendengar lagi maha mengetahui". (Q.S At-Taubah ayat 103)

Rabu, 14 Juni 2017 silam, Solusi247 melaksanakan kegiatan CSR di Pondok Pesantren Al-Qur'an Al-Hidayah - Yayasan Hidayatul Islam Jakarta. Pondok pesantren tersebut berlokasi di Jl. Munggang No. 50 RT.08/04 Kel. Balekambang, Kramat Jati, Jakarta Timur - 13530.

Bulan Ramadhan adalah bulan yang penuh rahmat dan berkah, bulan dimana orang-orang muslim berlomba-lomba mendapatkan pahala, karena setiap perbuatan baik di bulan ramadhan niscaya pahala yang diberikan akan dilipatgandakan oleh Allah SWT, aamiin. Dalam rangka bulan ramadhan ini pun, SOLUSI247 ikut serta dalam kegiatan CSR dimana inti dari acara tersebut adalah santunan kepada 100 anak yatim yang menghuni pondok pesantren Al-Qur'an Al-Hidayah.

Didalam kegiatan ini, SOLUSI247 sangat sadar akan kewajiban untuk berbagi rezeki kepada orang-orang yang membutuhkan terutama kepada anak-anak yatim yang usianya masih sangat belia.

CSR (Corporate Social Responsibility) Solusi247 berisi kegiatan siraman rohani oleh Ustad Masyudi, pembacaan ayat-ayat suci Al-Qur'an, santunan 100 anak yatim, buka puasa bersama, shalat maghrib berjama'ah dan diakhiri dengan shalat tarawih berjama'ah. Kegiatan CSR Solusi247 ini tentu saja bertujuan untuk menjalin silaturahmi dan berbagi rezeki kepada sesama umat muslim yang membutuhkan. Kegiatan yang dimulai dari pukul 16.00 WIB berakhir pada pukul 20.30 WIB.

C_8ENWBUAAAwuS6edited

Edukasi Big Data di PANDI Meeting 8 oleh Beno Kunto Pradekso

PANDI Meeting kembali diselenggarakan di Jakarta. Jika sebelumnya di tahun 2016 acara ini diselenggarakan di Kota Kasablanka – Jakarta Selatan, kali ini PANDI Meeting diselenggarakan di Hotel 1O1 Dharmawangsa dan Dharmawangsa Square (pameran), Jalan Darmawangsa IX No. 14, Kebayoran Baru, RT.5/RW.1, Pulo, Kby. Baru, Kota Jakarta Selatan, DKI Jakarta 12160. Acara yang sedang berlangsung saat saat ini, terhitung mulai tanggal 15 Mei 2017 dan akan berakhir pada tanggal 18 Mei 2017 ini membuat serangkaian kegiatan didalamnya seperti Seminar, Workshop dan Diskusi.

Dalam PANDI Meeting kali ini, tanggal 16 Mei 2017 kemarin, PANDI meluncurkan produk-produk barunya, Ada 2 produk terbaru dari PANDI diantaranya U.id dan My.id yang mana masing-masing produk tersebut dapat terintegrasi satu sama lain.

Setelah soft launch produk-produk tersebut, acara dilanjutkan dengan kegiatan seminar yang bertajuk “BIG DATA: Mengapa Harus Big Data?” oleh CEO sekaligus Founder SOLUSI247, Bpk. Beno K. Pradekso. PANDI mempercayakan Pak Beno untuk memberikan edukasi dasar mengenai Big Data kepada audience yang hadir ke kegiatan seminar tersebut.

Bpk. Beno K. Pradekso membahas mengenai case-case yang dihadapi oleh SOLUSI247 yang berkaitan dengan data processing. “Big data tidak melulu diartikan sebagai data yang besar ataupun data yang banyak. Big data pun menurut saya bukan teknologi, melainkan sebuah challenge.” Jelas beliau kepada audience.

Disamping menjelaskan big data, Bpk. Beno juga memperkenalkan salah satu produk local buatan anak negeri dimana produk tersebut benar-benar dibuat oleh rekan-rekan SOLUSI247 Jogja, produk tersebut dinamakan CHANTEL. Apa itu CHANTEL? Chantel adalah Document Management System. Sama halnya seperti aplikasi penyimpanan dokumen lainnya, Chantel mampu meng-organize dokumen-dokumen yang disimpan oleh para penggunanya.

FI_CeBIT2017

Solusi247 di Event CeBIT 2017, Hannover, Germany

The future is already here! Event pameran teknologi CeBIT 2017 di Hannover, Germany  kembali diselenggarakan. Acara yang dibuka untuk umum ini dimulai pada hari Senin, 20 Maret 2017 sampai Jumat, 24 Maret 2017 silam. Menghadirkan para exhibitor-exhibitor kelas atas, acara ini benar-benar memberikan kesan “our future in here!”. Mengusung tema “Solusi terapan bagi teknologi digital”, CeBIT2017 memberikan gambaran bagaimana teknologi-teknologi di masa mendatang.

Berbicara mengenai teknologi termahsyur, Solusi247 mengirim beberapa perwakilan-perwakilan untuk ikut serta menjadi exhibitor di acara CeBIT2017 dengan membawakan teknologi yang mereka kembangkan bersama IRI bernama IRI Voracity, diantaranya adalah Bpk. Sigit Prasetyo, Ibu Melianie Sari, Ibu Ari Puwatiningsih.

Di event CeBIT2017, Solusi247 berada di Hall 6, Stand G09, Co-exhibitor with Ministry of Indonesia of the Republic of Indonesia.

IRI Voracity dan Solusi247

Solusi247 adalah sebuah perusahaan yang bergerak di bidang ICT, menjadikan Solusi247 dipercaya oleh Innovative Routines International (IRI) untuk mengembangkan produk yang diusung dengan nama IRI Voracity.

IRI Voracity® adalah satu-satunya high-perfomance, all-in-one platform untuk mengelola data. Dengan Voracity, Anda bisa mendapatkan kumpulan solusi-solusi lengkap yang dapat menggantikan software-software khusus, dan bukti terhadap perkembangan dan perubahan data. IRI Voracity® sangat cost-eficient, Anda tidak lagi membutuhkan team yang besar untuk menggunakan IRI Voracity® karena software ini sangat mudah dikelola.

IRI Voracity® menggabungkan data discovery, integrasi, migrasi, governance, dan analisis dalam kerangka metadata yang berhasil dibangun di atas Eclipse™. Hal ini memanfaatkan kekuatan dari IRI CoSort, atau Hadoop MR2, Spark, Spark Stream, Storm dan Tez.

 

TechTalk

Implementasi Big Data Di Dunia Kesehatan oleh Bpk. Beno K. Pradekso, Dijelaskan di Acara Tech Talk Techinasia di IPB Bogor

Hadir sebagai pembicara pada acara Tech Talk yang dilaksanakan di Institute Pertanian Bogor Kampus Dramaga, diselenggarakan oleh Techinasia, Rabu, 15 Maret 2017 lalu, pakar sekaligus praktisi Big Data, Ir. Beno Kunto Pradekso, M.Sc., seorang lulusan Delft University of Technology – Belanda yang kini menjadi CEO (Chief of Executive Officer) LABS247 yang merupakan perusahan yang bergerak di bidang ICT Company, penyedia teknologi dan solusi penanganan Big Data, sharing dengan para dosen-dosen serta mahasiswa yang notabene adalah mahasiswa tingkat 5-6 dan para IPB Dramaga mengenai implementasi big data di dalam kehidupan nyata.

Dalam pemaparanya, beliau menyampaikan materi mengenai Pemanfaatan Sumber Daya Lokal Big Data Untuk Indonesia dan implementasi Big Data dibidang bioinformatika dan kesehatan – Big Data for Bioinformatic and Healthcare. Ada beberapa case yang beliau share mengenai implementasi big data di bidang kesehatan dan bioinformatika.

“Big Data is not a technology. Big Data is a challenge.” ucapnya. Pria yang sangat menyukai riset ini menjelaskan bahwa big data adalah sebuah tantangan baru dimana hal ini memang harus di kulik lebih dalam lagi agar bisa menjadi manfaat untuk bangsa Indonesia.

sepbigdata_5

Seputar Big Data Edisi #5

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke dua bulan Februari 2017

Artikel dan berita

  1. A Very Short History of Artificial Intelligence (AI)
    Sejarah singkat mengenai perkembangan kecerdasan buatan (AI) dari masa ke masa
  2. Chicken Wings or Pizza? Adobe Discusses Super Bowl Insights
    Adobe melakukan penggalian dan analisa pada data mobile ads, sentimen sosial media dan transaksi pembelian untuk mendapatkan tren yang terjadi menjelang pertandingan pada Sunday’s Super Bowl antara Atlanta Falcons melawan New England Patriots
  3. 5 Major Big Data Predictions for 2017
    Seputar prediksi area yang akan berkembang dalam penggunaan dan pemanfaatan layanan komputasi awan pada tahun ini 2017.
  4. How to Boost Your Career in Big Data and Analytics
    Saat ini adalah era digital, segala sesuatu dapat menjadi data digital, sehingga peran penting Big Data dan Data Analytics terus meningkat dan tumbuh kedepannya. Ini merupakan kesempatan untuk berkarir di area ini.
  5. How Facebook Is Getting Better at Recognizing Your Photo
    Awal Februari ini Facebook mengupdate fitur pencarian foto menggunakan platform computer vision mereka. Sekarang anda dapat mencari foto di Facebook menggunakan keyword yang mendeskripsikan isi foto.
  6. Big data, financial services and privacy : Should our bankers and insurers be our Facebook friends?
    Bank dan perusahaan asuransi biasanya mendasarkan penilaian mereka pada apa yang dilaporkan oleh customer dan agen mereka. Namun akhir-akhir ini mereka mulai menggunakan sumber-sumber lain yang lebih personal seperti data aplikasi website dan mobile-banking. Bahkan sumber yang tidak konvensional semacam profil media sosial, web browsing, maupun phone location tracker. Dalam sebuah percobaan, FICO, penilai kredit terkemuka di Amerika, menemukan bahwa status Facebook seseorang dapat membantu memprediksi kelayakan kredit seseorang. Saat ini mereka bahkan berusaha mempelajari ekspresi dan nada suara seseorang untuk menentukan resiko kreditnya. Hal ini di samping menjadi peluang, namun juga mengundang beberapa kritik, terutama dari sisi privacy maupun kemungkinan financial exclusion.
  7. How nonprofits use big data to change the world
    Bagaimana organisasi-organisasi nirlaba memanfaatkan data untuk mendukung kegiatan mereka.
  8. Healthcare DATA Integration: The Foundation for Population Health
    Integrasi data dalam pelayanan kesehatan merupakan sebuah hal yang sangat penting, terutama untuk memberikan layanan kesehatan yang terbaik dan terintegrasi untuk masyarakat. Artikel ini membahas mengenai apa saja sumber data yang penting dalam bidang kesehatan, dan apa saja use case yang penting untuk diimplementasikan.

Tutorial dan pengetahuan teknis

  1. Automatically Segmenting Data With Clustering
    Dalam tutorial ini dijelaskan secara singkat mengenai algoritma K-Means Clustering, dan bagaimana mengukur keakuratannya, dan bagaimana memilih segmen yang dihasilkan
  2. You Want Data Science, Now What?
    Langkah-langkah praktis bagi sebuah organisasi yang ingin memulai implementasi data science.
  3. ModernDive: A free introduction to statistics and data science with R
    Sebuah open source textbook mengenai statistik dan data science dalam R. Menjelaskan dengan komprehensif mengenai : menggunakan R untuk mengeksplor dan memvisualisasikan data, menggunakan randomizaation dan simulasi untuk membangun ide inferensial, dan membangun sebuah ‘cerita’ menggunakan ide-ide tersebut dan menampilkannya ke audiens umum. Menariknya, buku ini sendiri ditulis dalam R, menggunakan package bookdown.
  4. 5 Data Science Books You Should Read in 2017
    5 buku yang perlu dibaca untuk anda yang ingin mengenal atau memperdalam pengetahuan dalam bidang data sains dan big data.
  5. Text mining and word cloud fundamentals in R : 5 simple steps you should know
    Metode text mining memungkinkan kita untuk menyoroti kata kunci yang paling sering digunakan dalam sebuah teks. Untuk menampilkannya dapat digunakan word cloud, juga disebut sebagai text cloud atau tag cloud, yang merupakan representasi visual dari data teks. Artikel ini akan menjelaskan langkah demi langkah cara untuk menghasilkan word cloud dengan menggunakan R.
  6. Fueling the Gold Rush: The Greatest Public Datasets for AI
    Saat ini makin mudah bagi kita untuk membangun sebuah sistem berbasis AI atau machine learning, terutama dengan semakin banyaknya open source tools semacam Tensorflow, Torch, Spark, dan lain sebagainya. Faktor lain yang tidak kalah penting dalam pembuatan sistem berbasis AI adalah data. Berikut ini daftar open dataset dalam berbagai format, yang tidak boleh dilewatkan untuk penggiat dan peminat AI.

Rilis produk

  1. Welcome to Apache Zeppelin 0.7.0
    Rilis Apache Zeppelin 0.7.0 dengan beberapa perbaikan dan penambahan fitur, di antaranya adalah peningkatan multi user, pluggable visualisation, peningkatan dukungan untuk Apache Spark dan security.
  2. The Apache Software Foundation Announces Apache® Ranger™ as a Top-Level Project
    Awal Februari ini Apache Foundation mengumumkan bahwa Apache Ranger ‘lulus’ dari status incubating menjadi sebuah top level project (TLP). Apache Ranger menyediakan cara sederhana dan efektif untuk setting access control dan mengaudit akses data di seluruh Hadoop stack. Salah satu manfaat utama dari Ranger adalah bahwa access control policies dapat dikelola oleh security administrator secara konsisten di seluruh ekosistem Hadoop. Dengan arsitektur plugin yang kuat, Ranger juga memungkinkan komunitas untuk menambahkan sistem baru untuk otorisasi bahkan di luar ekosistem Hadoop, dengan effort yang minimal.
  3. Google is Set to Open Source Google Earth Enterprise
    Google mengumumkan bahwa mereka akan segera membuka seluruh core Google Earth Enterprise (GEE) tools mereka menjadi open source. Rencananya langkah ini akan dilakukan pada bulan maret mendatang.
  4. Apache OpenNLP 1.7.2 released
    Rilis Apache OpenNLP versi 1.2.7. Apache OpenNLP library adalah toolkit berbasis machine learning untuk pengolahan teks bahasa alami. Mendukung task NLP yang paling umum, seperti tokenization, segmentasi kalimat, part-of-speech tagging, named entity extraction, chunking, parsing, dan coreference resolution.

Source : Seputar Big Data Edisi #5

sepbigdata_4

Seputar Big Data edisi #4

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama terakhir bulan Januari 2017 dan awal Februari 2017

Artikel dan berita

  1. All You Need To Know About Business Models in Digital Transformation
    Dalam istilah yang sangat sederhana, Model Bisnis adalah bagaimana perencaam kita untuk menghasilkan uang dari bisnis yang kita jalani. Sebuah versi halus adalah bagaimana kita menciptakan dan memberikan nilai kepada pelanggan.
  2. Five Ways Data Analytics Will Storm the Stage in 2017
    Telah menjadi sesuatu yang jelas saat ini, bagaimana analisis data mengarahkan pendapatan di bidang e-commerce. Dan perkembangan ini telah memaksa perusahaan e-tailers dan e-commerce untuk mempekerjakan lebih banyak data scientist dalam rangka untuk lebih memahami bagaimana faktor pelanggan berdampak kepada pendapatan dan penjualan.
  3. Stream Processing Myths Debunked
    Stream processing menjadi bagian yang penting dalam sebuah sistem big data, dan semakin banyak aplikasi dan platform yang mendukungnya. Meskipun demikian, masih banyak miskonsepsi yang terjadi terkait dengan stream processing. Dalam artikel ini para ahli dari data Artisans mengupas dan membongkar 6 mitos dan miskonsepsi mengenai stream processing.
  4. How Madden Got So Good at Predicting Super Bowl Winners
    Bagaimana Madden, sebuah videogame, dapat memanfaatkan data untuk memprediksikan pemenang superbowl, perhelatan olahraga terbesar di Amerika, hingga 9 dari 13 kali.

Tutorial dan pengetahuan teknis

  1. The Top Predictive Analytics Pitfalls to Avoid
    Tidak dapat dipungkiri lagi bahwa predictive modelling dan machine learning memberikan kontribusi signifikan untuk bisnis, namun keduanya sangat sensitif terhadap data dan perubahan di dalamnya, sehingga pemilihan teknik yang tepat dan menghindari kesalahan dan perangkap dalam membangun model data sains. Berikut ini beberapa perangkap utama yang perlu dihindari.
  2. How to set up a Twitter bot using R
    Dalam rangka dirilisnya package R ke 10.000 di CRAN, eoda menjalankan akun Twitter yang otomatis menampilkan jumlah package yang tersedia di CRAN sampai package ke 10 ribu tercapai pada tanggal 28 Januari 2017. Artikel ini menjelaskan mengenai cara set up account Twitter tersebut dengan R script.
  3. Journey Science: Combining 18 Data Sources + 1 Billion Interactions to take UX to The Next Level
    Journey Science, yang menyatukan data dari berbagai aktifitas pelanggan, telah menjadi bagian penting bagi industri telekomunikasi. Data tersebut dapat digunakan untuk meningkatkan customer experience dan retention. Dengan menggunakan insight yang didapat dari customer journey analytics, bisnis telekomunikasi dapat mengukur user experience dengan lebih baik, dan membuat keputusan yang tepat untuk meningkatkannya. Mulai dari melakukan tindakan proaktif untuk kepuasan pelanggan, namun juga untuk memprediksi dan mengantisipasi kegagalan yang mungkin terjadi di masa datang. Berikut ini sekilas mengenai bagaimana memanfaatkan customer journey untuk meningkatkan pelayanan dan kepuasan pelanggan.
  4. Performance comparison of different file formats and storage engines in the Hadoop ecosystem
    CERN telah mempublikasikan perbandingan kinerja Apache Avro, Apache Parquet, Apache HBase dan Apache Kudu. Ujicoba ini untuk mengevaluasi efficiency, ingestion performance, analytic scans and random data lookup pada data layanan CERN Hadoop.
  5. Working with UDFs in Apache Spark
    Dalam tulisan ini, akan dijelaskan contoh yang sederhana pembuatan UDF dan UDAF pada Apache Spark menggunakan Python, Java dan Scala
  6. Perfecting Lambda Architecture with Oracle Data Integrator (and Kafka / MapR Streams)
    Artikel yang menjelaskan konfogurasi pada Oracle Data Integrator menggunakan Apache Kafka/MapR Stream untuk menangkap perubahan yang terjadi pada MySQL.

Rilis produk

  1. Google : Using Machine Learning to predict parking difficulty
    Saat ini sebagian besar waktu mengemudi dihabiskan dalam kemacetan atau berputar-putar mencari tempat parkir. Salah satu tujuan produk-produk semacam Google Maps dan Waze adalah membantu pengguna kendaraan untuk mengemudi dengan lebih mudah dan efisien. Namun sampai saat ini, belum ada tool yang khusus mengatasi permasalahan parkir. Minggu lalu, Google merilis fitur baru untuk Android Google Map, yang menawarkan prediksi kondisi perparkiran di sekitar tempat tujuan anda, sehingga anda dapat mengantisipasinya dengan lebih baik. Fitur ini memanfaatkan kombinasi antara crowdsourcing dan machine learning. Saat ini fitur tersebut baru terdapat di di 25 kota di Amerika Serikat saja.
  2. Apache Atlas 0.7.1-incubating released
    Apache Atlas 0.7.1-incubating telah dirilis. Ada banyak perbaikan bugs dan beberapa peningkatan yang bersifat minor.
  3. Cloudera Enterprise 5.10 is Now Available
    Cloudera telah mengumumkan bahwa Cloudera Enterprise 5.10 telah dirilis dengan support GA untuk Apache Kudu, peningkatan kinerja pada cloud, peningkatan pada pengelolaan data dalam Amazon S3, dan banyak lagi.
  4. Announcing The Latest Hortonworks Data Cloud Release !
    Hortonworks mengumumkan rilis baru dari Hortonworks Data Cloud for AWS. Versi 1.11 ini terus mendorong untuk membuat pengolahan data menjadi mudah dan berbiaya efektif dalam komputasi awan.
  5. Announcing Data Collector ver 2.3.0.0
    StreamSets Data Collector versi 2.3.0.0 telah dirilis. Fokus utama dari rilis kali ini adalah mulithreaded pipelines, dukungan terhadap multitable copy, MongoDB change data capture, and HTTP API untuk Elasticsearch
  6. [ANNOUNCE] Apache Bahir 2.0.2
    Apache Bahir, tools yang menyediakan ekstensi dari Apache Spark, merilis versi 2.0.2

Source : Seputar Big Data edisi #4

sepbigdata_3_1

Seputar Big Data edisi #3

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga dan keempat bulan Januari 2017.

Artikel dan Berita

  1. Scourge of unsecure database deletions spreading : Hadoop instances deleted with no ransom sought.
    Serangan ransomware yang mulai sejak akhir tahun lalu, dan pada awalnya menimpa MongoDB, kemudian ElasticSearch, minggu lalu kembali meluas. Kali ini melibatkan juga server-server CouchDB dan Hadoop. Berbeda dengan serangan sebelumnya, serangan ke Hadoop cluster ini tidak disertai tuntutan tebusan atau catatan apapun. Ahli security Victor Gevers menyebutkan bahwa insiden ini sepertinya vandalisme. Serangan ini dikhawatirkan masih akan meluas, mengingat sampai tanggal 20 Januari lalu terhitung 34500 MongoDB, 4600 Elasticsearch, dan 126 Hadoop instances dihapus. Kejadian ini adalah akibat dari instalasi database tanpa mengaktifkan security, pada cluster yang terhubung ke internet.
  2. How MTV And Nickelodeon Use Real-Time Big Data Analytics To Improve Customer Experience
    Viacom, pemegang merk-merk ternama seperti Comedy Central, Nickelodeon dan MTV, merupakan salah satu perusahaan media terbesar di dunia, yang menyajikan lebih dari 170 saluran di 160 negara. Untuk dapat bersaing dalam kompetisi global, Viacom berusaha memposisikan diri sebagai perusahaan yang ‘data driven’, dengan memaksimalkan penggunaan data dalam pengambilan keputusan. Dan Morris, direktur senior product analytics Viacom, menguraikan mengenai bagaimana mereka menggabungkan berbagai data yang mereka miliki dengan teknik real-time analytics yang mutakhir, untuk memperbaiki viewer experience dan meningkatkan customer retention.
  3. Using Big Data to predict talent
    Kathleen Yu, salah satu pemenang Mansmith Young Market Masters Awards (YMMA) 2017, akan berbagi pengalaman mengenai bagaimana penggunaan analisa big data bagi sebuah talent management.
  4. 5 Solid Use Cases of IOT Analytics that Makes it Truly Innovative!
    IoT adalah teknologi dimana perangkat terhubung satu sama lainnya, dan dimana data dari semua perangkat ini dikumpulkan untuk suatu kebutuhan. IoT Analytics adalah kunci yang akan membantu untuk memperoleh nilai yang terkandung didalamnya dari data-data yang mengalir setiap harinya.
  5. How These Banking, Energy, and Pharma Firms Use Spark
    Spark merupakan salah satu framework yang banyak diadopsi kalangan industri, dan menjadi salah satu teknologi yang banyak digunakan untuk kebutuhan analytics. Beberapa perusahaan besar yang memanfaatkan Spark adalah perusahaan kartu kredit Capital One, raksasa obat Roche, dan DNV GL, sebuah perusahaan consulting di bidang energi. Berikut ini pengalaman mereka dalam memanfaatkan Spark untuk kebutuhan analytics mereka.
  6. 4 Ways Uber Movement Data Can Be Used
    Awal bulan ini Uber merilis Uber Movement, layanan data yang menyajikan data pergerakan armada Uber. Langkah ini disambut dengan sangat antusias oleh para pengelola kota dan pengambil kebijakan, sebab meskipun dipandang masih sangat terbatas dan teragregasi, data tersebut dapat memberi manfaat pada perencanaan kota. Berikut ini beberapa cara data Uber tersebut dapat dimanfaatkan.
  7. Text analysis of Trump’s tweets confirms he writes only the (angrier) Android half
    David Robinson, data scientist di Stack Overflow menganalisis tweet dari account Donald Trump (@therealdonaldtrump), dan menemukan pola bahwa tweet-tweet tersebut dibuat oleh 2 orang yang berbeda, dengan 2 device berbeda : android dan iphone. Dalam tulisannya David menunjukkan analisis yang dilakukan, lengkap dengan contoh tweet, source code dan library R yang digunakannya.
  8. The State of Big Data 2017
    Di awal tahun 2017 ini banyak artikel yang menulis mengenai perkiraan posisi atau status big data dan teknologinya di tahun 2017 ini. Artikel ini salah satu yang memaparkan beberapa prediksi mengenai perkembangan dan adopsi big data di tahun 2017.

Tutorial dan pengetahuan teknis

  1. 6 areas of AI and Machine Learning to watch closely
    Artificial Intelligence adalah teknologi yang berkembang sangat pesat, dan melibatkan banyak bidang ilmu dalam implementasinya. Artikel ini menjelaskan mengenai definisi umum AI dan apa saja 6 bidang yang perlu kita cermati dalam perkembangan teknologi ini di masa depan.
  2. Great Collection of Minimal and Clean Implementations of Machine Learning Algorithms
    Anda tertarik untuk memahami dan mengimplementasikan sendiri algoritma machine learning? Perlu contoh-contoh untuk mengimplementasikannya? Beberapa alasan mengapa kita mungkin ingin mengimplementasikan sendiri sebuah algoritma adalah : a) memahami cara kerja sebuah algoritma, b) mengimplementasikannya dengan cara yang lebih efisien, c) menambahkan fitur, d) mengatasi isu lisensi maupun platform, e) mengintegrasikan secara lebih ‘natural’ ke dalam software library, dan lain sebagainya. Artikel ini mengumpulkan beberapa algoritma dasar machine learning, yang diimplementasikan secara sederhana dan ‘clean’. Di antaranya adalah: deep learning, regresi, random forest, SVM, k-nearest neighbor, naive bayes, dan k-means clustering.
  3. Exploring Apache Spark 2.1 and Zeppelin in Hortonworks
    Apache Spark 2.1 telah dirilis pada bulan Desember 2016 lalu. Fokus utama dari rilis ini adalah perbaikan dalam Structured Streaming dan Machine Learning.
  4. CRAN now has 10,000 R packages. Here’s how to find the ones you need.
    CRAN yang merupakan repositori global paket open source untuk menambah kemampuan R, telah mencapai sebuah tonggak sejarah. Lebih dari 10.000 paket R tersedia untuk di download.
  5. Performance Tuning of an Apache Kafka/Spark Streaming System
    Pada artikel ini akan dijelaskan bagaimana meningkatkan performance hingga 10 x pada aplikasi Apache Kafka/Spark Stream/Apache ignite.
  6. A Visual Introduction to Machine Learning
    Dalam machine learning, komputer menerapkan teknik-teknik statistik untuk mengidentifikasi pola dalam data secara otomatis. Teknik ini dapat digunakan untuk membuat prediksi yang sangat akurat. Menggunakan kumpulan data tentang perumahan, dibuatlah model machine learning untuk membedakan antara pemukiman di New York dan San Francisco. Dalam tutorial ini ditunjukkan dengan jelas bagaimana langkah yang diambil dalam merancang sebuah proses machine learning, dan bagaimana membaca data yang dihasilkan, serta apa yang harus dilakukan untuk mendapatkan hasil yang dibutuhkan.
  7. Pandas Cheat Sheet: Data Science and Data Wrangling in Python
    Pengenalan singkat mengenai bagaimana menggunakan Pandas untuk melakukan data wrangling dengan Python.

Rilis produk

  1. The Apache Software Foundation Announces Apache® Eagle™ as a Top-Level Project
    The Apache software Foundation (ASF) pada 10 Jan 2017 lalu mengumumkan bahwa Apache Eagle telah meningkat dari status incubating menjadi TLP (top level project). Apache Eagle adalah solusi monitoring dan alerting untuk mengidentifikasi isu-isu yang terkait dengan security dan performance dalam platform-platform big data seperti Hadoop, Spark, dan lain sebagainya.
  2. Intel Open-Sources BigDL, Distributed Deep Learning Library for Apache Spark
    ntel meng-opensource-kan BigDL, sebuah library deep learning terdistribusi yang berjalan di atas Apache Spark. BigDL memanfaatkan cluster Spark untuk menjalankan perhitungan deep learning dan menyederhanakan data loading dari dataset besar yang disimpan di Hadoop. Library BigDL mendukung Spark versi 1.5, 1.6 dan 2.0 dan memungkinkan deep learning untuk dimasukkan ke dalam program berbasis Spark yang sudah dibuat. BigDL berisi metode untuk mengkonversi RDDS Spark ke BigDL DataSet dan dapat digunakan langsung dengan Spark ML Pipelines.

Source : idBigData – Seputar Big Data edisi #3

ITERA

Big Data Untuk Kedaulatan Data Indonesia

Menggandeng ITERA (Institut Teknologi Sumatra) dan AIDI (Asosiasi Ilmuwan Data Indonesia, IDBigData menggelar meetup yang pertama di tahun 2017 di kampus ITERA, Lampung.
Meetup dibuka oleh Wakil Rektor I ITERA, Prof. Dr.-Ing. Mitra Djamal, dan menampilkan topik-topik menarik dan terkini yang terkait dengan big data.

Pembicara yang tampil di antaranya adalah Dr. Masayu Leylia Khodra dari ITB, memaparkan mengenai "Text Mining: Peringkasan Teks Bahasa Indonesia". Dalam era di mana pertumbuhan data dan informasi terjadi secara luar biasa, muncul fenomena yang biasa disebut "Information Overload", atau kebanjiran informasi. Orang tidak mungkin lagi membaca semua informasi yang ditemui. Untuk mengatasi hal ini, peringkasan teks menjadi sebuah proses yang penting dan sangat memudahkan bagi manusia untuk menyerap sebanyak mungkin informasi dalam waktu yang terbatas.
Pembicara lain adalah Andry Alamsyah, S.Si, M.Sc, Chairman dari Asosiasi Ilmuwan Data Indonesia (AIDI), menjelaskan mengenai Data Sains dalam perspektif bisnis. Dalam paparannya Andry menyampaikan banyak sekali use case yang menarik yang berkaitan dengan pengolahan data dan opportunity yang dapat digali dan diciptakan dari data.

Tampil pula Ir. Beno K Pradekso MSc.EE, CEO SOLUSI247, membawa tema "Big Data untuk Kedaulatan Data Indonesia", dan tidak ketinggalan pula, Sigit Prasetyo, ketua IDBigData, yang mengajak peserta untuk berkenalan dengan YAVA, distro Hadoop buatan anak bangsa.
Meetup #12 ini dihadiri oleh 89 peserta, yang berasal dari kalangan universitas, pemerintahan dan industri, di antaranya dari ITERA, Unila, Bapeda Lampung dan Bank Lampung.

Selain seminar singkat, di hari ke 2 diadakan pula workshop yang merupakan kerja sama dengan Lab247, yang memberikan kesempatan pada para peserta untuk mendapatkan hands on experience dengan big data tools dan platform seperti Chanthel (distributed document management), dan HGrid (big data engineering).
Untuk rekan-rekan yang belum berkesempatan mengikutinya, rekaman meetup ke 12 ini dapat disaksikan melalui channel IDBigData.

Meetup ke 13 rencananya akan dilaksanakan pada bulan Februari 2017, bekerja sama dengan Universitas Indonesia.


 

Source : idBigData

fitur_sepbigdata_2_2

idBigData: Seputar Big Data Edisi #2

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan Januari 2017.

Artikel dan Berita

  1. DZone Big Data - Generating Values From Big Data Analytics for Your Business in 2017
    Beberapa hal yang dapat dilakukan dalam pemanfaatan big data pada toko online atau marketplace
  2. McKinsey - Unlocking the power of data in sales
    Bagaimana memanfaatkan data untuk memaksimalkan performa dalam B2B sales.
  3. Simplified Analytics - This is how Analytics is changing the game of Sports!!
    Big Data dan Analisa Data telah membuat banyak perubahan pada berbagai industri, tak terkecuali pada bidang olahraga. Selama beberapa tahun terakhir, dunia olahraga telah mengalami ledakan dalam penggunaan analisa data.
  4. DZone Big Data - The Role of Big Data in Finance and Trading
    Industri keuangan dan perdagangan valuta maupun saham selalu mengandalkan data yang kuat dan masukan yang akurat dalam pengambilan keputusan. Memasuki tahun 2017 ini, sangat jelas bahwa big data merevolusi industri keuangan dan perdagangan baik dari dalam ke luar.
  5. Yahoo Finance - Big Data Market to Reach 3 Billion by 2025: Increased Adoption of Cloud Computing - Research and Markets
    Research and Markets dalam laporannya "Big Data Market Analysis 2014 - 2025" menyatakan bahwa pasar big data diharapkan akan mencapai USD 123.2 miliar pada tahun 2025.
  6. Smart Data Collective - 3 Sweet Big Data Lies
    Big Data menjadi sebuah buzzword sampai hari ini. Walaupun memang petensinya cukup besar dalam menyelesaikan masalah, namun ada beberapa pemahaman yang kurang tepat terhadap big data.
  7. The Register - Hadoop hurler Hortonworks votes Tibco veteran for president
    Hortonworks menunjuk nama baru sebagai sebagai President dan COO pada perusahaan tersebut. Ia adalah Raj Verma yang sebelumnya merupakan COO pada enterprise software bussiness TIBCO dan telah terbukti kesuksesannya dalam mengakselearsi peningkatan revenue yang signifikan.

Tutorial dan Pengetahuan Teknis

  1. DZone Big Data - Quick Tips: Apache Phoenix and Zeppelin
    Sebuah tips mengenai query pada Apache Phoenix menggunakan Zeppelin, dan dengan cepat menambahkan grafis untuk tabel Zeppelin tersebut
  2. AWS Big Data Blog - Create a Healthcare Data Hub with AWS and Mirth Connect
    Pemanfaatan Mirth Connect yang merupakan teknologi open source pada Amazon Web Services untuk membangun sebuah sistem untuk mengintegrasikan informasi-informasi dalam bidang kesehatan.
  3. Creating Data Visualization in Matplotlib
    Matplotlib adalah library data visualization untuk Python yang paling banyak digunakan. Overview ini mencakup beberapa grafik yang bermanfaat untuk berbagai macam analisis, dan bagaimana sebaiknya grafik tersebut disajikan agar data anda dapat 'bercerita'.
  4. DZone Big Data - Parsing and Querying CSVs With Apache Spark
    Pada artikel ini akan dijelaskan bagaimana memecah dan mengquery data berformat CSV menggunakan Apache Spark. SQLContext akan memudahkan query pada data CSV.
  5. MapR - Real-time Smart City Traffic Monitoring Using Microservices-based Streaming Architecture (Part 2)
    Artikel ini merupakan seri lanjutan dari pemanfaatan Complex Event Processing (CEP). Kasus ini akan memanfaatkan sensor tunggal yang dapat mengukur kecepatan kendaraan yang melewatinya. Dengan menggunakan data sensor tersebut kita dapat memprediksikan kemacetan secara realtime
  6. Cloudera Engineering Blog - How-to: Fuzzy Name Indexing in Apache Hadoop with Rosette and Cloudera Search
    Pada tutorial ini akan dipelajari cara menggunakan Coudera Search dan Rosette untuk melakukan pencarian nama secara fuzzy pada berbagai bahasa dan dokumen.
  7. KDnuggets - The Most Popular Language For Machine Learning and Data Science Is …
    Ketika melakukan pemilihan bahasa pemrograman untuk proyek Data Analytics, banyak terjadi perbedaan pendapat yang tentunya sangat bergantung pada latar belakang dan area yang digeluti.

Rilis produk

  1. Apache Beam - Apache Beam established as a new top-level project
    Apache Software Foundation mengumumkan bahwa Apache Beam telah menjadi Top-Level Project pada apache project. Sebelumnya Apache Beam merilis versi terbaru yaitu versi 0.4.0
  2. Apache Calcite - Release 1.11.0
    Hampir tiga bulan setelah rilis sebelumnya, terdapat daftar panjang perbaikan software termasuk perbaikan bug.