Büyük Veri Rüya ve Sanrıları İçinde

Barkın Ünüulu 6 Ocak 2019 Teknoloji Yorum Yap 164 Görüntüleme

Sizde genç bir mühendis olarak, “abi ya Spark var, adamlar real time analitik yapiyorlar hdfs üzerinden aldik mi veri setlerini yürür gideriz” diyenlerden misiniz? Ya da bir danışmanlık şirketinin analitik ve veri projeleri kapsamında teknik presales elemanı olarak müşteriye “ falan falan hanımefendi/beyefendi, sizin elinizde yer alan eski teknolojiler ihtiyacınız olan anlık ve hızlı sorgulama taleplerine cevap verecek durumda değil. Size bilumum açık kaynaklı teknolojileri cloudera/hortonworks zerinde sunalım, şu ana kadar sahip olamadığınız veri setlerinizin tadına varın” şeklinde satış yapma süreçlerinde olan kişilerden misiniz? Eğer bunlardansanız ne güzel, hoşgeldiniz büyük veri teknolojilerinin hülyalı dünyasına.

Ne yani, yahu ABD’de adamlar şöyle şöyle uçuruyorlar bu teknolojiler ile şirketleri, biz geri mi kalacağız yahu? Yahu Barkın ne eski adamsın! Senin zamanın çoktan öldü! Bu cümleleri de şu anda kulaklarımda duyar gibiyim.

Peki acaba nedir bu derece kuşkulandıran beni bu büyük veri teknolojileri konusunda acaba? Aslında sorun büyük veri teknolojilerinde değil, sorun işletmelerin bu teknolojiler ile uçacaklarını zannetmeleri.

İşletmeler ellerinde artık yalnızca yapılandırılmış veri setlerinden faydalanmak istemiyorlar, diğer taraftan ellerinde yer alan yarı yapılandırılmış veri setlerinden de yararlanmak istemekteler. Bu veri setlerinden de, en performanslı şekilde faydalanmak icin dağınık yapıda yer alan hadoop ekosisteminden fazlasıyla faydalanma talepleri olabiliyor. Yapılandırılmış veri setlerinin hdfs üzerine alınması ve aynı şekilde yarı yapılandırılmış, json vb, veri setlerinin de hdfs üzerine alınma işlemlerini gerçekleştirmek ekosistemde yer alan sqoop gibi etl bileşenleri ile kolayca gerçekleştirilmekte.

Ancak, işletmelerin asıl isteği analitik anlamda yoğun sorgulamalar yapmak ve bunları en hızlı şekilde almak olacaktır. Aaaa elde veri modeli yok ama. Biz gittik aldık tüm verileri hızlı hızlı attık, hem OLTP sistemlerden hem de mongo, couchdb, redis vb gibi nosql veritabanları üzerinden tüm verileri hdfs üzerine aldık. Ama bir veri modeli temeline oturtmadan yaptık biz bu işi. Sanki hdfs üzerine almış olduğumuz veri setlerini gerekli duyduğumuzda kullanabilecegimiz bir veri gölü, “data lake”, haline getirerek mi kullanmak ister hale geldik? Ve fakat “ veri gölü-data lake” ler özellikle 2017–2018 yılları arasında cok kullanışsız ve atil bir hal almadılar mı?

Olsun, veri modeli olmasa da, bir şekilde hdfs üzerinde olan veri setlerini hive üzerinden sorgulayamaz mıyım? Sorgularım tabiki de, önce hive üzerinde kullanacağım tüm hdfs dosyalarını bir tablo olarak yaratayım, sonrasında güzelce sorgulamayı yaparım. Güzel ama elimizde karmakarışık bir dünya var, gene veri modelimiz yok tuh!

Tamam işletme çok hızlı sorgulama istiyor. İşte bunu yapacak elimizde nefis teknoloji spark var. Biraz uzun olabilir geliştirme süremiz ama olsun. Önce hdfs üzerindeki veriyi spark üzerine rdd veri tipi olarak alayım, sonrasında hangi veri setlerini birleştirecğgim anlayayım. Ardından bunları “key valued” rdd nesnelerine dönüştüreyim. Sonrasında söz konusu bu rdd veri tiplerini join edeyim. Bunlar üzerinde yapılacak filtereleme ve kumulatif işlemler varsa, “map-reduce” işlemlerini kullanayım. Hah sonunda oldu sanırım birşeyler. Vuhuuuu çok hızlı , ama o da ne donanımın ram kapasitesi düşük mu? Haydi şimdi ram mi arttırmam gerek? Oy bu da başka sorun.

Peki ne yapacağım ben yahu işletme olarak? Yıllardır kullanmakta olduğum veri ambarım, olap küplerim var.Evet bunlar performans açısından çok yeterli değiller ama en azından aradığım cevapları hemen alıyorum. Ve ayrıca yetişmiş elemanı da hemen buluyorum.

Neyse satış elemanımız ama bize diyor ki bu işi yapmazsak geri kalacağız yeni dünyadan. Olsun ya kalalım, bizim işimiz önemli, bu açık kaynak denizi bir olgunlaşsın sonra bakalım…