Büyük Veri (Big Data) ve Kullanım Alanları

 bcakir
 28 Nisan 2014

Teknoloji hayatımızın içine kadar girip vazgeçilmez parçası haline geldiğinden beri üretiğimiz, paylaştığımız ve gezinirken bıraktığımız izlerden oluşan verinin de boyutu katlanarak arttı. Örneğin; 2000 yılında dünyada 800,000 petabyte büyüklüğünde verimiz varken, 2013 yılında 2,7 zatabyte büyüklüğüne ulaştık, IDC istatistiklerine göre 2020 yılında ise üretilen verinin 35 zetabyte olacağı tahmin ediliyor. Bu verinin %80′i gri data olarak adlandırılan müzük, video, resim dosyaları, ofis belgeleri gibi veritabanında saklanamayan veridir. Bu kısım daha çok donanım ve işletim sistemleriyle alakalı olduğu için bizim için büyük veri, ilişkisel veritabanında (RDBM) düşük maliyetlerle saklayamayacak ya da analiz edilemeyecek kadar büyüklüğe ulaşan veridir.

Büyük veri, tanımında da belirttiğimiz gibi artan maliyetler sonucunda ortaya çıkan bir kavram. Bu konuyu SAP şirketi tarafından verilmiş olan örnekle açıklamak gerekirse; 2 milyar müşteri hareketinden oluşan bir hareket verisinin içinde zamanında ödeme yapmamış olan müşterileri sorgulayan bir rapor oluşturmak için ilişkisel veritabanıyla yaklaşık 70 dakika sonuç alabilirken, SAP’ın Hana çözümü ile 13 saniyede rapor çıktısına ulaşabiliyoruz. Bu sonuç, bir yandan 350 kat zaman ve maliyet tasarrufu sağlarken bir yandan da gerçek zamanlı müşteri analizi yapabilmemiz anlamına da geliyor.Büyük veri kavramını daha iyi anlamak için 5V şeklinde adlandırılan bileşenlerini inceleyelim: Volume, Velocity, Verification, Variety, Value.

  • Büyüklük (Volume): Dünyadaki bilişim harcamaları yılda %5 artarken üretilen veri miktarı %40 artmakta. Kurumların ve şirketlerin bu büyüme oranlarını dikkate alarak veri saklama, analiz etme, dönüştürme ve işleme gibi teknolojilerinin bu büyüklükte veri boyutu ile nasıl başa çıkacağının kurgulanması gerekir.
  • Hız (Velocity): Veri üretilme hızı gitgide arttığı için veriyi kullanacak işlem sayısının ve çeşitliliğinin de aynı oranda artması sonucunu doğuruyor.
  • Doğrulama (Verification): Verilerin doğru katmanlardan ve doğru güvenlik seviyesinden sunularak doğru kişiler tarafından erişilebilmesi ve ilişkisi olmayanlar için gizli kalmasıdır.
  • Çeşitlilik (Variety): Verinin farklı türlerde, farklı dillerde ve farklı araçlarla üretilmesi nedeniyle bu verilerin birbirlerini anlayacağı şekilde dönüşmeleri de gereklidir.
  • Değer (Value): Büyük verilerin anlamlandırılması yani değere dönüşmesidir. Alınacak kararlarda gerçek zamanlı olarak kullanılıp artı yönde katkı sağlaması gerekir. Örneğin, hastaya uygulanacak tedavide daha önceki yapılmış tedavi yöntemleri analiz edilerek sürece eklenebilir. Ayrıca kişinin tedaviye verdiği tepkiler diğer hastalarla karşılaştırılıp sürecin hastadaki etkisi hemen fark edilip yöntemin doğru olduğu ya da değiştirilmesi gerektiği çok önceden anlaşılabilir.

Büyük veri çözümlerinin ilişkisel veritabanlarından farkı nedir?
İlişkisel veritabanları, veri bütünlüğünü (ACID – Atomicity, Consistency, Isolation, Durability) dikkate alarak çalıştıkları için büyük veri çözümlerine göre çok daha yavaş çözümlerdir. Büyük veri çözümleri, CAP teorisine (dağıtık dosya sistemi) göre çalıştığı için veri bütünlüğü kuralları geçerli değildir. İlişkisel veritabanlarındaki gibi bir tablo yapısı olmadığı için veriler bütünleşik (denormalize) olarak saklanmaktadır. Çünkü büyük verinin tutarlılık (Consistency), müsaitlik (Availability) ve parçalanma payı (Partition tolerance) kurallarının hepsini sağlaması mümkün olmadığından bir kaç tane verinin doğru olmaması ya da kaybolması, veri büyüklüğünü dikkat aldığımızda önemli değildir. Bu nedenle, büyük veriyi dikey ölçeklemeyle çok pahalı olarak saklamak yerine, basit donanımların dağıtık dosya sistemleri ile birleşimi sonucu çok ucuza saklama yöntemi, büyük veri çözümlerini (NoSQL, Hadoop, Lucene vb.) doğurmuştur. Bu veri çözümlerinden günümüzde en çok bilinenleri NoSQL “Not Only SQL” çözümleridir. NoSQL çözümlerinin hepsinin farklı bir amacı vardır. Bu nedenle direk karşılaştırmak doğru bir yöntem değildir, kullanacağınız amaca göre kendinize uygun olanı seçmelisiniz. Örneğin; MongoDB az veri ekleme çok veri okuma işlemi için uygun iken, Redis çok yazma, çok okuma olan ve veri kaybının geri planda olduğu bir sistem için tercih edilmelidir, Hadoop ise çok çok büyük veri ile kısa sürede işlem yapmanız gerektiğinde kullanılmalıdır. Bunun yanında, havale ve eft gibi para gönderiminin yapıldığı, veri kaybının çok önemli sorunlara yol açtığı bankacılık ve muhasebe türü uygulamalarda NoSQL kullanılmamalıdır.

Büyük veri nimet mi yoksa külfet mi?
Özellikle son kabul edilen yeni internet yasasının ardından bazı iş alanlarının büyük verinin getirdiği maliyetlerin altında ezileceği düşünülüyor. Büyük veri internet içeriği barındıran (hosting) firmalara benzer iş yapan şirketlerin zararına olsa da diğer şirketlerin kesinlikle yararına olacağını düşünüyorum. Büyük veriyi deniz gibi düşünürsek (içerisinde işimize yarayan ya da yaramayan birçok şey bulunabilir), doğru ekipman kullanıp içerisine oltayı attığımızda büyük balık yakalamamız çok muhtemel. Yani, büyük veri iyi bir şekilde analiz edilirse bir çok fırsatı içinde barındırır. Örneğin; çiçek satış hizmeti yapan bir girişimin müşterilerinin gönderim rutinlerini analiz ederek özel günlerini çıkarıp, çiçek hediye etmesini teşvik etmek için o güne özel indirimler sunabilir. Bu konuda 8digits CEO’sunun gerçek hayattan vermiş olduğu iki örneği de paylaşırsam; Facebook’da çiftlerin ilişkilerinin başlamasından hemen önce aralarındaki iletişimin hızlıca yükseldiği, ilişkileri başladıktan sonra hızla düşerek azaldığı görülmüş. Bu veriye bakılarak yeni ilişkiye başlayan çiftlerin tespit edilmesiyle onlara özel çeşitli kampanyalar oluşturulabileceği. İkinci örnek ise, hizmet verdikleri bir seyahat sitesinin ödeme sayfasını terkeden müşterilerin, çıkış yapana kadar girdiği bilgileri müşteri hizmetlerine yolladığı, böylelikle müşteri hizmetlerinin çok kısa bir süre içinde o kullanıcılarla iletişime geçmesiyle sayfayı terkeden müşterilerin %10′u geri dönüş yapıp satın alma işlemini tamamlamış. Bu örneklerden de açıkça görüldüğü gibi büyük veri bir çok fırsatı içinde barındırır. Fakat, doğru araç ve yöntemle analiz edildiğinde karlılığa dönüşür.

 1.300 Okunma

Bu yazıya 2 yorum yapılmış.

  1. İnsanların yaptıkları davranışları analiz edip anlamlandırmak (ticaret, sağlık, eğitim vs. alanlarda), geleceğin en büyük işleri olacak.

  2. Yazı için teşekkürler.

Yazı hakkında görüşlerinizi belirtmek istermisiniz?