Teknolojinin gelişmesi büyük veri, veri madenciliği gibi yeni kavramları hayatımıza soktu. Tek bir şirketin verilerinin analizi, işlenmesi ve şirket kararlarına etkisi giderek önem kazanırken, algoritmalarla verileri anlamlı bilgiler haline getiren veri madencilerinin sayısı da giderek artıyor.
Verilere erişim, son teknolojiler sayesinde her türlü mobil cihazdan bile hızla sağlanırken, büyüyen verilerin analizi aynı oranda karmaşıklaştı. Verileri anlamlı bütünler haline getirmek için bilgisayarlardan yararlanmak kaçınılmaz oldu. Veri üzerinden tahmin yapabilen makine öğrenme algoritmaları geliştirildi ve veri madenciliği kavramı doğdu. Veri madenciliği, veri setleri içerisindeki örüntülerin bilgisayarlar tarafından incelenmesine dayanan yöntemler bütünü olarak tanımlanıyor. Bu yöntemler üst düzey matematik temelli algoritmalar bütünlerinden oluşuyor.
Bir şirketin ürettiği verileri düşünün… Sosyal medya paylaşımları, kurum içi yazışmalar, kurum dışı paylaşımlar, kayıt alınan “log” dosyaları, e-postalar gibi farklı veriler depolanıyor. Bunların hepsi elbette şirket için aynı öneme sahip olmuyor ama şirketler bu veri yığınının içinden şirkete katma değer katacak verileri de artık göz ardı etmek istemiyor. Veri madencileri, büyük veri yığınlarından değerli bilgiler elde ediyor. Türkiye’nin ilk veri madencilerinden Çağrı Aksu ile mesleği üzerine konuştuk.
Veri madencisi ne yapar?
İstatistik lisansının ardından veri madenciliğinde uzmanlaşan Çağrı Aksu, çeşitli algoritmalar üreterek 2007 yılında veri madenciliği alanında finans, perakende, enerji sektörüne danışmanlık yapmaya başlamış. İki sene önce AnalyticHouse’u kurarak çalışmalarını bir şirket çatısı altında toplayan Aksu; veri madenciliğini, makine öğrenme algoritmalarının veriyi anlamlandırarak bilgiye dönüştürmesi olarak tanımlıyor: “Veri madencisi, büyük miktardaki ve karmaşık yapıdaki veriyi değişik algoritmalarla, kodlarla işleyerek faydalı hale getiren, bu veriden anlam çıkaran kişidir. Veri madenciliği artık veri biliminin altında bir başlık olarak yer alıyor. Makineye öğretmede farklı algoritmalar ve kümeleme, sınıflandırma gibi çeşitli teknikler kullanılıyor.”
“Türkiye, veri madenciliği ile 1990’larda tanıştı”
Aksu, 1990’larda ortaya çıkan veri madenciliği kavramının Türkiye’de yabancı firmalar aracılığıyla bilinmeye başlandığı belirtiyor. Küresel ölçekte çalışma alanı olan bankalar, büyük market zincirleri gibi yurt dışı merkezli şirketler veri madenciliğine ihtiyaç duyuyor. Aksu’nun belirttiğine göre, kendi teknolojilerini Türkiye’ye getiren bu şirketler, sepetleme denilen sepet analizi ile 1990’larda Türkiye’yi veri madenciliğiyle tanıştırmış oldu. 2000’lerde büyük verinin hayatımıza girmesiyle veri madenciliği veri bilimi çatısı altına girdi.
ABD’de popülerleşmesinin ardından birkaç yıl içinde Türkiye’de de tanınmaya başlanan veri madenciliğinde gelinen noktayı Aksu şu sözlerle açıklıyor: “Örneğin ‘A ürününü alan bir müşteri önümüzdeki iki ay içinde B ürününü yüzde 80 oranında alabilir’ bilgisine ulaşıp buna göre pazarlama yapma noktasına geldik. Bu eskiden de yapılabiliyordu ancak veri biliminde kullanılan teknolojiler, algoritmalar da gelişti.”
Süreç nasıl işliyor?
Veri madenciliği veri analiziyle başlıyor. Veri analiz sürecinde, veri içerisindeki tutarsızlıklar temizleniyor; bütün veri kaynakları birleştiriliyor, en uygun veri seti seçiliyor. Seçilen çözüme göre veri dönüştürülüyor. Bu noktada veri madenciliği devreye giriyor. Belirlenen yöntemler uygulanarak örüntü tespit ediliyor. Tespit edilen örüntüler ve bunların nasıl kullanılacağı değerlendiriliyor. Son etapta da müşterilerle madencilikten elde edilen bilgileri nasıl kullanacakları paylaşılıyor.
Pazarlama, e-ticaret, bankacılık, sigortacılık, telekomünikasyon ve sağlık sektörlerinde kullanılan veri madenciliği özellikle mühendislik alanında yoğun olarak başvurulan bir yöntem. Çeşitli algoritma ve istatistiki yöntemleri kullanan veri madencilerinin matematik, algoritma ve istatistik bilgisine sahip olmasının yanında kodlama bilgisine sahip olması da önem taşıyor.
İstanbul Üniversitesi, Yıldız Teknik Üniversitesi, İstanbul Teknik Üniversitesi gibi devlet üniversitelerinde ve özel kurumlarda veri madenciliği üzerine sertifika programları düzenleniyor. Veri Madenciliği ve istatistikle ilgili temel kavramlar, veri madenciliği yöntemlerinin anlatıldığı bu eğitimlerde katılımcılara veri madenciliği yöntemleri ile uygulama geliştirme, bir veri seti üzerinde analizler yaparak anlamlı bilgiler çıkartma gibi pratik uygulamalar da yaptırılıyor. Eğitimlere genelde en çok iş analistleri, yöneticiler, bilgi işlem uzmanları, finansal analistler, proje yöneticileri, istatistikçiler ilgi gösteriyor.
Yüksek maaşlı veri madenciliğine tüm dünyada ilgi yüksek
Aksu, veri biliminin çok disiplinli bir alan olduğunu belirtiyor ve veri bilimcisi olmak isteyenler için şu bilgileri paylaşıyor: “Veri bilimcisi olmak için tek bir alanda uzman olmak ya da eğitim almak yeterli değil. Lisans eğitiminin ardından istatistik, bilgisayar programlama ile ilgili alanlarda yüksek lisans ve doktora seviyesinde eğitim almak gerek. Daha sonra da iş tecrübesiyle birlikte veri madenciliği yapılabilir. Kodlama bilgisi, istatistiki bilgi, iş tecrübesi gibi farklı nitelikleri bir arada bulunduran kişilerin yapabileceği bir iş. Tüm dünyada bu mesleğe ilgi yüksek maaşlardan ve uzaktan çalışma imkanı nedeniyle çok yüksek.”
Türkiye’de pek çok finans kurumu, holding güvenlik nedeniyle kendi bünyesinde veri bilimi ekipleri kurma eğiliminde. Dışarıdan danışmanlık da alan kurumlar bulunuyor. Başkent Üniversite Tıp Fakültesi’nden Doç. Dr. Ersin Öğüş’ün danışmanlığında bir grup hekimin yazdığı “Veri Kümelerinden Bilgi Keşfi: Veri Madenciliği” başlıklı makalede, son yıllarda tıp alanında verilerin çok büyük boyutlara ulaşması ile veri madenciliği tıp alanında da geliştirilmeye başlandığı belirtiliyor. Tıp alanındaki bu gelişme, bilgisayar destekli tanı çalışmalarında, doktorların doğru karar vermelerine yardımcı olurken, sağlık uygulamalarının gelişmesine katkıda bulunuyor.
2025 yılında tıbbın pek çok dalında insan istihdamı olmayacağı bilgisini paylaşan Aksu, bunda yapay zekanın etkili olduğunu söylüyor.
Veri bilimi alanında güncel iş gücünü ölçebilmek için 219 veri bilimi çalışanı arasında Analytic House’un yaptığı araştırma veri bilimcilerinin profilini ve Türkiye’deki kullanımıyla ilgili sonuçlar ortaya koymuş: Veri ile ilgili çalışanların yüzde 40’ının yaş aralığı 25-32. Veri bilimcilerinin yüzde 42’si “Pyhton” kullanırken, yüzde 40’ı “R” kullanıyor. Veri bilimcilerinin yüzde 62’si veri bilim tekniklerini geleceğe yönelik tahminlerde bulunmak için kullanıyor.