Büyük Veri |
2. BÜYÜK VERİNİN TARİHSEL GELİŞİMİ |
2. BÜYÜK VERİNİN TARİHSEL GELİŞİMİ
Birlikte Düşünelim
1. Büyük verinin tarihsel gelişiminde sizce dönüm noktası ne olmuştur?
2. Büyük veri hangi türlerde olabilir, nasıl kategorize edilebilir?
3. Hangi hacimdeki veriler büyük veri sayılır?
4. Büyük verinin geleceğinde sıradaki adım ne olabilir?
5. SMART kavramı sizlere neyi çağrıştırmaktadır?
Başlamadan Önce
Büyük veri ilk olarak veri kavramından doğmuştur. Gelişiminde; kapsamlı veri, büyük veri ve son olarak SMART veri olarak isimlendirilmiş olup veriden istatistiksel olarak anlamlı sonuçlar çıkarmayla gelişimine başlamıştır.
Büyük veri kümeleri, ilk olarak 1600’lü yıllarda veriden istatistik yöntemler ile anlamlı sonuçlar çıkarmaya dayanmaktadır. 1960-1970’li yıllarda ortaya çıkan bilgisayarlar ile ilk veri merkezleri ve veri tabanlarının geliştirilmesiyle birlikte veri dünyası günümüzde bilinen halini almaya başlamıştır. Büyük verinin bir sonraki adımı sınıf bilişim ifadesidir. |
2.1. Büyük Verinin Tarihi
Büyük veri kavramı nispeten yeni olsa da büyük veri kümelerinin kökenleri, ilk olarak 1600’lü yıllarda veriden istatistik yöntemler ile anlamlı sonuçlar çıkarmaya dayanmaktadır. 1960-1970’li yıllarda ortaya çıkan bilgisayarlar ile ilk veri merkezleri ve veri tabanlarının geliştirilmesiyle birlikte veri dünyası günümüzde bilinen halini almaya başlamıştır.
IBM’in 1956 yılında üretmiş olduğu bilgisayarın sadece 5 MB hard diski bulunuyordu ve bu hard disk Şekil 2.1.’de görüldüğü üzere forklift yardımıyla taşınabiliyordu. Bugün ise 5 TB hard diski cebe sığacak küçüklükte bulunmakla birlikte cep telefonlarının ve kişisel bilgisayarların internete bağlanması ile sınırsız denebilecek büyük veriye erişim imkanı doğmuştur.
Şekil 2.1. IMB’in 5MB kapasiteli bilgisayarı.
1960’lı yıllarda insanlık ilk kez kendi dünyasının dışına çıkmış aya ayak basmıştır. O gün aya yollanmış olan Apollo uzay mekiğinin bilgisayarı tam 32 kiloydu ve bu bilgisayar sadece 1 mhz işlemciye 2 kb hafızaya sahipti. Bugün boş bir word dosyasına isminizi soy ismini yazıp kaydettiğinizde 10 kb’tan fazla yer kaplamaktadır. Bunun en önemli nedenlerinin başında depolama alanlarımızın büyümesi ve bilgisayar kaynaklarının gelişmesi gelmektedir. Buna paralel olarak toplanan veri miktarı artmış ve farklı kavramlar olarak karşımıza çıkmıştır. Şekil 2.2’de görüldüğü gibi büyük veri gelişim yolculuğunda farklı kavramlarla isimlendirilmiştir.
Şekil 2.2. Büyük verinin gelişimi.
SMART veri (self-monitoring, analysis and reporting technology / kendini izleme, analiz ve raporlama teknolojisi) ile büyük veriyi analiz etmek ve raporlayabilmek büyük verinin tarihsel gelişiminde önemli bir dönüm noktası olmuştur.
Verinin ilk olarak duran veri formunda elde edilmesi ile başlayıp sırasıyla bağlı veriler, zaman serileri ve akışkan verileri olarak Şekil 2.3’de görülen farklı veri türleri olarak tarihsel gelişiminde karşımıza çıkmaktadır.
Şekil 2.3. Büyük verinin türleri.
Başta Facebook, YouTube gibi sosyal medya platformları ve diğer çevrimiçi hizmetler yoluyla kullanıcıların ürettiği veriler gözlemlenmeye ve anlaşılmaya başlandı. Aynı zamanda büyük veri kümelerini depolamak ve analiz etmek için oluşturulan açık kaynaklı bir sistem olan Hadoop uygulaması geliştirildi. Buna paralel olarak da bir veri tabanı uygulaması olan NoSQL de popülerlik kazanmaya başladı. Hadoop vb. açık kaynaklı sistemlerin geliştirilmesi sayesinde büyük verilerin gelişimi ve bu veri üzerinde daha ucuz ve daha hızlı geliştirilen sistemler, büyük verilerin koordineli şekilde çalışmasını ve depolanmasını mümkün hale getirmiştir. Tarihsel gelişiminde üstel olarak artan veri miktarını işleyecek bilgisayar kaynakları da bunu gelişimi tetiklemiştir. Kullanıcılar hala çok büyük miktarlarda veri oluşturmaya devam ediyor ancak veri oluşturma işlemini yalnızca insanların yaptığını düşünmek bizleri büyük bir yanılgıya düşürebilir.
İnternet altyapısının gelişmesi ve 5G teknolojilerinin ortaya çıkması ile Nesnelerin İnterneti (IoT) kavramı doğmuştur. Nesnelerin İnterneti (IoT) ile müşteri kullanım şekilleri ve ürün performansı hakkında veri toplanması yoluyla internete daha fazla nesne ve cihaz bağlanır duruma gelmiştir. Bunun yanında yapay zeka kavramının temelinde yer alan örneklerden öğrenme işlemi için gerekli verilerin ortamlardan sürekli toplanması ile kaliteli veri hacmi artmıştır.
Bulut bilişim teknolojilerinin artması, uygun depolama ortamlarının büyük firmalar tarafından tesisi ile birçok kurum ve kuruluşun büyük verilerini bu ortamlara taşımalarına olanak sağlayarak hacimde artışa neden olmuşlardır. Bulut bilişim ortamı, geliştiricilerin bir veri kümesini test etmek için geçici kümeleri kolayca işleme sokabilecekleri oldukça esnek ölçeklenebilirlik sunan bir platform olarak karşımıza çıkmaktadır.
Büyük veri, son yıllarda iş dünyasında devrim yaratan teknolojilerin başında gelmektedir. Büyük veriyi; şirketlerin makine öğrenimi, tahmine dayalı modelleme ve diğer gelişmiş veri analitiği uygulamaları aracılığıyla iş maksatlı kullanabilecekleri bilgi koleksiyonu olarak görmeleri bu konuya ilgiyi arttırmıştır. Şekil 2.4’te görüldüğü üzere toplanan veriden anlamlı sonuçlar çıkarıldıkça şirketler bu sonuçlar üzerine önemli stratejiler geliştirmiş, kurumları için ekonomik girdilere ve karar alma süreçlerine yansıtmaya başlamıştır. Bu süreçleri gören diğer kurum/kuruluşlar da bunun üzerine yönelmişlerdir. Dolayısıyla enformasyon oranları artarak içerik zenginleşmiş, veriyi anlama ve veriden anlamlı bilgi çıkarımı artmıştır.
Şekil 2.4. Bilgi piramidi [1,2]
2.2. Büyük Verinin Gelişiminde Önemli Tarihler
Bugün bildiğimiz anlamda gelişmiş büyük veri analitiğine yol açan veri analizinin tarihi 17. yüzyıl Londra’sına kadar uzanıyor. Şimdi kronolojik sırayla büyük verinin tarihine yakından bakalım:
a. Veri kavramının doğuşu [3]:
1663: İngiltere’de meydana gelen kara ölüm olarak da bilinen hıyarcıklı veba salgını ile ilgili Londralı bilim insanı John Graunt’in sunduğu istatistiksel veri analizi, büyük veri için milat olarak kabul edilir. Yaptığı çalışma ile ölüm nedenlerini sistematik olarak ölçmeye çalışan Graunt, ölüm oranlarını ve bunların varyasyonlarını kaydettiği ilk halk sağlığı kayıtları koleksiyonunu 1663’te yayınladı.
1865: Yazar Richard Millar Devens “Cyclopædia of Commercial and Business Anecdotes” adlı kitabında “Business Intelligence” yani “İş Zekası” terimini ilk kez kullanır. Devens kitabında bir bankacının kar elde etmek için çevresinden gelen bilgileri nasıl kullandığını anlatmıştır. Bugün bildiğimiz anlamıyla, verileri analiz etme ve ardından eyleme dönüştürülebilir bilgiler sunmak için kullanma süreci olan iş zekasının 1960-85 yılları arasında gelişen karar destek sistemlerinden (DSS: Decision Support Systems) geliştirildiği söylenebilir.
1884: Dr. Herman Hollerith, veri işlemenin başlangıcı olarak kabul gören delikli kartı kullanarak istatistik verilerinin daha hızlı bir biçimde değerlendirilmesini mümkün kılan makine ve sistemi icat eder. Hollerith’in geliştirdiği sistem 1890’da ABD’nin nüfus sayımı verilerini işlemek için kullanıldı. 1911’de Dr. Herman Hollerith, sonrasında ismi IBM olacak olan Computing-Tabulating-Recording şirketini kurdu.
1990: Hubble Teleskobu, 1990 yılında uzaya fırlatılmış olup yaklaşık 4 metre büyüklüğünde bir uzay teleskobudur. Yaklaşık olarak bir evin odası büyüklüğünde olan bu teleskop, fırlatıldığı tarihten itibaren sadece bir yıl içerisinde insanlık tarihi boyunca üretilen veriden daha fazla veri üretilmiştir. Yaklaşık 30 yıldır insanlık için veri üreten Hubble teleskobunun veri birikiminin büyük veri örneklerinden en değerli bilgileri içeren bir örneği olarak görülmektedir.
1926: Tesla, 1926 yılında teknolojinin geleceğini yorumladığı röportajında, insanların bir gün “yelek cebinde” taşınabilen bir cihaz aracılığıyla büyük miktarda veriye erişebileceklerini öngörür. Tesla, bu değerlendirmeyi kablosuz teknolojinin parçacıkları değiştireceği konusundaki anlayışına dayanarak tahmin etmiş ve bu konuda şu yorumu yapmıştır: “Kablosuz teknolojiyle tüm dünya devasa bir beyne dönüşecek ve mesafeden bağımsız olarak birbirimizle anında iletişim kurabileceğiz.”
1928: Alman mühendis Fritz Pfleumer, 1928 yılında çelik tel yerine üzeri demir oksit tanecikleri kaplı kağıt şeride çok daha kaliteli ses kaydı yapmayı başardı. Daha sonra da ünlü Alman firması AEG’nin desteğiyle kağıt yerine ince plastik şerit kullanarak daha pratik ve kaliteli manyetik kayıtlar geliştirdi.
1943: İngiltere’de İkinci Dünya Savaşı sırasında düşmanın gizli haberleşme kodlarını çözmek için teorik bir bilgisayar ve ilk veri işleme makinelerinden biri icat edildi. Bletchley Park’taki kod çözme merkezinde faaliyete geçen ilk büyük ölçekli elektronik bilgisayar olan Colossus, büyük hacimli verileri analiz etmek için kullanıldı.
1959: IBM programcısı ve yapay zeka biliminin öncüsü Arthur Samuel, 1952’de “Makine Öğrenimi” terimini ortaya attı.
1965: ABD, milyonlarca vergi beyannamesi ve parmak izini manyetik bantta saklamak için ilk veri merkezlerini inşa etmeye başladı.
1969: Dağıtık kontrol ve TCI/IP protokollerini içeren ilk geniş alan ağı olan Advanced Research Projects Agency Network (ARPANET) kuruldu. Bu, günümüz internetinin temelinin atılması anlamına geliyordu.
b. İnternet çağı: büyük verinin şafağı [3]
Bilgisayarlar, internet sayesinde katlanarak daha yüksek oranlarda bilgi paylaşmaya başladıkça, büyük verinin gelişimindeki bir sonraki aşama da şekillenmeye başladı.
1989 ve 1990: Tim Berners – Lee ve Robert Cailliau, World Wide Web, HTML, URL ve HTTP protokolünü geliştirdiler. Böylece verilere yaygın ve kolay erişim ile internet çağı başlamış oldu.
1996: Dijital veri depolama, ilk kez kağıda bilgi depolamaktan daha uygun maliyetli hale geldi. Bu bilgi R. J. T. Morris ve B.J. Truskowski’in 2003 yılında IBM Systems Journal’da yer alan “Depolama Sistemlerinin Evrimi” makalesinde yer aldı.
1997: Google, bugün kullandığı alan adını 15 Eylül 1997’de etkinleştirdi ve 4 Eylül 1998’de Google şirketi resmen kuruldu. Arama motoru devrimi ile makine öğrenimi, büyük veri ve analitik teknolojiler de dahil olmak üzere çok sayıda diğer teknolojik yeniliğin geliştirilmesine başlanmadan bir yıl önce “Google.com” tescillenmiş oldu.
1998: “NoSQL” sözcüğü ilk defa Carlo Strozzi tarafından 1998 yılında kullanıldı. Geliştirdiği ilişkisel veri tabanının sorgulama dili olarak SQL’i kullanmadığını belirtmek isteyen Strozzi, açık kaynak kodlu veri tabanı için “NoSQL DB” ‘ismini kullandı.
1999: İlk baskısı 2000 yılında yayımlanan Hal R. Varian ve Peter Lyman’ın “How Much Information” isimli kitabı 1999’daki verilere dayanarak, bugüne kadar dünyada mevcut olan dijital bilgi miktarını belirlemeye çalıştı.
c. 21. yüzyılda büyük veri [3]
Bugün bildiğimiz anlamıyla büyük veri teknolojisi 2000 yılının başı itibarıyla hayatımıza girmeye başladı ve dokunduğu tüm endüstrileri etkileyerek dijital dünyada yeni bir dönemin kapısını açtı.
2001: Bilgi teknolojileri firması Gartner’dan Doug Laney, 3V’yi (hacim, çeşitlilik ve hız) kullanarak büyük verinin boyutlarını ve özelliklerini tanımladı. Büyük verinin ne anlama geldiğini çok iyi özetleyen bu tanım, bu teknolojinin 21. yy için ne kadar önemli olduğunu da ortaya koymuştur. Bu açıklamanın ardından doğruluk, değer ve değişkenlik gibi alt özellikler de büyük veri tanımına eklenmiştir.
2005: Bilgisayar bilimcileri Doug Cutting ve Mike Cafarella, Yahoo’dan ayrılan mühendislerden oluşan bir ekip ile büyük veri kümelerini depolamak ve işlemek için kullanılan açık kaynaklı yazılım araçları koleksiyonu Apache Hadoop’u (Şekil 2.5) geliştirdi.
Şekil 2.5. Günümüzde en popüler büyük veri uygulamalarından Apache Hadoop.
2006: Amazon Web Services (AWS), bulut bilişim olarak bilinen web tabanlı bilgi işlem altyapısı hizmetleri sunmaya başladı. Şu anda AWS, küresel pazar payının yaklaşık üçte biri ile bulut hizmetleri sektörünün hakimidir.
2008: Dünyadaki tüm CPU’ların, kişi başına yaklaşık 12 gigabayta eşit olan 9,57 zettabayttan (veya 9,57 trilyon gigabayt) fazla veri işlediği açıklandı. Küresel olarak yeni bilgi üretimi tahmini olarak 14,7 eksabayt büyüklüğündedir.
2009: Gartner, iş zekasının CIO’lar için en önemli öncelik olduğunu açıkladı. Büyük Durgunluk nedeniyle bir ekonomik dalgalanma ve belirsizlik dönemiyle karşı karşıya kalan şirketler için artık veriden değer yaratmak vazgeçilmez hale gelmeye başladı.
2011: McKinsey, 2018 yılına kadar ABD’nin analitik yetenek sıkıntısı ile karşı karşıya kalacağını açıkladı. Buna göre söz konusu tarihe kadar ABD’nin derin analitik becerilere sahip 140 bin – 190 bin kişiye ve doğru veriye dayalı kararlar alma becerisine sahip 1,5 milyon analist ve yöneticiye ihtiyacı olacaktı.
Ayrıca Facebook, enerji açısından verimli veri merkezleri için teknik özellikleri paylaşmak üzere Open Compute Project’i başlattı. Girişimin hedefi, maliyetleri %24 düşürüp, enerji verimliliğinde %38 artış sağlamaktı.
2012: ABD, ulusal güvenlik ve öğrenme dönüşümü vizyonu kapsamında veriden değerli iç görüler elde etme ve STEM uygulamalarının büyümesini hızlandırmak için 200 milyon dolarlık bir taahhütle Büyük Veri Araştırma ve Geliştirme Girişimi’ni duyurdu. STEM’e o dönemde sanatı temsilen “A” harfi eklendi ve STEAM oldu.
Harvard Business Review, veri bilimci mesleğini 21. yüzyılın en arz edilen mesleği ilan etti. Daha fazla şirket, yapılandırılmamış verileri sıralama ve bunlardan iç görü elde etme ihtiyacını anladıkça, veri bilimcilere olan talep de arttı.
2013: Büyük verinin global pazar hacmi 10 milyar dolara ulaştı.
2014: ABD’de masaüstü bilgisayarlardan daha fazla mobilden internete erişim sağlandığı verisi ilk kez rapor edildi. Dünyanın geri kalanı takip eden 2 yıl içinde ABD’yi bu konuda yakaladı.
2016: Dünyadaki verilerin yüzde doksanının yalnızca son iki yılda oluşturulduğu açıklandı. IBM, her gün 2,5 kentilyon bayt veri oluşturulduğunu bildirdi.
2017: IDC, büyük veri analizi pazarının 2020’de 203 milyar dolara ulaşacağını tahmin etti.
2020: Allied Market Research, büyük veri ve iş analitiği pazarının 2019’da 193,14 milyar dolara ulaştığını ve yıllık %10,9’luk bileşik büyüme oranında 2027’ye kadar 420,98 milyar dolara çıkacağını tahmin etti.
Teknoloji çok hızlı gelişiyor. 2020 yılına geldiğimizde dünya üzerinde yaşamını sürdüren her bir insan saniyede ortalama 1.7 megabayt veri üretmektedir. Dünya nüfusu ile düşünüldüğünde ve bireyin yaşam süresi dikkate alındığında toplanan verinin boyutu oldukça büyük hacimdedir.
d. Büyük verinin geleceği: büyük veride sıradaki adım ne?
Hızlı, neredeyse gerçek zamanlı analiz ve yanıt sağlamak için verilerin oluşturuldukları yere yakın bir şekilde işlenmesi, analiz edilmesi ve depolanması anlamına gelen sınır bilişim, büyük verinin bir adım sonrasını ifade ediyor. Bu kavram önümüzdeki yıllarda çok daha fazla karşımıza çıkması beklenmektedir. Bağlı cihazların her geçen gün artması, buluta artan bağımlılığımız ve yaklaşan uç bilgi işlem devrimi nedeniyle, büyük veri odaklı atılması gereken çok fazla adım bulunmaktadır.
Örneğin, makine öğrenimi, yapay zeka ve IoT analitiği gibi teknolojiler; verileri işleme, analiz etme ve bunlara göre hareket etme becerimizi büyük ölçüde geliştirerek sınırları zorlamaya devam ediyor. Büyük veri ve analitikte önemli gelişmelerin çok kısa süre içinde hayatımıza gireceği bir gerçektir.
Her ne kadar geleneksel sistemlerle büyük veri kullanmaya başlamış olsak da asıl büyümeyi yakalayabilmiş değiliz. Gelecek 10 yıl içerisinde asıl devrimin yaşanması öngörülmektedir. İnternet’e bağlanabilen nesnelerin kullanımının artmasıyla birlikte, anında nerede sorun olduğu bildirilecek ve böylece büyük miktarda veriler de ortaya çıkacaktır. Bundan dolayı elimizdeki veri miktarında gelecek yıllarda büyük bir sıçrama beklenmektedir. IDC verilerine göre 2025 yılında 163 zetabayt olacağı tahmin edilmektedir.
Şekil 2.6. Dünyada dijital verinin yıllar itibarıyla artışı (Kaynak: International Data Corporation (IDC), 2017).
Nicola Tesla’nın “Gelecekte insanlar cebine sığabilecek kadar küçük bir cihazla, uçsuz bucaksız miktardaki veriye ulaşabilecek ve analiz edebilecekler.” sözleri bulut bilişim sistemleri ve arama motorları sayesinde günümüzde mümkün hale gelmiş olup gelecekle ilgili bizlerin neleri beklediği ise tam bir muammadır.
Bölüm Özeti
Büyük veri kavramının miladı, İngiltere’de meydana gelen kara ölüm olarak da bilinen hıyarcıklı veba salgını ile ilgili Londralı bilim insanı John Graunt’in sunduğu istatistiksel veri analizidir. Ardından 1865’te Yazar Richard Millar Devens’in “Cyclopædia of Commercial and Business Anecdotes” adlı kitabında “Business Intelligence” yani “İş Zekası” terimi ilk kez kullanılır.
1960-1970’li yıllarda ortaya çıkan bilgisayarlar ile ilk veri merkezleri ve veri tabanlarının geliştirilmesiyle birlikte veri dünyası günümüzde bilinen halini almaya başlamıştır. 1956 yılında IBM tarafından üretilen bilgisayar 5 MB hard diske sahipti ve forklift yardımıyla taşınabiliyordu. Günümüzde 5 TB büyüklüğe sahip hard diski cepte taşımak mümkün hale gelmiştir.
‘Google’ bugün kullandığı alan adını 15 Eylül 1997’de etkinleştirdi ve 4 Eylül 1998’de Google şirketi resmen kuruldu. “NoSQL” sözcüğü ilk defa Carlo Strozzi tarafından 1998 yılında kullanıldı.
Büyük verinin zaman içerisindeki gelişimi; veri, kapsamlı veri, büyük veri ve smart veri şeklinde olmuştur. Bu gelişimi farklı veri türleri ile şu şekilde yapmak mümkündür; duran veri, bağlı veriler, zaman serileri, akışkan veriler.
Çeşitli sosyal medya platformları (Facebook, YouTube gibi) ve diğer çevrimiçi hizmetler yoluyla kullanıcıların ürettiği veriler gözlemlenmeye ve anlaşılmaya başlandı. Bu büyük veri kümelerini depolamak ve analiz etmek için oluşturulan açık kaynaklı bir sistem olan Hadoop uygulaması geliştirildi. Aynı zamanda bir veri tabanı uygulaması olan NoSQL kullanımı da yaygınlaştı.
İnternet altyapısının gelişmesi ve 5G teknolojilerinin ortaya çıkması ile Nesnelerin İnterneti (IoT) kavramı doğmuştur. Nesnelerin İnterneti (IoT) ile müşteri kullanım şekilleri ve ürün performansı hakkında veri toplanması yoluyla internete daha fazla nesne ve cihaz bağlanır duruma gelmiştir.
2020 yılında Allied Market Research, büyük veri ve iş analitiği pazarının 2019’da 193,14 milyar dolara ulaştığını ve yıllık %10,9’luk bileşik büyüme oranında 2027’ye kadar 420,98 milyar dolara çıkacağını tahmin etmiştir.
Büyük verinin bir adım sonrası olan sınıf bilişim ifadesi; hızlı, neredeyse gerçek zamanlı analiz ve yanıt sağlamak için verilerin oluşturuldukları yere yakın bir şekilde işlenmesi, analiz edilmesi ve depolanması anlamına gelmektedir.
Kaynakça
[1] Yüzer V. and Okur MR. “Temel Bilgi Teknolojileri-I”, T.C. Anadolu Üniversitesi, Açıköğretim Fakültesi Yayını No:2071, 2015.
[2] Ahsan, S., & Shah, A. (2006). Data, information, knowledge, wisdom: A doubly linked chain. In the proceedings of the 2006 international conference on information knowledge engineering (s. 270–278).
[3] Innova- Web Sitesi, “Büyük verinin kısa tarihçesi”, (Son Erişim:20.01.2022)
URL: https://www.innova.com.tr/tr/blog/buyuk-veri-blog/buyuk-verinin-kisa-tarihcesi
Comments