Bu makale, şu ana kadar edindiğimiz bilgilere ve okuduklarımdan edindiğim ilk izlenimlere genel bir bakış sunabilmek için hazırlandı. Gemini’nin neler yapabildiğini ve yapay zekanın geleceği için ne anlama geldiğini aktarmaya çalışacağız. Sıkı tutunun başlıyoruz.
Google Gemini nedir?
Öncelikle biraz basitten başlayalım. Gemini, Google’ın sadece metinleri değil aynı zamanda görüntüleri, videoları ve sesleri de anlayabilen yeni ve en güçlü yapay zeka modeli konumunda. Çok modlu (multimodal) bir model olan Gemini’nin matematik, fizik ve diğer alanlardaki karmaşık görevleri tamamlayabildiği ve çeşitli programlama dillerinde yüksek kaliteli kodları anlayıp üretebildiği belirtiliyor.
Şu anda Google Bard ve Google Pixel 8 entegrasyonlarıyla kullanılabiliyor ve kademeli olarak diğer Google hizmetlerine de eklenecek. Google DeepMind CEO’su ve kurucu ortağı Dennis Hassabis‘e göre “Gemini, sıfırdan çok modlu olacak şekilde tasarlandı, yani metin, kod, ses, görüntü ve video dahil olmak üzere farklı bilgi türlerini genelleştirebilir ve sorunsuz bir şekilde anlayabilir, bunlar arasında çalışabilir ve birleştirebilir.”
Gemini’nin 3 farklı sürümü var
Gemini Nano: Bu model daha çok cihazları hedefleyen bir mode. Google, Ultra ve Pro’nun parametre sayısını açıklamadı, ancak Nano’nun düşük ve yüksek bellekli cihazlar için Nano 1 (1.8B) ve Nano 2 (3.25B) olmak üzere iki katmana ayrıldığını biliyoruz. Bu versiyonlar cihaz üzerinde sohbet, metin özetleme ve görsel oluşturma gibi işlevleri yerine getirecek. Gemini Nano, Google’ın yapay zeka ile geliştirilmiş bir akıllı telefon haline gelecek olan Pixel 8 Pro‘da yerleşik olarak bulunuyor. Bu, açıkçası süper mobil asistanların başlangıcı diyebiliriz. Gemini ayrıca Arama, Reklamlar, Chrome ve Duet AI gibi daha fazla ürün ve hizmetimizde mevcut olacak ancak ne boyutta veya ne zaman olacağını belirtmiyor.
Tüm modellerin 32K bağlam penceresi bulunuyor ki bu da en büyükleri olan Claude 2 (200K) ve GPT-4 Turbo’dan (128K) oldukça küçük. Ancak hangi boyuttaki bağlam penceresinin en uygun olduğunu söylemek zordur (tabii ki göreve bağlıdır) çünkü boyutun çok büyük olması durumunda modellerin bağlam bilgisinin büyük bir kısmını unutma eğiliminde olduğu biliniyor.
Açıkçası Google Gemini hakkında teknik bilgilerimiz ve işleyiş şekli hakkında çok fazla bir şey bilmiyoruz zira Google bunları paylaşmıyor. Bunu söylemek oldukça komik ama daha fazlasını öğrenmek için Meta’nın bir sonraki modelini yayınlamasını beklememiz gerekecek. Açık kaynaklı bir Llama 3 – eğer GPT-4 ve Gemini ile karşılaştırılabilirse – bu modellerin nasıl oluşturulduğuna ve ne üzerinde eğitildiklerine biraz ışık tutabilir.
Gemini vs ChatGPT 4
Gemini Ultra demişken vizörü biraz daha genişletelim.
Google, burada yayınladığı blog yazısında şu şekilde bir tanımlama yapıyor:
“Gemini Ultra, hem dünya bilgisini hem de problem çözme yeteneklerini test etmek için matematik, fizik, tarih, hukuk, tıp ve etik gibi 57 konuyu bir arada kullanan MMLU’da (devasa çok görevli dil anlama) %90,0’lık bir skorla insan uzmanlardan daha iyi performans gösteren ilk modeldir... Gemini Ultra ayrıca, kasıtlı muhakeme gerektiren farklı alanları kapsayan çok modlu görevlerden oluşan yeni MMMU ölçütünde %59,4’lük en yüksek skoru elde ediyor.”
Google Gemini neden devrimsel?
Gemini, henüz geliştirilme aşamasında olmasına rağmen, bilgisayarlarla etkileşim şeklimizi değiştirme potansiyeliyle şimdiden fark yaratıyor. Onu özel kılan şeyleri şu şekilde açıklamaya çalışalım:
Yapay zeka modellerinin çoğunun aksine, sadece metin değil, çok çeşitli bilgi kaynaklarını kavrayabilir ve bunlara yanıt verebilir. Gemini sizin dilinizi konuşabilecek kadar zekidir. Sonuç olarak, tıpkı bir insan gibi doğal ve sofistike tartışmalar yürütebilir. Ek olarak, Gemini kod üretme yeteneğine de sahip. Ayrıca Gemini’nin gelişmiş veri analizi becerileri, sağlıktan finansa kadar çeşitli sektörlerde faydalı içgörüler elde etmemize yardımcı olabilir. Google, geliştiricilerin yeni yapay zeka uygulamaları tasarlamasına olanak tanıyacak Gemini’nin daha hafif versiyonlarını üretmeyi planlıyor. Bu, geliştiriciler için bir rüyanın gerçekleşmesi anlamına geliyor.
Gemini, Google için büyük bir adım, ancak bir bütün olarak yapay zeka endüstrisi için dev bir sıçrama değil, olması da gerekmiyor. Yukarıda da dediğimiz gibi; Gemini, 32 standart performans ölçütün 30’unda GPT-4’ü geride bırakıyor ancak küçük marjlarla. Gemini’nin asıl alameti farikası yapay zekanın mevcut en iyi yeteneklerini tek bir güçlü pakette toplamak.
Gemini’yi tam olarak gösteren en güçlü örnek ise tavada pişmekte olan bir omletin pişip pişmediğinin sorulması (metin değil, konuşma yoluyla). Gemini, “Hazır değil çünkü yumurtalar hala cıvık” diye yanıt verdi. Bu bize çok basit geliyor belki ama bu zor bir süreç. Gemini, söyleneni tam olarak anlayıp omlet görüntüleri ile ilişkilendiriyor. İlişki kurulduktan sonra ise bir omletin piştiğinde nasıl görülmesi gerektiğiyle bağlantı kuruyor. Tüm bunlar tek bir temel modelde gerçekleşiyor.
Son sözler, halüsinasyonlar ve üst düzey muhakeme
Google Gemini AI gerçekten etkileyici, bunu kabul etmek gerekiyor. Ancak yapay zekanın temel sorunu halen çözülebilmiş değil: Halüsinasyonlar ve üst düzey muhakeme.
Google’ın yayınladığı 60 sayfalık teknik raporun sonuçlar kısmında şu ifadelere yer veriliyor:
“Etkileyici yeteneklerine rağmen, LLM’lerin kullanımında sınırlamalar olduğunu belirtmeliyiz. Model çıktılarının daha güvenilir ve doğrulanabilir olmasını sağlamak için LLM’ler tarafından üretilen “halüsinasyonlar” üzerinde devam eden araştırma ve geliştirmeye ihtiyaç duyulmaya devam ediyor. LLM’ler ayrıca sınav ölçütlerinde etkileyici performans göstermelerine rağmen nedensel anlama, mantıksal çıkarım ve karşı olgusal akıl yürütme gibi üst düzey akıl yürütme becerileri gerektiren görevlerde zorlanmaktadır.”
Yapay zekanın potansiyel olarak tehlikeli bir hızla geliştiğine dair artan söylentiler işleri pek de yavaşlatmıyor. OpenAI’ın ChatGPT’yi piyasaya sürerek yapay zeka teknolojisi geliştirme yarışını tetiklemesinden bir yıl sonra, Google tekrardan lider konuma yükselmek için devam adımlar arıyor.
Metin, resim ve video ile çalışabilen yeni bir yapay zeka modeli olan Gemini, arama motorunu halkın zihnine yerleştiren ve kurumsal bir dev yaratan PageRank’ten sonra Google’ın tarihindeki en önemli algoritma olabilir.
Gemini, bu üretken yapay zeka dalgasının zirvesi olabilir. Ancak büyük dil modelleri üzerine inşa edilen yapay zekanın bundan sonra nereye gideceği henüz belli değil. Bazı araştırmacılar bunun bir sonraki zirveden ziyade bir plato olabileceğine inanıyor.
CEO Pichai’ye göre ise yolun başındayız; “Bu modellere daha fazla akıl yürütmeyi öğrettikçe, daha büyük ve daha büyük atılımlar olacak. Daha derin atılımlar henüz gelmedi. Tüm bunları göz önüne aldığımda, gerçekten de daha işin başında olduğumuzu hissediyorum.”