Yapay zekâ modelleri en çok Reddit verilerine dayanıyor

Statista verilerine göre büyük dil modelleri en çok Reddit’ten alıntı yapıyor. Reddit %40 ile ilk sırada, Wikipedia ve YouTube ise onu uzaktan takip ediyor.

Aralarında ChatGPT, Gemini, Llama, Grok ve DeepSeek gibi popüler büyük dil modellerinin (LLM) de bulunduğu yapay zekâ sistemlerinin yanıt üretirken en çok Reddit verilerine başvurduğu ortaya çıktı. Yapay zekâ modellerinin eğitildiği kaynakların şeffaflığı uzun süredir tartışma konusu olurken, yeni veriler bu platformların nerelerden beslendiğini daha görünür hâle getiriyor.

Büyük dil modelleri günlük hayatın ayrılmaz bir parçası oldu

ChatGPT’nin 2022 sonunda yaygınlaşmasıyla büyük dil modelleri kısa sürede kullanıcıların günlük yaşamında bankacılıktan eğitime, içerik üretiminden kodlamaya kadar pek çok alanda kullanılmaya başladı. Bu süreçte Gemini, Llama 3, DeepSeek ve Grok gibi modeller de piyasadaki yerini aldı.

Ancak bu modellerin verdiği yanıtların kaynağının ne olduğu, hangi sitelerden ne kadar veri çekildiği ve bu verilerin nasıl işlendiği hâlâ en çok merak edilen konular arasında. Yeni araştırmalar ise sosyal medya platformlarının yapay zekâ eğitiminde tahmin edilenden çok daha etkili olduğunu gösteriyor.

Reddit, yapay zekâ eğitiminde açık ara en büyük kaynak

Online istatistik platformu Statista’nın 2024 yılının ilk çeyreğine ilişkin raporuna göre, büyük dil modellerinin alıntı yaptığı sitelerin başında %40,11 ile Reddit yer alıyor. Bu oran, yapay zekâ modellerinin neredeyse yarısının bilgi alma sürecinde Reddit tartışmalarından beslendiğini ortaya koyuyor.

Uzmanlara göre Reddit’in öne çıkmasının temel nedeni, kullanıcıların doğal dil kullanarak yaptığı gerçek tartışmaların modeller için çok kıymetli eğitim materyali oluşturması. Kullanıcıların deneyimlerini, sorunlarını, mizahını ve gündelik konuşmalarını içeren bu veriler, yapay zekânın insan benzeri yanıtlar üretmesine ciddi katkı sağlıyor.

Wikipedia ikinci sırada ama açık farkla geride

Statista verilerine göre büyük dil modellerinin ikinci en çok başvurduğu kaynak, düzenlenmiş içeriklerden oluşan Wikipedia. Ansiklopedik yapısıyla güvenilir bir referans olan platform, yapay zekâ tarafından %26,3 oranında alıntılanıyor.

Bu fark, Reddit gibi moderasyondan geçmeyen kullanıcı içeriklerinin yapay zekânın “doğal dil” üretimi açısından daha çok tercih edildiğini gösteriyor.

Yapay zekânın en çok alıntı yaptığı siteler

Araştırmanın ilk 10 sıralaması şöyle:

Reddit – %40,11
Wikipedia – %26,3
YouTube – %23,5
Google – %23,2
Yelp – %21
Facebook – %19,9
Amazon – %18,7
Tripadvisor – %12,4
Mapbox – %11,2
OpenStreetMap – %11,2

Bu liste, yapay zekânın eğitiminde yalnızca bilgi ansiklopedilerinin değil, aynı zamanda sosyal medya, video platformları, harita servisleri ve kullanıcı yorum sitelerinin de büyük etkisi olduğunu gösteriyor.

Reddit–Google ve Reddit–OpenAI anlaşmaları veri akışını artırdı

Yapay zekâ modellerinin Reddit verilerine yoğun şekilde yaslanmasının sebeplerinden biri de büyük teknoloji şirketleri ile Reddit arasındaki veri paylaşım anlaşmaları.

2024 yılında Google ile Reddit arasında imzalanan anlaşmaya göre Google, yapay zekâ modellerini beslemek amacıyla Reddit verilerine erişim sağlayacak. Bu anlaşma kapsamında Reddit’in yıllık 60 milyon dolar gelir elde edeceği belirtildi.

Reuters’ın başka bir haberine göre Reddit aynı zamanda OpenAI ile de anlaşma imzaladı. Bu anlaşma uyarınca Reddit’in topluluk verileri ChatGPT’yi eğitmek ve iyileştirmek için kullanılabilecek.

Bu gelişmeler, yapay zekâ modellerinin yanıtlarında Reddit etkisinin neden bu kadar güçlü olduğunu da açıklıyor.

Uzmanlara göre büyük risk: doğruluk, önyargı ve manipülasyon

Yapay zekânın Reddit gibi kullanıcı tarafından üretilen içeriklere aşırı bağımlı olması beraberinde bazı tartışmaları da getiriyor:

Kullanıcı yorumları her zaman doğrulanmış bilgi içermeyebilir.
Bazı tartışmalar önyargılı, yönlendirici veya yanlış olabilir.
Sosyal medya manipülasyonları yapay zekâ yanıtlarına da yansıyabilir.

Uzmanlar, modellerin büyük miktarda ham veriden beslenmesinin doğal dil işleme için avantaj sağlarken, bilgi doğruluğu açısından risk oluşturduğunu vurguluyor.

Yapay zekânın geleceğinde veri şeffaflığı şart

Hem Google hem OpenAI hem de diğer yapay zekâ üreticileri, gelecekte veri şeffaflığının daha sık talep edileceğini kabul ediyor. Kullanıcıların ve düzenleyici kurumların “hangi verilerle eğitildi, hangi veriler kullanılıyor?” sorusunu daha güçlü şekilde soracağı öngörülüyor.

Bu nedenle yapay zekâ şirketlerinin eğitim verilerini daha şeffaf hâle getirme ve telif haklarına uygun veri kullanım modelleri geliştirme baskısı her geçen gün artıyor.

Yapay zekâ modelleri en çok Reddit verilerine dayanıyor

Büyük dil modelleri günlük hayatın ayrılmaz bir parçası oldu

Reddit, yapay zekâ eğitiminde açık ara en büyük kaynak

Wikipedia ikinci sırada ama açık farkla geride

Yapay zekânın en çok alıntı yaptığı siteler

Reddit–Google ve Reddit–OpenAI anlaşmaları veri akışını artırdı

Uzmanlara göre büyük risk: doğruluk, önyargı ve manipülasyon

Yapay zekânın geleceğinde veri şeffaflığı şart

Anthropic’tan hata: Binlerce GitHub deposu yanlışlıkla kaldırıldı

Runway, yapay zeka girişimleri için 10 milyon dolarlık fon başlattı

Uber Eats, yapay zekalı Cart Assistant’ı duyurdu

Anthropic, Claude’un ücretsiz sürümünü güçlendirdi

YouTube Music’e yapay zeka geldi