BİLGE

Dilimizle gelişen, verimizle güçlenen

Türkiye’nin Büyük Dil Modeli.

BİLGE Hakkında

Bilge Nedir ?

Türkiye'nin Yerli ve Millî Büyük Dil Modeli

BİLGE; TÜBİTAK BİLGEM tarafından geliştirilen, Türkçenin kendine özgü yapısını ve kültürel birikimimizi temel alan büyük dil modeli ailesidir. Türkçenin dil yapısını, anlam katmanlarını ve kültürel bağlamını anlamaya odaklanır. “Varsayılan kültür” yerine Türkiye’yi merkeze alır.

Türkiye’nin yapay zekâ alanındaki bilgi birikimi ve mühendislik kabiliyetinin bir ürünüdür. 1 milyardan 122 milyar parametreye uzanan model ailesiyle her ölçeğe hitap eder.

Türkçe için geliştirilen yerli dil modeli ailesi

Türkçeyi yalnızca anlamakla kalmaz, üzerine akıl yürütür. Böylece Türkçeyi başka bir dilden çeviriyormuş gibi değil; doğal, akıcı ve yerinde bir şekilde kullanır.

Kültürel bağlamı kavrama

Türkçenin sondan eklemeli yapısı ve kültürel referanslarını doğru yorumlar.

Verimli kaynak kullanımı

Türkçe için optimize edilmiş yapısı, mevcut donanım yatırımlarından daha yüksek verim alınmasını destekler. İşletme maliyetlerini azaltır.

Dijital egemenliğe katkı

Ulusal verilerin ülke içinde işlenmesini ve depolanmasını sağlayarak dışa bağımlılığı azaltır ve veri güvenliğimizi sağlar.

Türkçe içerik üretir

Doğal ve akıcı bir Türkçeyle raporlar, yazışmalar, içerik taslakları ve özgün metinler oluşturabilir.

Soruları yanıtlar, özetleme yapar

Uzun metinleri ve belgeleri ana fikirlerini koruyarak özetleyebilir; içeriklere ilişkin sorulara bağlama uygun yanıtlar üretebilir.

Çeviri yapar

Türkçe ve İngilizce arasında çeviri gerçekleştirirken özel adları, deyimleri ve kültürel referansları doğru biçimde aktarabilir.

Mevzuat ve bilgi sistemlerinde kullanılır

Hukuki metinlerin analizinde, mevzuat sorgulamalarında ve kurumsal bilgi bankalarıyla entegre çalışan uygulamalarda etkin şekilde kullanılabilir.

Yapay zekâ asistanlarına temel oluşturur

Sektöre özel çağrı asistanları, danışmanlık sistemleri ve ajan tabanlı uygulamalar için güçlü bir dil altyapısı sunar.

Kavramları ve referansları doğru yorumlar

Türkçenin dilsel inceliklerini, tarihsel arka planını ve kültürel referanslarını dikkate alarak daha isabetli çıktılar üretir; halüsinasyon riskinin azaltılmasına katkı sağlar.

Türkçe Kaynaklar Derlendi

Web içerikleri, kitaplar, gazeteler, resmî belgeler ve alan odaklı veri setlerinden oluşan yaklaşık 1 trilyon Türkçe kelimelik ham veri havuzu oluşturuldu. Veriler, kalite filtreleme ve normalizasyon süreçlerinden geçirilerek eğitime hazır hâle getirildi.

Yüksek Kaliteli Veriler Seçildi

Ham veri havuzundan 250 milyar yüksek kaliteli token belirlendi. Tekrarlayan içerikler ayıklandı; dil kalitesi, tutarlılık ve güvenilirlik kriterlerine göre kapsamlı filtreleme uygulandı.

Sentetik Verilerle Zenginleştirildi

Veri setinin kapsamını ve çeşitliliğini artırmak amacıyla 500 milyar ek sentetik veri üretildi. Özellikle az temsil edilen alanlar, görev türleri ve kullanım senaryoları hedeflenerek veri dengesi güçlendirildi.

Modeller Eğitildi ve Geliştirildi

BİLGE 1B ve BİLGE 9B modelleri sıfırdan (from scratch) eğitildi. BİLGE 27B, güçlü açık kaynak modeller üzerine Türkçe verilerle Sürekli Ön Eğitim (Continued Pre-Training) uygulanarak geliştirildi. BİLGE 122B ise Türkçe akıl yürütme ve muhakeme yeteneklerini güçlendirmeye yönelik ileri düzey eğitim süreçlerinden geçirilmektedir.

İnce Ayar ve Sürekli İyileştirme

Gözetimli İnce Ayar (SFT) ve İnsan Geri Bildirimiyle Pekiştirmeli Öğrenme (RLHF) süreçleri tamamlandı. Modeller, gerçek kullanım senaryolarından elde edilen geri bildirimler doğrultusunda düzenli olarak güncellenmeye ve iyileştirilmeye devam etmektedir.

Kamu Kurumları

Vatandaş hizmetleri, eğitim destek sistemleri, hukuki bilgi erişimi ve idari süreçlerin dijitalleştirilmesi gibi alanlarda kullanılabilir.

Özel Sektör

Müşteri hizmetleri, içerik üretimi, doküman analizi ve sektöre özel iş süreçlerinin otomasyonunda değer sağlayabilir.

Araştırmacılar

Türkçe doğal dil işleme araştırmaları, benchmark çalışmaları ve akademik projeler için güçlü bir araştırma altyapısı sunar.

Yazılım Geliştiriciler

Türkçe dil yeteneklerine sahip uygulamalar geliştirmek, API entegrasyonları gerçekleştirmek ve mevcut ürünlere yerli yapay zekâ kabiliyeti kazandırmak amacıyla kullanılabilir.

Sağlık Ekosistemi

Tıbbi kayıtların işlenmesi, klinik dokümanların analiz edilmesi, karar destek uygulamaları ve hasta iletişimi süreçlerinde destekleyici çözümler geliştirilmesine katkı sağlar.

Finans ve Bankacılık

Müşteri hizmetleri otomasyonu, finansal doküman analizi, raporlama süreçleri ve bilgiye dayalı karar destek mekanizmalarında kullanılabilir.

Türkiye'nin Yerli ve Millî Büyük Dil Modeli

BİLGE; TÜBİTAK BİLGEM tarafından geliştirilen, Türkçenin kendine özgü yapısını ve kültürel birikimimizi temel alan büyük dil modeli ailesidir. Türkçenin dil yapısını, anlam katmanlarını ve kültürel bağlamını anlamaya odaklanır. “Varsayılan kültür” yerine Türkiye’yi merkeze alır.

Türkiye’nin yapay zekâ alanındaki bilgi birikimi ve mühendislik kabiliyetinin bir ürünüdür. 1 milyardan 122 milyar parametreye uzanan model ailesiyle her ölçeğe hitap eder.

Türkçe için geliştirilen yerli dil modeli ailesi

Türkçeyi yalnızca anlamakla kalmaz, üzerine akıl yürütür. Böylece Türkçeyi başka bir dilden çeviriyormuş gibi değil; doğal, akıcı ve yerinde bir şekilde kullanır.

Kültürel bağlamı kavrama

Türkçenin sondan eklemeli yapısı ve kültürel referanslarını doğru yorumlar.

Verimli kaynak kullanımı

Türkçe için optimize edilmiş yapısı, mevcut donanım yatırımlarından daha yüksek verim alınmasını destekler. İşletme maliyetlerini azaltır.

Dijital egemenliğe katkı

Ulusal verilerin ülke içinde işlenmesini ve depolanmasını sağlayarak dışa bağımlılığı azaltır ve veri güvenliğimizi sağlar.

Türkçe içerik üretir

Doğal ve akıcı bir Türkçeyle raporlar, yazışmalar, içerik taslakları ve özgün metinler oluşturabilir.

Soruları yanıtlar, özetleme yapar

Uzun metinleri ve belgeleri ana fikirlerini koruyarak özetleyebilir; içeriklere ilişkin sorulara bağlama uygun yanıtlar üretebilir.

Çeviri yapar

Türkçe ve İngilizce arasında çeviri gerçekleştirirken özel adları, deyimleri ve kültürel referansları doğru biçimde aktarabilir.

Mevzuat ve bilgi sistemlerinde kullanılır

Hukuki metinlerin analizinde, mevzuat sorgulamalarında ve kurumsal bilgi bankalarıyla entegre çalışan uygulamalarda etkin şekilde kullanılabilir.

Yapay zekâ asistanlarına temel oluşturur

Sektöre özel çağrı asistanları, danışmanlık sistemleri ve ajan tabanlı uygulamalar için güçlü bir dil altyapısı sunar.

Kavramları ve referansları doğru yorumlar

Türkçenin dilsel inceliklerini, tarihsel arka planını ve kültürel referanslarını dikkate alarak daha isabetli çıktılar üretir; halüsinasyon riskinin azaltılmasına katkı sağlar.

Türkçe Kaynaklar Derlendi

Web içerikleri, kitaplar, gazeteler, resmî belgeler ve alan odaklı veri setlerinden oluşan yaklaşık 1 trilyon Türkçe kelimelik ham veri havuzu oluşturuldu. Veriler, kalite filtreleme ve normalizasyon süreçlerinden geçirilerek eğitime hazır hâle getirildi.

Yüksek Kaliteli Veriler Seçildi

Ham veri havuzundan 250 milyar yüksek kaliteli token belirlendi. Tekrarlayan içerikler ayıklandı; dil kalitesi, tutarlılık ve güvenilirlik kriterlerine göre kapsamlı filtreleme uygulandı.

Sentetik Verilerle Zenginleştirildi

Veri setinin kapsamını ve çeşitliliğini artırmak amacıyla 500 milyar ek sentetik veri üretildi. Özellikle az temsil edilen alanlar, görev türleri ve kullanım senaryoları hedeflenerek veri dengesi güçlendirildi.

Modeller Eğitildi ve Geliştirildi

BİLGE 1B ve BİLGE 9B modelleri sıfırdan (from scratch) eğitildi. BİLGE 27B, güçlü açık kaynak modeller üzerine Türkçe verilerle Sürekli Ön Eğitim (Continued Pre-Training) uygulanarak geliştirildi. BİLGE 122B ise Türkçe akıl yürütme ve muhakeme yeteneklerini güçlendirmeye yönelik ileri düzey eğitim süreçlerinden geçirilmektedir.

İnce Ayar ve Sürekli İyileştirme

Gözetimli İnce Ayar (SFT) ve İnsan Geri Bildirimiyle Pekiştirmeli Öğrenme (RLHF) süreçleri tamamlandı. Modeller, gerçek kullanım senaryolarından elde edilen geri bildirimler doğrultusunda düzenli olarak güncellenmeye ve iyileştirilmeye devam etmektedir.

Kamu Kurumları

Vatandaş hizmetleri, eğitim destek sistemleri, hukuki bilgi erişimi ve idari süreçlerin dijitalleştirilmesi gibi alanlarda kullanılabilir.

Özel Sektör

Müşteri hizmetleri, içerik üretimi, doküman analizi ve sektöre özel iş süreçlerinin otomasyonunda değer sağlayabilir.

Araştırmacılar

Türkçe doğal dil işleme araştırmaları, benchmark çalışmaları ve akademik projeler için güçlü bir araştırma altyapısı sunar.

Yazılım Geliştiriciler

Türkçe dil yeteneklerine sahip uygulamalar geliştirmek, API entegrasyonları gerçekleştirmek ve mevcut ürünlere yerli yapay zekâ kabiliyeti kazandırmak amacıyla kullanılabilir.

Sağlık Ekosistemi

Tıbbi kayıtların işlenmesi, klinik dokümanların analiz edilmesi, karar destek uygulamaları ve hasta iletişimi süreçlerinde destekleyici çözümler geliştirilmesine katkı sağlar.

Finans ve Bankacılık

Müşteri hizmetleri otomasyonu, finansal doküman analizi, raporlama süreçleri ve bilgiye dayalı karar destek mekanizmalarında kullanılabilir.

Neden BİLGE?

Türkçe Düşünme

BİLGE; sadece Türkçe cevap veren değil, ara adımları Türkçe kuran düşünme yapısına sahiptir. Türkçeyi birincil düşünce dili olarak kullanır.

Kültürel Yetkinlik

Türkçenin sondan eklemeli yapısını, anlam katmanlarını ve kültürel bağlamını anlama önceliklidir. Yerel deyimleri ve referansları daha doğru yorumlar. “Varsayılan kültür” yerine Türkiye’yi merkez alır.

Kaynak Verimliliği

BİLGE, Türkçeyi neredeyse yarı maliyetle; daha hızlı, daha verimli ve daha düşük enerji tüketimiyle işler. Kurumlara yerel bağlama uygun, hızlı ve güvenli bir yapay zeka altyapısı sağlanarak kamu süreçlerinde yüksek verimliliği hedefler.

Dijital Egemenlik

Kritik yapay zekâ kabiliyetlerinin yerli kaynaklarla geliştirilmesine katkı sağlar. Ulusal verilerin ülke içinde işlenmesini ve depolanmasını sağlayarak dışa bağımlılığı azaltır.

Teknik Derinlik

BİLGE, genel çeviri kategorisinde öncü modeller arasında birinci sırada yer alırken; kültürel çeviri kategorisinde ise diğer büyük dil modellerine kıyasla yaklaşık %23–%41 daha yüksek performans gösterir.

Yerli Ar-Ge

TÜBİTAK BİLGEM mühendisleri tarafından uçtan uca geliştirildi. Tokenizer’dan eğitim altyapısına kadar tüm bileşenler yerlidir.

3 vs 0

Llama 3’e karşı kelime başına token kullanımı

0

Kültürel çeviri skoru (0–50)

0 Trilyon

Ham Veri

% 0

Yerli geliştirme

Tek bir model değil,

bir aile.

BİLGE ailesi, 1 milyardan 122 milyara uzanan parametre skalasıyla hafif uç cihaz kullanımından yüksek kapasiteli Türkçe düşünme ihtiyaçlarına kadar geniş bir model yelpazesi sunar.

BİLGE

1B

1 Milyar Parametre

Hafif ve hızlı yapısıyla mobil uygulamalar, uç cihazlar ve sınırlı işlem gücüne sahip ortamlar için sıfırdan eğitilmiş temel modeldir.

BİLGE

9B

9 Milyar Parametre

Türkçeye özgü tokenizer altyapısıyla geliştirilen, performans ve kaynak verimliliği arasında denge sağlayan, sıfırdan eğitilmiş orta ölçekli modeldir.

BİLGE

27B

27 Milyar Parametre

Güçlü açık kaynak modeller üzerine Türkçe verilerle Sürekli Ön Eğitim (Continued Pre-Training) uygulanarak geliştirilen, ileri düzey dil anlama ve üretme yeteneklerine sahip yüksek kapasiteli modeldir.

Geliştiriliyor

BİLGE

122B

122 Milyar Parametre

En gelişmiş BİLGE modeli olarak; karmaşık akıl yürütme, çok adımlı problem çözme ve uzmanlık gerektiren görevlerde yüksek performans sunmak üzere eğitilmektedir.

Uygulama Alanları

Türkçe dil kabiliyetine ihtiyaç duyulan her sektörde uyarlanabilir altyapı.

 

Kamu Hizmetleri

Vatandaş hizmetlerinin dijitalleştirilmesi, başvuru süreçlerinin desteklenmesi ve mevzuata dayalı bilgi sistemlerinin geliştirilmesi.

Finans ve Bankacılık

Müşteri iletişimi, finansal doküman analizi ve uyum süreçlerinin desteklenmesi için Türkçe yapay zekâ çözümleri.

Sağlık

Tıbbi kayıt ve klinik not özetleme, hasta iletişimi ve bilgilendirme süreçleri ve sağlık bilgi sistemleriyle entegre çalışan çözümler.

Telekom

Vatandaş hizmetlerinin dijitalleştirilmesi, başvuru süreçlerinin desteklenmesi ve mevzuata dayalı bilgi sistemlerinin geliştirilmesi.

Eğitim

Eğitim içeriklerinin hazırlanması, öğrenme süreçlerinin desteklenmesi ve Türkçe doğal dil işleme (DDİ) araştırmaları.

Bulut ve BT Operasyonları

Operasyonel bilgiye erişimi hızlandırmak, sistem kayıtlarını analiz etmek ve BT ekiplerini destekleyen akıllı çözümler geliştirme.

BİLGE, sektör öncüsü büyük dil modellerini geride bırakıyor.

LLM teknolojilerini sıfırdan eğitebilecek ve optimize edebilecek teknik yetkinliğin ülke içinde geliştirilmesini amaçlayan BİLGE, genel çeviri ve kültürel çeviri kategorilerinde sektör öncüsü büyük dil modellerine kıyasla daha yüksek performans gösterir.

Genel Çeviri

EN→TR ve TR→EN (ölçek 0.86–0.91)

Bilge-sft

0.902

translategemma

0.900

qwen3.5-it

0.896

gemma-3-it

0.895

TR→EN: 0.875 ile lider (rakip 0.874)

Kültürel Çeviri

Özel isim ve kültürel varlıkların doğru çevirisi (0–50 ölçek)

Bilge-sft

44.44

translategemma

36.22

qwen3.5-it

33.67

gemma-3-it

31.56

Kültürel Çeviri Örnekleri

Kaynak (EN): [What architectural style is the Umayyad Mosque known for?]

BİLGE · Doğru

Emevi Camii hangi mimari tarzıyla tanınır?

Sınıfındaki Diğer Modeller · Hatalı

Umayyad Camii hangi mimari tarzıyla bilinir?

Umayyad Camii hangi mimari üslupla tanınır?

Kaynak (EN): [Can rice pudding be served warm or cold?]

BİLGE · Doğru

Sütlaç sıcak mı yoksa soğuk mu servis edilir?

Sınıfındaki Diğer Modeller · Hatalı

Tatlı pirinç sıcak mı yoksa soğuk mu servis edilebilir?

Pirinçli puding sıcak veya soğuk olarak servis edilebilir mi?

Bu bir son değil, başlangıç.

BİLGE'nin vizyonu Türkçe düşünen, dijital egemenliği destekleyen ve global standartlarda yüksek performans sunan milli bir yapay zekâ ekosisteminin yapı taşlarından biri olmaktır.

Geri Bildirimle Olgunlaştırma

Modellerin gerçek kullanım verileri ve uzman geri bildirimleriyle sürekli iyileştirilerek yaşayan bir yapay zekâ ekosisteminin gelişmesine katkı sunmak.

Dijital Egemenlik ve Altyapı

Kurumlarımız için bağımsız, güvenli ve denetlenebilir bir altyapı sağlanarak veri egemenliğinin korunması ve yerli modellerin yaygınlaştırılması.

Daha Kapsamlı Modeller

Global standartların ilerisinde yeteneklere sahip, yüksek parametreli milli modellerin yerel kaynaklarla geliştirilmesi.

Dijital Egemenlik

Türkçenin kültürel zenginliğini ve mantıksal yapısını kusursuz anlayan, ileri düzey muhakeme yeteneğine sahip modellerin kullanıma sunulması.

Bize

Ulaşın

BİLGE hakkında bilgi almak, iş birliği görüşmeleri başlatmak veya pilot projelerde yer almak için resmî kanallarımızdan iletişime geçin.

BİLGE Yapay Zeka
BİLGE Yapay Zeka