BİLGE
Dilimizle gelişen, verimizle güçlenen
Türkiye’nin Büyük Dil Modeli.
BİLGE Hakkında
Bilge Nedir ?
Türkiye'nin Yerli ve Millî Büyük Dil Modeli
BİLGE; TÜBİTAK BİLGEM tarafından geliştirilen, Türkçenin kendine özgü yapısını ve kültürel birikimimizi temel alan büyük dil modeli ailesidir. Türkçenin dil yapısını, anlam katmanlarını ve kültürel bağlamını anlamaya odaklanır. “Varsayılan kültür” yerine Türkiye’yi merkeze alır.
Türkiye’nin yapay zekâ alanındaki bilgi birikimi ve mühendislik kabiliyetinin bir ürünüdür. 1 milyardan 122 milyar parametreye uzanan model ailesiyle her ölçeğe hitap eder.
Türkçe için geliştirilen yerli dil modeli ailesi
Türkçeyi yalnızca anlamakla kalmaz, üzerine akıl yürütür. Böylece Türkçeyi başka bir dilden çeviriyormuş gibi değil; doğal, akıcı ve yerinde bir şekilde kullanır.
Kültürel bağlamı kavrama
Türkçenin sondan eklemeli yapısı ve kültürel referanslarını doğru yorumlar.
Verimli kaynak kullanımı
Türkçe için optimize edilmiş yapısı, mevcut donanım yatırımlarından daha yüksek verim alınmasını destekler. İşletme maliyetlerini azaltır.
Dijital egemenliğe katkı
Ulusal verilerin ülke içinde işlenmesini ve depolanmasını sağlayarak dışa bağımlılığı azaltır ve veri güvenliğimizi sağlar.
Ne Yapar ?
Türkçe içerik üretir
Doğal ve akıcı bir Türkçeyle raporlar, yazışmalar, içerik taslakları ve özgün metinler oluşturabilir.
Soruları yanıtlar, özetleme yapar
Uzun metinleri ve belgeleri ana fikirlerini koruyarak özetleyebilir; içeriklere ilişkin sorulara bağlama uygun yanıtlar üretebilir.
Çeviri yapar
Türkçe ve İngilizce arasında çeviri gerçekleştirirken özel adları, deyimleri ve kültürel referansları doğru biçimde aktarabilir.
Mevzuat ve bilgi sistemlerinde kullanılır
Hukuki metinlerin analizinde, mevzuat sorgulamalarında ve kurumsal bilgi bankalarıyla entegre çalışan uygulamalarda etkin şekilde kullanılabilir.
Yapay zekâ asistanlarına temel oluşturur
Sektöre özel çağrı asistanları, danışmanlık sistemleri ve ajan tabanlı uygulamalar için güçlü bir dil altyapısı sunar.
Kavramları ve referansları doğru yorumlar
Türkçenin dilsel inceliklerini, tarihsel arka planını ve kültürel referanslarını dikkate alarak daha isabetli çıktılar üretir; halüsinasyon riskinin azaltılmasına katkı sağlar.
Nasıl Çalışır ?
Türkçe Kaynaklar Derlendi
Web içerikleri, kitaplar, gazeteler, resmî belgeler ve alan odaklı veri setlerinden oluşan yaklaşık 1 trilyon Türkçe kelimelik ham veri havuzu oluşturuldu. Veriler, kalite filtreleme ve normalizasyon süreçlerinden geçirilerek eğitime hazır hâle getirildi.
Yüksek Kaliteli Veriler Seçildi
Ham veri havuzundan 250 milyar yüksek kaliteli token belirlendi. Tekrarlayan içerikler ayıklandı; dil kalitesi, tutarlılık ve güvenilirlik kriterlerine göre kapsamlı filtreleme uygulandı.
Sentetik Verilerle Zenginleştirildi
Veri setinin kapsamını ve çeşitliliğini artırmak amacıyla 500 milyar ek sentetik veri üretildi. Özellikle az temsil edilen alanlar, görev türleri ve kullanım senaryoları hedeflenerek veri dengesi güçlendirildi.
Modeller Eğitildi ve Geliştirildi
BİLGE 1B ve BİLGE 9B modelleri sıfırdan (from scratch) eğitildi. BİLGE 27B, güçlü açık kaynak modeller üzerine Türkçe verilerle Sürekli Ön Eğitim (Continued Pre-Training) uygulanarak geliştirildi. BİLGE 122B ise Türkçe akıl yürütme ve muhakeme yeteneklerini güçlendirmeye yönelik ileri düzey eğitim süreçlerinden geçirilmektedir.
İnce Ayar ve Sürekli İyileştirme
Gözetimli İnce Ayar (SFT) ve İnsan Geri Bildirimiyle Pekiştirmeli Öğrenme (RLHF) süreçleri tamamlandı. Modeller, gerçek kullanım senaryolarından elde edilen geri bildirimler doğrultusunda düzenli olarak güncellenmeye ve iyileştirilmeye devam etmektedir.
Kim Kullanabilir ?
Kamu Kurumları
Vatandaş hizmetleri, eğitim destek sistemleri, hukuki bilgi erişimi ve idari süreçlerin dijitalleştirilmesi gibi alanlarda kullanılabilir.
Özel Sektör
Müşteri hizmetleri, içerik üretimi, doküman analizi ve sektöre özel iş süreçlerinin otomasyonunda değer sağlayabilir.
Araştırmacılar
Türkçe doğal dil işleme araştırmaları, benchmark çalışmaları ve akademik projeler için güçlü bir araştırma altyapısı sunar.
Yazılım Geliştiriciler
Türkçe dil yeteneklerine sahip uygulamalar geliştirmek, API entegrasyonları gerçekleştirmek ve mevcut ürünlere yerli yapay zekâ kabiliyeti kazandırmak amacıyla kullanılabilir.
Sağlık Ekosistemi
Tıbbi kayıtların işlenmesi, klinik dokümanların analiz edilmesi, karar destek uygulamaları ve hasta iletişimi süreçlerinde destekleyici çözümler geliştirilmesine katkı sağlar.
Finans ve Bankacılık
Müşteri hizmetleri otomasyonu, finansal doküman analizi, raporlama süreçleri ve bilgiye dayalı karar destek mekanizmalarında kullanılabilir.
Türkiye'nin Yerli ve Millî Büyük Dil Modeli
BİLGE; TÜBİTAK BİLGEM tarafından geliştirilen, Türkçenin kendine özgü yapısını ve kültürel birikimimizi temel alan büyük dil modeli ailesidir. Türkçenin dil yapısını, anlam katmanlarını ve kültürel bağlamını anlamaya odaklanır. “Varsayılan kültür” yerine Türkiye’yi merkeze alır.
Türkiye’nin yapay zekâ alanındaki bilgi birikimi ve mühendislik kabiliyetinin bir ürünüdür. 1 milyardan 122 milyar parametreye uzanan model ailesiyle her ölçeğe hitap eder.
Türkçe için geliştirilen yerli dil modeli ailesi
Türkçeyi yalnızca anlamakla kalmaz, üzerine akıl yürütür. Böylece Türkçeyi başka bir dilden çeviriyormuş gibi değil; doğal, akıcı ve yerinde bir şekilde kullanır.
Kültürel bağlamı kavrama
Türkçenin sondan eklemeli yapısı ve kültürel referanslarını doğru yorumlar.
Verimli kaynak kullanımı
Türkçe için optimize edilmiş yapısı, mevcut donanım yatırımlarından daha yüksek verim alınmasını destekler. İşletme maliyetlerini azaltır.
Dijital egemenliğe katkı
Ulusal verilerin ülke içinde işlenmesini ve depolanmasını sağlayarak dışa bağımlılığı azaltır ve veri güvenliğimizi sağlar.
Türkçe içerik üretir
Doğal ve akıcı bir Türkçeyle raporlar, yazışmalar, içerik taslakları ve özgün metinler oluşturabilir.
Soruları yanıtlar, özetleme yapar
Uzun metinleri ve belgeleri ana fikirlerini koruyarak özetleyebilir; içeriklere ilişkin sorulara bağlama uygun yanıtlar üretebilir.
Çeviri yapar
Türkçe ve İngilizce arasında çeviri gerçekleştirirken özel adları, deyimleri ve kültürel referansları doğru biçimde aktarabilir.
Mevzuat ve bilgi sistemlerinde kullanılır
Hukuki metinlerin analizinde, mevzuat sorgulamalarında ve kurumsal bilgi bankalarıyla entegre çalışan uygulamalarda etkin şekilde kullanılabilir.
Yapay zekâ asistanlarına temel oluşturur
Sektöre özel çağrı asistanları, danışmanlık sistemleri ve ajan tabanlı uygulamalar için güçlü bir dil altyapısı sunar.
Kavramları ve referansları doğru yorumlar
Türkçenin dilsel inceliklerini, tarihsel arka planını ve kültürel referanslarını dikkate alarak daha isabetli çıktılar üretir; halüsinasyon riskinin azaltılmasına katkı sağlar.
Türkçe Kaynaklar Derlendi
Web içerikleri, kitaplar, gazeteler, resmî belgeler ve alan odaklı veri setlerinden oluşan yaklaşık 1 trilyon Türkçe kelimelik ham veri havuzu oluşturuldu. Veriler, kalite filtreleme ve normalizasyon süreçlerinden geçirilerek eğitime hazır hâle getirildi.
Yüksek Kaliteli Veriler Seçildi
Ham veri havuzundan 250 milyar yüksek kaliteli token belirlendi. Tekrarlayan içerikler ayıklandı; dil kalitesi, tutarlılık ve güvenilirlik kriterlerine göre kapsamlı filtreleme uygulandı.
Sentetik Verilerle Zenginleştirildi
Veri setinin kapsamını ve çeşitliliğini artırmak amacıyla 500 milyar ek sentetik veri üretildi. Özellikle az temsil edilen alanlar, görev türleri ve kullanım senaryoları hedeflenerek veri dengesi güçlendirildi.
Modeller Eğitildi ve Geliştirildi
BİLGE 1B ve BİLGE 9B modelleri sıfırdan (from scratch) eğitildi. BİLGE 27B, güçlü açık kaynak modeller üzerine Türkçe verilerle Sürekli Ön Eğitim (Continued Pre-Training) uygulanarak geliştirildi. BİLGE 122B ise Türkçe akıl yürütme ve muhakeme yeteneklerini güçlendirmeye yönelik ileri düzey eğitim süreçlerinden geçirilmektedir.
İnce Ayar ve Sürekli İyileştirme
Gözetimli İnce Ayar (SFT) ve İnsan Geri Bildirimiyle Pekiştirmeli Öğrenme (RLHF) süreçleri tamamlandı. Modeller, gerçek kullanım senaryolarından elde edilen geri bildirimler doğrultusunda düzenli olarak güncellenmeye ve iyileştirilmeye devam etmektedir.
Kamu Kurumları
Vatandaş hizmetleri, eğitim destek sistemleri, hukuki bilgi erişimi ve idari süreçlerin dijitalleştirilmesi gibi alanlarda kullanılabilir.
Özel Sektör
Müşteri hizmetleri, içerik üretimi, doküman analizi ve sektöre özel iş süreçlerinin otomasyonunda değer sağlayabilir.
Araştırmacılar
Türkçe doğal dil işleme araştırmaları, benchmark çalışmaları ve akademik projeler için güçlü bir araştırma altyapısı sunar.
Yazılım Geliştiriciler
Türkçe dil yeteneklerine sahip uygulamalar geliştirmek, API entegrasyonları gerçekleştirmek ve mevcut ürünlere yerli yapay zekâ kabiliyeti kazandırmak amacıyla kullanılabilir.
Sağlık Ekosistemi
Tıbbi kayıtların işlenmesi, klinik dokümanların analiz edilmesi, karar destek uygulamaları ve hasta iletişimi süreçlerinde destekleyici çözümler geliştirilmesine katkı sağlar.
Finans ve Bankacılık
Müşteri hizmetleri otomasyonu, finansal doküman analizi, raporlama süreçleri ve bilgiye dayalı karar destek mekanizmalarında kullanılabilir.
Neden BİLGE?
Türkçe Düşünme
BİLGE; sadece Türkçe cevap veren değil, ara adımları Türkçe kuran düşünme yapısına sahiptir. Türkçeyi birincil düşünce dili olarak kullanır.
Kültürel Yetkinlik
Türkçenin sondan eklemeli yapısını, anlam katmanlarını ve kültürel bağlamını anlama önceliklidir. Yerel deyimleri ve referansları daha doğru yorumlar. “Varsayılan kültür” yerine Türkiye’yi merkez alır.
Kaynak Verimliliği
BİLGE, Türkçeyi neredeyse yarı maliyetle; daha hızlı, daha verimli ve daha düşük enerji tüketimiyle işler. Kurumlara yerel bağlama uygun, hızlı ve güvenli bir yapay zeka altyapısı sağlanarak kamu süreçlerinde yüksek verimliliği hedefler.
Dijital Egemenlik
Kritik yapay zekâ kabiliyetlerinin yerli kaynaklarla geliştirilmesine katkı sağlar. Ulusal verilerin ülke içinde işlenmesini ve depolanmasını sağlayarak dışa bağımlılığı azaltır.
Teknik Derinlik
BİLGE, genel çeviri kategorisinde öncü modeller arasında birinci sırada yer alırken; kültürel çeviri kategorisinde ise diğer büyük dil modellerine kıyasla yaklaşık %23–%41 daha yüksek performans gösterir.
Yerli Ar-Ge
TÜBİTAK BİLGEM mühendisleri tarafından uçtan uca geliştirildi. Tokenizer’dan eğitim altyapısına kadar tüm bileşenler yerlidir.
Llama 3’e karşı kelime başına token kullanımı
Kültürel çeviri skoru (0–50)
Ham Veri
Yerli geliştirme
Tek bir model değil,
bir aile.
BİLGE ailesi, 1 milyardan 122 milyara uzanan parametre skalasıyla hafif uç cihaz kullanımından yüksek kapasiteli Türkçe düşünme ihtiyaçlarına kadar geniş bir model yelpazesi sunar.
BİLGE
1B
1 Milyar Parametre
Hafif ve hızlı yapısıyla mobil uygulamalar, uç cihazlar ve sınırlı işlem gücüne sahip ortamlar için sıfırdan eğitilmiş temel modeldir.
BİLGE
9B
9 Milyar Parametre
Türkçeye özgü tokenizer altyapısıyla geliştirilen, performans ve kaynak verimliliği arasında denge sağlayan, sıfırdan eğitilmiş orta ölçekli modeldir.
BİLGE
27B
27 Milyar Parametre
Güçlü açık kaynak modeller üzerine Türkçe verilerle Sürekli Ön Eğitim (Continued Pre-Training) uygulanarak geliştirilen, ileri düzey dil anlama ve üretme yeteneklerine sahip yüksek kapasiteli modeldir.
Geliştiriliyor
BİLGE
122B
122 Milyar Parametre
En gelişmiş BİLGE modeli olarak; karmaşık akıl yürütme, çok adımlı problem çözme ve uzmanlık gerektiren görevlerde yüksek performans sunmak üzere eğitilmektedir.
Uygulama Alanları
Türkçe dil kabiliyetine ihtiyaç duyulan her sektörde uyarlanabilir altyapı.
Kamu Hizmetleri
Vatandaş hizmetlerinin dijitalleştirilmesi, başvuru süreçlerinin desteklenmesi ve mevzuata dayalı bilgi sistemlerinin geliştirilmesi.
- Sınav Değerlendirme
- Hukuki Danışmanlık
- Vatandaş İşlemleri
Finans ve Bankacılık
Müşteri iletişimi, finansal doküman analizi ve uyum süreçlerinin desteklenmesi için Türkçe yapay zekâ çözümleri.
- Müşteri Asistanı
- Rapor Analizi
- Uyum Denetim
Sağlık
Tıbbi kayıt ve klinik not özetleme, hasta iletişimi ve bilgilendirme süreçleri ve sağlık bilgi sistemleriyle entegre çalışan çözümler.
- Klinik Özet
- Karar Destek
- Hasta İletişimi
Telekom
Vatandaş hizmetlerinin dijitalleştirilmesi, başvuru süreçlerinin desteklenmesi ve mevzuata dayalı bilgi sistemlerinin geliştirilmesi.
- Çağrı Asistanı
- Self-Servis
- Ajan Platformu
Eğitim
Eğitim içeriklerinin hazırlanması, öğrenme süreçlerinin desteklenmesi ve Türkçe doğal dil işleme (DDİ) araştırmaları.
- İçerik Üretimi
- Değerlendirme
- DDİ Araştırma
Bulut ve BT Operasyonları
Operasyonel bilgiye erişimi hızlandırmak, sistem kayıtlarını analiz etmek ve BT ekiplerini destekleyen akıllı çözümler geliştirme.
- Altyapı Yönetimi
- Log Analizi
- BT Otomasyon
BİLGE, sektör öncüsü büyük dil modellerini geride bırakıyor.
LLM teknolojilerini sıfırdan eğitebilecek ve optimize edebilecek teknik yetkinliğin ülke içinde geliştirilmesini amaçlayan BİLGE, genel çeviri ve kültürel çeviri kategorilerinde sektör öncüsü büyük dil modellerine kıyasla daha yüksek performans gösterir.
Genel Çeviri
EN→TR ve TR→EN (ölçek 0.86–0.91)
0.902
0.900
0.896
0.895
TR→EN: 0.875 ile lider (rakip 0.874)
Kültürel Çeviri
Özel isim ve kültürel varlıkların doğru çevirisi (0–50 ölçek)
44.44
36.22
33.67
31.56
Kültürel Çeviri Örnekleri
Kaynak (EN): [What architectural style is the Umayyad Mosque known for?]
BİLGE · Doğru
Emevi Camii hangi mimari tarzıyla tanınır?
Sınıfındaki Diğer Modeller · Hatalı
Umayyad Camii hangi mimari tarzıyla bilinir?
Umayyad Camii hangi mimari üslupla tanınır?
Kaynak (EN): [Can rice pudding be served warm or cold?]
BİLGE · Doğru
Sütlaç sıcak mı yoksa soğuk mu servis edilir?
Sınıfındaki Diğer Modeller · Hatalı
Tatlı pirinç sıcak mı yoksa soğuk mu servis edilebilir?
Pirinçli puding sıcak veya soğuk olarak servis edilebilir mi?
Bu bir son değil, başlangıç.
BİLGE'nin vizyonu Türkçe düşünen, dijital egemenliği destekleyen ve global standartlarda yüksek performans sunan milli bir yapay zekâ ekosisteminin yapı taşlarından biri olmaktır.
Geri Bildirimle Olgunlaştırma
Modellerin gerçek kullanım verileri ve uzman geri bildirimleriyle sürekli iyileştirilerek yaşayan bir yapay zekâ ekosisteminin gelişmesine katkı sunmak.
Dijital Egemenlik ve Altyapı
Kurumlarımız için bağımsız, güvenli ve denetlenebilir bir altyapı sağlanarak veri egemenliğinin korunması ve yerli modellerin yaygınlaştırılması.
Daha Kapsamlı Modeller
Global standartların ilerisinde yeteneklere sahip, yüksek parametreli milli modellerin yerel kaynaklarla geliştirilmesi.
Dijital Egemenlik
Türkçenin kültürel zenginliğini ve mantıksal yapısını kusursuz anlayan, ileri düzey muhakeme yeteneğine sahip modellerin kullanıma sunulması.
Bize
Ulaşın
BİLGE hakkında bilgi almak, iş birliği görüşmeleri başlatmak veya pilot projelerde yer almak için resmî kanallarımızdan iletişime geçin.

