Fransız süni intellekt (AI) startapı Mistral, süni intellekt sənayesində əsas pozucu kimi mövqeyini möhkəmləndirdi. Bunun üçün təşəkkür etmək üçün bir modeli var – Pixtral Large. Bu barədə bilmək üçün lazım olan hər şey buradadır.
Pixtral nədir?

Pixtral mürəkkəb multimodal dil modelidir. İndiyə qədər Pixtral ailəsi iki modeldən ibarətdir – Pixtral 12B və Pixtral Large. Pixtral Large praktiki olaraq sələfinin – Pixtral 12B-nin daha güclü versiyası olduğundan, bu təlimat ilk növbədə onun imkanlarına diqqət yetirəcəkdir.
Bu 124B parametrli Pixtral modeli iki hissədən ibarətdir – mətn dekoderi və görmə dekoderi. Birincisi yazı dilini başa düşməyə diqqət yetirir. Sonuncu modelin şəkilləri başa düşməsinə kömək edir. Bu kombinasiya Pixtral Large-a eyni zamanda həm mətn, həm də şəkillərlə işləmək üçün unikal imkan verir ki, bu da ona “çox modal” model kimi yaltaq adı qazandırır.
Pixtral Large böyük həcmdə məlumatı idarə edə bilir – 30-a qədər yüksək rezolyusiyaya malik təsvir və ya bir gedişdə 300 səhifəlik kitabın ekvivalenti. Bu, onu OpenAI-dən olanlar kimi digər aparıcı AI modellərinə güc baxımından bənzədir.
Pixtral Large-ın Əsas Xüsusiyyətləri Nələrdir?
Bu Pixtral modelinin bəzi əsas xüsusiyyətləri onun təsvirindən aydın görünür. Yenə də gəlin bu xüsusiyyətləri parçalayaq və bir az daha dərin qazaq.
Mürəkkəb tapşırıqlar üçün geniş kontekst pəncərəsi
Kontekst pəncərəsi modelin bir anda “yadda saxlaya biləcəyi” və ya işləyə biləcəyi mətnin miqdarına aiddir. Bu baxımdan Pixtral Large öz adına sadiq qalır. 128.000 tokendən ibarət böyük bir kontekst pəncərəsinə malikdir. Bu o deməkdir ki, o, böyük məlumat hissələrini daha kiçik hissələrə bölmədən emal edə bilər.
Qətnamələr üzrə Çevik Görmə Emalı
Qeyd edildiyi kimi, Pixtral Large görmə kodlayıcısı ilə təchiz edilmişdir. Yaxşı, bu kodlayıcı müxtəlif qətnamələrdə şəkilləri emal edə bilər. Bu çeviklik modelin müxtəlif növ tapşırıqlara uyğunlaşmasına imkan verir. Sürətli təsvirin işlənməsi və ya yüksək dəqiqlikli analiz… bu Pixtral modeli ilə eynidir.
MM-MT-Bench ilə Standart Performans
Mistral MM-MT-Bench adlı açıq mənbəli etalon hazırladı. Bu alətin məqsədi Pixtral Large kimi multimodal modellər üçün ardıcıl qiymətləndirmə standartlarını təmin etməkdir. Nəticədə, tədqiqatçılar Pixtral Large-ın digər modellərlə müqayisədə nə qədər yaxşı performans göstərdiyini qiymətləndirə bilərlər.
Qabaqcıl Multi-Modal Mülahizə
Pixtral Large həm mətni, həm də şəkli birləşdirən verilənlər bazası üzərində təlim keçib. Təlim edilmiş – və incə tənzimlənmiş. Bu, ona hər iki məlumat növünü eyni vaxtda əhatə edən mürəkkəb təlimatları yerinə yetirməyə imkan verir. Məsələn, müştəri dəstəyi chatbotu eyni anda həm zədələnmiş məhsulun şəklini, həm də müştərinin problemi izah edən mesajını təhlil edə bilər. Pixtral Large ona problemi hərtərəfli anlamağa və çoxsaylı mübadilələrdə konteksti saxlamağa imkan verəcək. Sonda dəqiq bir həllin təmin edilməsini də qeyd etmək olmaz.
Tətbiqlər Arasında Ölçeklenebilirlik
Pixtral Large ilə siz faktiki olaraq istənilən vəzifənin öhdəsindən gələ bilərsiniz. Müqaviləni təhlil etmək kimi kiçik və konkret bir şey edə bilərsiniz. Və ya Pixtral Large sizə e-ticarət üçün multimodal axtarış motoru yaratmağa kömək edə bilər. Sadəcə çox yönlüdür. Bu çox yönlülük bu Pixtral modelini geniş sənaye və istifadə halları üçün ideal edir. Ümumi real dünya nümunələrinə aşağıdakılar daxildir:
- Hüquq və maliyyə sənayesində sənədlərin təhlili və idarə edilməsi
- Tədqiqat və məlumat elmində məlumatların vizuallaşdırılması və təhlili
- Elektron ticarət və texnologiyada müştəri dəstəyi
Pixtral Large əsas multi-modal rəqiblərlə necə müqayisə olunur?
Mistral süni intellekt sahəsində nisbətən yeni oyunçu ola bilər. Bununla belə, o, artıq AI nəhəngləri ilə rəqabət apara bilər. Təkcə bu deyil, həm də onlardan üstün ola bilər.
Pixtral Large bu tendensiyanı davam etdirir. Bu Pixtral modeli ən yaxşı multimodal modellərə qarşı etalon testlərdə üstün olmuşdur. Burada yalnız bir neçə məqam var.

- Vizual məlumatlarla riyazi əsaslandırmada Claude-3.5, Sonnet və Llama-3.2-dən üstün oldu
- Diaqramlar, cədvəllər və skan edilmiş sənədlərlə başa düşmək və əsaslandırmaq baxımından GPT-4o və Gemini-1.5 Pro-dan üstün oldu
- Mətn və şəkil ilə real dünya multimodal tətbiqlərində Claude-3.5, Sonnet, Gemini-1.5 Pro və GPT-4o-dan üstün oldu