Қайси сунъий интеллект модели ўзбек тилини яхшироқ тушунади?
Бенчмарк тести натижаларига кўра, Claude 3.5 Sonnet, Gemini 2.0 Pro Experimental ва GPT-4o ўзбек тилини тушуниш бўйича энг юқори натижаларга эришди.
Уларнинг аниқлиги викторинани ечган одамларнинг ўртача кўрсаткичидан ҳам юқорироқ бўлган.

Tahrirchi.uz томонидан машҳур сунъий интеллект моделларининг ўзбек тилини қанчалик яхши тушуниши ўрганиб чиқилди. Бу мақсадда лойиҳа доирасида ўзбек тилидаги биринчи кенг қамровли Бенчмарк – UzLiB (Uzbek Linguistic Benchmark) яратилди.
Бенчмаркни яратишда турли Telegram каналлардаги ўзбек тили грамматикаси, луғати ва тўғри қўлланилишига оид билимни синовчи викториналардан фойдаланилган.
Натижалар қандай бўлди?

Тадқиқот натижаларига кўра, тижорий моделлар энг юқори аниқликка эга бўлди. Claude 3.5 Sonnet (63.62%), Gemini 2.0 Pro Experimental (63.03%) ва GPT-4о (62.87%) ушбу синовда етакчилик қилган. Уларнинг натижалари нафақат сунъий интеллектлар орасида энг юқори бўлди, балки Telegram викториналарида қатнашган инсонларнинг ўртача аниқлик кўрсаткичидан (тахминан 59%) ҳам ўзиб кетди.
Шунга қарамай, ҳатто энг илғор моделлар ҳам тест саволларининг қарийб 40% га нотўғри жавоб берган. Бу сунъий интеллект моделларининг ўзбек тилини тушуниши ҳали мукаммалликдан йироқлигини ва янада чуқур тадқиқотлар ва такомиллаштириш ишларини талаб қилишини англатади.

Ёпиқ кодли моделлар умумий ҳисобда яхшироқ натижа қайд этган бўлса-да, баъзи очиқ кодли моделлар ҳам эътиборга молик натижаларга эришди. Масалан, Llama 3.1 405B (55.13%) ва DeepSeek-V3 (52.98%) Бенчмаркда анча яхши ишлади.
Баъзи моделлар эса сезиларли даражада паст натижа қайд этган. Жумладан, Mistral 7B (33.48%), Llama 3.1 8B Uz (31.76%) каби моделлар ўзбек тилидаги тест саволларини таҳлил қилишда қийинчиликларга дуч келди.