събота, 27 април 2024   RSS
    Барометър | Региони | Компании | Лица | Назначения


    15994 прочитания

    Да правя наука на световно ниво: Антон Александров, който накара AI да „говори“ български

    Един от главните разработчици на BgGPT и докторант в INSAIT разказва пред Economy.bg за възможностите на българския изкуствен интелект и как бизнесът може да го ползва
    27 март 2024, 11:06 a+ a- a

    На 3 март институтът INSAIT обяви стартирането на чат приложението на BgGPT. Първият езиков модел на български език вече може да се ползва от всеки безплатно. Според организацията технологията вече се внедрява от бизнеса, като отзивите са, че тя може да се настрои от компаниите за специфични нужди в рамките на няколко часа и с минимален изчислителен и финансов ресурс. След такава стъпка (т. нар. fine-tuning) BgGPT работи на сходно ниво с най-мощните модели като GPT-4 за специфичната задача, въпреки че е стотици пъти по икономичен като хардуерни нужди. Тази функционалност позволява на българските компании и институции да внедряват изкуствен интелект почти безплатно в сравнение с огромните разходите, нужни за настройка и използване на затворени модели (напр. като тези на OpenAI). Друго предимство е, че BgGPT може да се използва изцяло в рамките на дадена организация, като по този начин поверителните данни не се споделят с трети страни.

    Как се създава изкуствен интелект на български, колко голям екип работи по него, кои са най-големите предизвикателства, какви данни се използват, какви са предимствата му спрямо световните модели, кой и как може да го използва, какви са ползите за бизнеса, може ли BgGPT да пише код, докога моделът ще е безплатен и какви са плановете за развитието му, кога AI ще спре да халюцинира, колко близо или далеч сме от появата на общ изкуствен интелект, ще бъде ли монополизиран AI и какви рискове крие това, защо човек избира INSAIT пред Швейцария – тези и други въпроси коментирахме с Антон Александров, докторант в INSAIT и един от главните разработчици на BgGPT.

    Стартирахте BgGPT на 3 март? Откъде тръгна идеята за създаването му?
    Идеята дойде още докато бях магистър в ETH Zurich. Работех в групата на професор Це Джанг, който тъкмо беше започнал да се занимава с големите езикови модели и по-конкретно със събирането и обработката на данните за тренирането на тези модели. Тогава се замислихме дали е възможно това да стане на български, или на други езици. Започнах да проучвам малко по малко. Тук, в INSAIT, продължихме. Събрахме се да го изпълним, защото се изискват значително количество компютърни и човешки ресурси, за да се получи.

    Защо е важно изкуственият интелект да „говори и разбира“ български?
    Интересното при езиковите модели е, че те не хващат особеностите на езика, освен ако не са видели такъв текст на конкретния език. Тоест дори да имаме един перфектен преводач, няма да можем да предадем всички особености на начина, по който българите говорят и пишат – граматиката и думите, използвани в различни контексти.

    Вие постигате ли това с BgGPT?
    Постигаме го до възможно най-висока степен с ресурсите, с които разполагаме, тъй като количеството текст на български със свободен достъп е значително по-малко от съществуващото на английски, като говорим за разлика от над 50 пъти. Но колкото повече го използваме, толкова по-добре ще става на български. Ще има подобрения в тази насока с времето с използването на нови техники.

    Какви са предимствата на BgGPT спрямо световните модели?
    Бих ги обобщил с един пример. Ако питате безплатната версия на ChatGPT кои са петимата най-известни български спортисти, може би ще ви каже Христо Стоичков, Стефка Костадинова и после ще си измисли три други български имена или ще ви даде някои не чак толкова известни български спортисти. Докато нашият модел, който е обучен на български език и с български данни, ще се справи по-добре с конкретното знание, но и ще може да отговори по-добре като граматика и пунктуация.

    Какви данни ползвахте за обучението на Вашия модел? Към коя година са актуални те?
    Това, което принципно правят хората, за да обучават езикови модели, е да събират данни от интернет със свободен достъп. Същото може да се направи и на български. После те минават през изключителна обработка. Други свободни източници, като например Уикипедия, са много по-добре синтезирани и с по-добро качество. Има и компании, предоставили свободно свои данни онлайн.
    Иначе последните данни, които са влезли в модела, са след средата на 2023, тъй като тогава започнахме процеса по събирането на тази база. Ще трябват обновления през известно време, за да може да имаме най-актуалните данни. Други техники за получаването им биха били моделът да използва интернет или различна база, което обаче е нова инженерна задача.

    Работите ли в тази насока?
    Да, работим и в тази насока. В следващите месеци ще имаме още новини за това. Фокусирани сме и върху подобрение на модела.

    Колко голям екип работи по създаването на BgGPT? Имаше ли нужда моделът да бъде допълнително обучаван от хора?
    Трудно ми е да кажа колко голям екип работи, но доста хора от INSAIT и извън него бяха ангажирани.

    Освен набавянето на данни какви бяха другите предизвикателства по създаването на модела?
    Това със сигурност е най-голямото предизвикателство. Друго е, че вече съществуващите модели, тренирани главно на английски език, не успяват добре да разделят думите на български или на езици с други азбуки, тъй като са виждали повече английски думи и са по-ефикасни в това да произвеждат английски думи, но са много по-бавни в българските. Например за думата answer на английски моделът ще произведе цяла дума заедно, докато на български същият модел може да раздели думата „отговор“ на „от“, „го“ и „вор“, което ще го направи три пъти по-бавно, отколкото на английски.

    За кого BgGPT би бил най-полезен?
    За момента индустрията, която се занимава с обработка на голямо количество текст на български, би имала най-голяма полза от модела, тъй като фирмите могат локално да го използват на сравнително евтини машини.

    Как бизнесът може да го използва?
    Да речем, че имате голяма компания и тя трябва да произведе текст по някакъв шаблон или да класифицира някакъв текст като токсичен или добър коментар. Може с няколко примера, които те са събрали, вътрешно да дообучат модела и да автоматизират тази задача.

    Вашият модел може ли да пише код и да се ползва от програмисти?
    Може, да, въпреки че това не му е основната задача. Ако му дадете инструкция на български, може да напише код на английски, тъй като всичкият код е на английски.

    Имате ли конкретни запитвания от бизнеса?
    Да, има доста за конкретни инженерни решения, свързани с BgGPT. Всяка компания има нужда от нещо конкретно. Ние можем да даваме насоки в това как да се справят. Но ще е добре компаниите да могат да си го интегрират вътрешно и да работят със собствените си данни, които може и да не е добре да се споделят.

    Как AI може да бъде интегриран най-добре в образованието?
    Да си представим, че сте ученик, който има за задача да анализира някакво художествено произведение. Лесно можете да поставите това произведение в чата и да го помолите за литературен анализ или да извлече всички използвани похвати. Моделът ще го направи с някаква точност. Ще има и грешки, но ученикът може да ползва това като основа на интерпретативно съчинение. Може да не е само в литературата, а и в географията. Може да се зададе някакъв въпрос по история и да получите доста смислен текст, откъдето да си извлечете изводи.

    Колко дълго време ще е безплатен моделът?
    Засега сме го планирали до края на годината. Има конкретна цена да се поддържа моделът, за да може да се използва. Така че, доколкото можем, ще го поддържаме така. Ще обявим промените по-нататък с новите модели, които ще излизат.

    Какви са първоначалните отзиви?
    Бих казал, че са главно позитивни, но естествено, като с всяко нещо има хора, които не са доволни от конкретни аспекти. Някои от тях са абсолютно разбираеми и работим, за да ги подобрим.

    Как планирате да развивате BgGPT?
    Има много техники, които научната общност развива, свързани с езиковите модели. В конференциите се публикуват доста статии. Някои от тях са много полезни и ще се опитаме да ги имплементираме или доразвиваме за българския език. Примерно по-голям модел, използващ конкретна архитектура, която е по-добра от предишните. Или пък някакъв нов метод, така че един модел да може да борави по-добре с инструменти, като например калкулатор, интернет или други приложения, които може да имате на компютъра или в браузъра. Тези неща са изключително трудни за усъвършенстване.

    Кога AI ще спре да халюцинира?
    Това мисля, че е изключително дълбок философски въпрос, който е валиден и за хората. Защото изкуственият интелект халюцинира, но и ние донякъде халюцинираме или даваме грешни отговори. Естествено, това може да се подобрява, но дали на 100%, не се знае.

    Колко близо сме до появата на общ изкуствен интелект?
    По мое мнение сме изключително далеч. Въпреки че понякога AI може да излъже човек, че има евентуално някаква форма на съзнание, това е просто проекция на данните и нищо повече. Моделите и машинното обучение като цяло се стремят да дадат статистическа представа за данните. По същия начин е и с текста – това, което прави моделът, всъщност е да предскаже коя е следващата най-вероятна дума, като го прави с всяка следваща дума, но не е нищо повече от математика. А един общ изкуствен интелект предполага нещо по-сложно или нещо, за което още не знаем.

    Т.е. сме много далеч от това.
    Да, със сигурност десетки години напред, дори повече, ако въобще приемем, че това е нещо постижимо от човешката раса.

    Циментира ли изкуственият интелект доминацията на технологичните гиганти? Ще бъде ли монополизиран AI и какви опасности крие това?
    Много добър въпрос, защото за мен това е един от най-големите проблеми в момента, свързани с изкуствения интелект и технологиите. Много от компаниите като OpenAI и Microsoft държат технологията зад закрити врати и монополизират този ресурс, който ще става все по-важен за развитието на обществото. Доста хора се борят с тези компании, като се опитват публично да обявяват своите научни постижения или да публикуват технологии, код, данни и т. н., както в момента и INSAIT се старае.

    Какви рискове крие това?
    Основният риск е, че така компаниите могат да диктуват какво се случва в обществото и в индустрията. Разпространението на информация би било съсредоточено главно в тези компании. Също така очевидно би било по-скъпо, както на всеки един пазар, който е монополизиран.

    Бихте ли останали в България, ако го имаше INSAIT, когато заминавахте за чужбина?
    Бях пред голяма дилема дали да оставам или не, защото научната кариера в Швейцария, където правих магистратура, беше доста по-перспективна. Можех да остана там и да бъда докторант. Но с появата на INSAIT имах възможност да получа най-доброто и от двата свята – хем да съм в родната си страна, хем да правя наука на световно ниво.

    Вижте още по темата AI in BG:
    Проф. Милена Георгиева: Персонализираните решения са ключът към неостаряването

    Вижте как работи българската платформа BannerGate, която иска да промени бизнeса с банери в световен мащаб

    Нагоре
    Отпечатай
     
    * Въведеният имейл се използва само за целите на абонамента, имате възможност да прекратите абонамента по всяко време.

    преди 21 часа
    ОИСР: 15-годишните у нас с по-ниски очаквания за завършване на висше от връстниците си по света
    Социално-емоционалните умения са решаващи за академичния успех, професионалната реализация и качеството на живот на младежите, сочи проучване на ОИСР
    преди 21 часа
    Метрото ще се разшири с 2 станции в "Люлин"
    Прогнозната цена е 147 млн. лева, ще се търси финансиране и от ЕС
    преди 21 часа
    За първи път: Пускат 7 двуетажни влака у нас
    Полска фирма ще достави на България влаковете за над 300 милиона лева
    преди 22 часа
    Българските иновативни училища влизат в мрежата на ОИСР
    Създателят на изследването PISA е у нас, за да представи резултатите от социално-емоционалните умения на учениците по света
    преди 24 часа
    Делойт Централна Европа откри нов хъб в София
    Екипът в София в момента се състои от 50 професионалисти, амбицията е да се увеличи до 500 през следващите няколко години