вторник, 05 март 2024   RSS
    Барометър | Региони | Компании | Лица | Назначения


    2844 прочитания

    Все още сме далеч от общия изкуствен интелект (AGI)

    Как точно работи ChatGPT, на какво се дължи напредъкът му спрямо предните големи езикови модели, къде се намираме в развитието на изкуствения интелект разказва д-р Александър Иванов, Oxford University и носител на стипендия Cristopher Welch
    14 февруари 2023, 10:03 a+ a- a

    Снимка: Личен архив

    Александър Иванов е на 30 години, завършил НПМГ „Акад. Любомир Чакалов“, София с профил „Биология и биотехнологии“. Завършва като комбиниран бакалавър и магистър по биохимия в University of Oxford с отличие. Има завършена магистърска степен по невронаука отново в University of Oxford. Наскоро получава и докторска степен по системна и изчислителна невронаука също в Оксфорд, където работи на тема „Компютърни модели на слуховата кора и обработка на звукова информация“, а също публикува няколко статии в престижни журнали по темата. Носител на престижната стипендия Cristopher Welch, присъждана на трима нобелови лауреати. Има успешно завършени научни стажове в Cambridge University, Princeton University и IMB, Майнц, Германия. Бивш председател на Българското студентско общество в Оксфорд. Към момента работи като Data scientist в престижната британска компания Faculty AI, която се занимава с изследване, разработки и консултантска дейност в областта на изкуствения интелект. 

    Свързахме се с Александър, за да поговорим за ChatGPT как работи, защо е по-добър от предните големи езикови модели, до колко трябва да му вярваме, до колко е оправдан шумът около модела и какво можем да очкаваме оттук нататък в развитието на изкуствения интелект. 

    Когато говорихме за AI и невронни мрежи преди по-малко от година, ти ми обясни, че изкуственият интелект не може да извършва различни типове задачи. Сега обаче ChatGPT пише есета, поезия и дори елементарен софтуерен код. Как стана така?
    Това, което имах предвид тогава, е, че обикновено алгоритмите за машинно самообучение са специализирани в една конкретна задача (напр. разпознаване на обекти, гласове, филтриране на спам и т.н.) и способностите им за генерализация, дори в конкретната задача са сравнително малки (напр. алгоритъм, който разпознава котки от кучета няма да разпознае жираф, ако не е трениран специално за това). В случая е факт, че ChatGPT може да прави много дейности, свързани с обработката и генерирането на текст и боравене с език, но в крайна сметка това пак е лимитирано до някаква степен.
    Интересно е, че може да пише и даже обяснява компютърен код, но това се дължи на начина, по който е трениран. Ще обясня в отговорите си по-долу в повече детайли, но накратко:
    Вместо фина настройка (fine tuning) на оригиналния модел GPT-3, разработчиците на ChatGPT използват предварително обучен модел (pre-trained model) в така наречената серия GPT-3.5. Предполага се, че използваният базов модел е най-новият text-davinci-003, модел GPT-3, който е фино настроен предимно върху програмен код. Ето защо е доста интересно, че за да създадат чатбот с общо предназначение като ChatGPT, разработчиците са решили да направят фина настройка върху „модел за компютърен код“, а не модел, базиран само на текст.

    Това наистина е интересен подход, но в крайна сметка между компютърния код и езика, все пак има някакви сходства:
         Граматика: И компютърните, и човешките езици имат набор от правила за конструиране на изречения или изрази. Тези правила определят структурата и значението на изреченията.
         Речник: И компютърният, и човешкият език имат набор от думи или символи, които се използват за предаване на значение.
         Абстракция: И компютърните, и човешките езици използват абстракция за опростяване на сложни идеи.
         Синтаксис: Както компютърните, така и човешките езици имат синтаксис, който определя реда, в който думите или символите трябва да бъдат подредени, за да формират валиден израз.
         Семантика: И компютърните, и човешките езици имат семантика, което е значението зад използваните думи или символи. 

    Като цяло приликите между компютърните и човешките езици позволяват на ChatGPT да се справи добре с тези задачи. Много опростено, начинът, по-който ChatGPT работи, е че е научил статистическите зависимости между думите в езика, колко често определени думи се срещат заедно, как могат да се комбинират. Отгоре на това има данни, генерирани от хора, които дават примери как те биха отговорили на конкретни въпроси, как биха подредили отговори от алгоритъма по правдоподобност и точност, и ChatGPT използва тези данни за да се научи да дава по-добри отговори.
    В известен смисъл става въпрос за „имитиране“ и „заблуждаване“ на хората, че срещу тях стои друг човек, а не машина. Много често ChatGPT дава доста правдоподобни отговори, които звучат добре, но всъщност са пълни с грешки/неточности.
    Понеже за нас хората езикът е основно средство за комуникация, когато някой го използва много майсторски/убедително, сме склонни да му придаваме качества, които той не обезателно притежава. В случая, ChatGPT няма логически/концептуален модел за нещата, които езикът представя, а по-скоро само повърхностно „разбиране“ на статистическите зависимости между думите, и отговорите, които биха задоволи („заблудили“) хората.
    В този смисъл, ChatGPT може да изпълнява различни задачи, но те пак имат някаква рамка в границите на генерирането на текст. Начинът, по който това се случва, също е силно стереотипизиран, което го прави възможно. Но в никакъв случай не може да говорим за алгоритъм за обща интелигентност, способен да изпълнява съвсем различни типове задачи. В отговорите по-долу това ще стане по-ясно.

    Това ли е големият скок в текущата епоха на изкуствения интелект. Това ли е пикът на синусоида и чака ли ни AI зима?
    Не мисля, че е правилно да се говори за скок. Както казва един от основоположниците на съвременния изкуствен интелект и главен учен по изкуствен интелект на Meta (преди Facebook) Ян ЛеКун (Yann LeCun), ChatGPT не е концептуален скок, невиждан преди. ChatGPT спада към големите езикови модели (ГЕМ; Large Language Models, LLMs), които са базирани на трансформаторската архитектура (Transformer architecture). Тези модели не са от вчера и както би казал сър Исак Нютон ChatGPT: „Стои на раменете на гиганти“. Подобни езикови AI системи са изградени от много компании и изследователски лаборатории в миналото и има половин дузина стартъпи, които имат много подобна технология на OpenAI (създателите на ChatGPT). Например големи компании, като Google & Meta, работят над тези проекти от години и имат свои собствени версии на подобни модели. Много от хората, създали стартъп компании, работещи върху ГЕМ, са всъщност бивши кадри на Google. Google e и компанията, създала оригиналната трансформаторска архитектура, на която са базирани повечето ГЕМ. 

    Казвайки това, не искам да отнемам по никакъв начин от постижението на OpenAI & ChatGPT, но просто е важно да се поставят нещата винаги в контекст и да мислим трезво. Много често има риск при новите технологии да се преувеличават нещата и да надуваме очакванията до абсурдна степен. Това води след себе си риска от следващи „зими“, защото хората са разочаровани накрая, когато хипернапомпаните очаквания не се сбъднат.

    Не мисля, че ни чака нова зима в най-скоро време, тъй като все пак много от постиженията на AI намират силни бизнес приложения и финансирането е малко вероятно да спре скоро. Потенциален проблем е фактът, че много от постиженията са базирани на разширяване/уголемяване на гореспоменатата трансформаторска архитектура (ChatGPT 3.0 има 175 млрд. параметъра, а ChatGPT 4.0 ще има 100 трилиона според непотвърдени слухове). Очевидно това раздуване не може да продължава до безкрай, защото има компютърни, енергийни и икономически лимити. Както казва един друг известен изследовател в областта на AI Yoshua Bengio: „Последните постижения в Deep Learning до голяма степен са дошли чрез груба сила: вземане на най-новите архитектури и увеличаване на изчислителната мощност, данните и инженерството. Имаме ли нужните архитектури и всичко, което остава, е да разработим по-добър хардуер и набори от данни, за да можем да продължим да постигаме нови успехи? Или все пак нещо ни липсва? Вярвам, че пропускаме нещо и се надявам на напредък към намирането му през следващата година.“

    Според Bengio, едно от основните неща, които липсват, е способността на моделите да „мислят“ разумно и да имат не просто представа за статистическите зависимости между обектите, но и концепциите, които тези обекти представляват. 

    Поради тази причина не мисля, че сме достигнали пика все още, и първите снежинки на AI зимата не се виждат все още.

    Разкажи ни какво всъщност представлява ChatGPT от твоята гледна точка?
    Както споменах по-горе, ChatGPT е голям езиков модел (ГЕМ), базиран на трансформаторската архитектура. Подробно обяснение би отнело няколко страници, но на човешки език това представлява горе-долу следното:

    Големите езикови модели и трансформаторната архитектура са типове модели на изкуствен интелект, които са обучени да генерират текст. Тези модели имат способността да обработват огромно количество текстови данни, да се учат от тях и да генерират нов текст, който е съгласуван и наподобява човешко писане. Архитектурата на трансформатора е дизайнът зад тези големи езикови модели и им позволява да вземат под внимание контекста и зависимостите между думите в изречение, което прави резултатите им по-точни и естествени. Тези модели се използват за различни задачи, от генериране на новинарски статии и описания на продукти до подпомагане при запитвания за обслужване на клиенти и много други.

    Създателите са използвали комбинация от контролирано обучение (Supervised learning) и Reinforcement обучение (Reinforcement learning), за да настроят фино ChatGPT, но компонентът на Reinforcement обучение е това, което прави ChatGPT уникален. Създателите използват конкретна техника, наречена Reinforcement Learning from Human Feedback (RLHF; Reinforcement обучение с човешка обратна връзка), която използва човешка обратна връзка в тренировъчния цикъл, за да сведе до минимум вредните, неверни и/или пристрастни резултати. 

    Предишните модели за генериране на текст често са податливи на такива проблеми. Това означава, че текстът, който генерират, невинаги отговаря достатъчно точно на това, което хората питат. Отговорите освен неточности, може да съдържат сексистки/расистки или други елементи на дискриминация, а също и да не вземат предвид какво е казано по-рано в разговора. Поради подобни проблеми, но и по-големите изисквания към големи технологични компании, предишни ботове на Microsoft, Google и Meta са били сваляни от експлоатация.

    Буквално преди дни Bard AI ботът на Google направи фактическа грешка, свързана с открития, направени от телескопа James Webb, което беше разпознато от астрономи в Twitter и доведе до срив на компанията Alphabet (най-големия акционер около Google) със 7% или $100 млрд. Голямото ниво на очаквания и изисквания към големите технологични компании е и една от причините те да са толкова предпазливи с подобни ботове. Но да се върнем на начина, по който ChatGPT e трениран и избягва до известна степен подобни проблеми.

    Процесът на обучение на ChatGPT включва три основни стъпки: контролирана фина настройка (SFT), моделът на възнаграждението и фина настройка на SFT модела чрез оптимизиране на проксималната политика (PPO). Ето обяснение за всяка стъпка.

        1.  Контролирана фина настройка (SFT): В тази стъпка малък набор от данни от отговори на конкретни въпроси е създаден от хора, които са наети затова. Този набор от данни е използван за обучение на езиков модел, наречен SFT модел. Разработчиците са използвали предварително обучен езиков модел в „серията GPT-3.5“, който да бъде прецизиран вместо оригиналния модел GPT-3. Изборът на този конкретен предварително обучен модел е направен, защото е предимно фино настроен на програмен код, което го прави по-добра отправна точка за чатбот с общо предназначение (както бяхме споменали по-горе).
        2.  Модел на възнаграждение: Тази стъпка има за цел да научи целева функция (модел на възнаграждение) директно от данните, за да оцени отговорите на SFT модела. Вместо да създават по-голям набор от данни, наетите хора са били помолени да класират резултатите от SFT модела, за да създадат този нов набор от данни, който след това е използван за обучение на модела за възнаграждение. Това означава, че хората получават готови резултати от SFT модела от стъпка 1, и просто ги класират/ранкират колко добре им звучат. Този процес помага да се извлече от данните автоматична система, която трябва да имитира човешките предпочитания.
        3.  Фина настройка на модела на SFT чрез оптимизиране на проксималната политика (PPO): В тази стъпка SFT моделът e фино настроен с помощта на алгоритъм за Reinforcement обучение, наречен оптимизация на проксимална политика (PPO). PPO работи чрез непрекъснато адаптиране на текущата политика въз основа на действията, предприети от модела и наградите, които получава. Той използва функция за стойност, за да оцени очакваната възвръщаемост на дадено състояние или действие и актуализира политиката, като прави по-информирани актуализации въз основа на прогнозната стойност на предприетите действия. Този фино настроен модел се нарича PPO модел.

    В крайна сметка цялата тази алгоритмична гимнастика води до това, че моделът е по-точен, по-добре отговаря на запитванията на хората и създава усещане за диалог и разбиране, а не просто на „още един бот“. Тук обаче, не трябва да се забравя фактът, че хората, които са наети за тази цел, ще повлияят със своите знания, мироглед и предразсъдъци на финалния продукт. Защото начинът на трениране е направен така, че да е добър и смислен „според тях“. Но най-вероятно OpenAI получават доста данни от милионите хора, които използват ChatGPT в момента и постоянно подобряват базовия модел.

    ChatGPT е базиран на GPT-3,5. Кога се очаква да излезе ChatGPT-4 и на какво ще е способен според теб?
    В интервю за StrictlyVC главният изпълнителен директор (СЕО) на OpenAI Сам Алтман обсъди следващия езиков модел на компанията, GPT-4, и слуховете около него. Алтман отказа да предложи конкретна времева рамка за пускането му, заявявайки, че компанията ще го пусне само когато е уверена, че може да го направи безопасно и отговорно. Алтман отхвърли „мелницата за слухове GPT-4“ и вирaлната сравнителна диаграма на броя на параметрите на модела като „пълни глупости“:

    GPT-4 ще замени GPT-3 и GPT-3.5, когато бъде пуснат, което се очаква да бъде в края на 2023 г., но както видяхме в казаното по-горе, нямаме точна дата. Очаква се новата версия да е подобрение в няколко аспекта.

        • GPT-4 срещу GPT-3: Параметри
    В интервю миналата година Сам Алтман каза, че GPT-4 няма да бъде много по-голям от GPT-3. GPT-3 има 175 милиарда параметра и можем да очакваме малко по-големи числа с GPT-4. OpenAI може да се стреми да извлече „повече с по-малко“.

    Някои по-нови доклади обаче твърдят, че GPT-4 ще има един трилион параметра (но самият Алтман отказва да назове точна цифра). Толкова значително подобрение би трябвало да помогне на ChatGPT да произведе много по-точни отговори с много по-бърза скорост. Повече параметри обаче може също да повишат разходите за работа на GPT-4, което означава, че моделът може да стане по-скъп за OpenAI и не е ясно дали тази повишена цена ще бъде компенсирана от достатъчно подобрение в работата на модела.

        • GPT-4 срещу GPT-3: Точност
    GPT-4 също се очаква да донесе няколко подобрения на способността да се имитира човешкото поведение и модели на реч в отговор на потребителски въпроси. По-добрата оптимизация може да означава, че GPT-4 ще бъде много по-добър в извеждането на човешките намерения дори когато има грешки, отколкото по-старите версии на GPT.

        • GPT-4 срещу GPT-3: Податливост към дезинформация
    Отдадеността на OpenAI към непрекъснато подобряване на алгоритми като RLHF (Reinforcement Learning from Human Feedback, споменат по-горе) означава, че GPT-4 може да го приложи по по-добър начин. В RLHF човешките обучители помагат за фина настройка на AI модели, като използват контролирана фина настройка. По-доброто контролирано от хора обучение може да помогне за намаляване на вероятността GPT/ChatGPT да генерира токсично/предубедено съдържание и може също да помогне за намаляване на случаите на дезинформация.

    Въпреки това OpenAI пази повечето подробности за GPT-4 в тайна и голяма част от информацията за него, която циркулира в интернет, е само спекулация. Затова е препоръчително да приемете тези идеи с щипка сол. Както казва самият Алтман: People are begging to be disappointed and they will be (Хората си просят да бъдат разочаровани и най-вероятно ще бъдат). GPT-4 със сигурност ще има подобрения, но не мисля, че ще е квантов скок напред в бъдещето. 

    Приближихме ли се до Artificial General Intelligence (AGI) и ако да – колко?
    Не мисля… Или по-скоро мъничко, но не значително. Както споменах по-горе, ChatGPT разбира статистическите зависимости между думите в езика и има голям набор от данни, чрез които е трениран. Имаме и иновацията с Reinforcement Learning from Human Feedback (RLHF; Reinforcement обучение с човешка обратна връзка). Но в крайна сметка моделът не разбира логиката и концепциите, които думите сами по себе си представляват. Както казва Yoshua Bengio, хората могат да изберат правилните компоненти от дадена информация и да ги комбинират заедно, за да образуват подходящо обяснение, отговор или план. Освен това, като се има предвид набор от променливи, хората са доста добри в извличането на причинно-следствена връзка.
    Текущите техники на изкуствен интелект не се доближават до тази човешка способност да генерира разсъждения. Често те са много уверени, че решението им е правилно дори когато е много грешно. Такива проблеми могат да бъдат забавни в текстов генератор, но могат да бъдат животозастрашаващи в самоуправляваща се кола или система за медицинска диагностика. Настоящите системи се държат по този начин отчасти защото са проектирани по този начин. Например генераторите на текст са обучени просто да предвиждат следващата дума, вместо да изграждат вътрешна структура от данни, която отчита концепциите, които манипулират, и как те са свързани помежду си.

    Та в този ред на мисли, наистина бих искал малко да „охладя“ нашите очаквания, и да подчертая, че все още сме далеч от AGI. В интернет има доста примери за това как често ChatGPT не може да използва елементарна логика. Например не може да отговори отведнъж на загадката: „Когато бях на 6 години, сестра ми беше два пъти по-малка от мен. Сега съм на 70 години, на колко години е тя?“. Причината е точно липсата на елементарна логическа мисъл отвъд статистическите зависимости между думите.

    Има ли някакъв напредък по отношение на енергийната ефективност на тези модели?
    Не бих казал.  Изследване от 2021 изчислява, че за тренирането на GPT-3 са изхвърлени 552 000 кг  CO2 в атмосферата. Със сегашните течения за увеличаване на размерите и данните за трениране на тези модели не виждам как това би могло да се подобри. Със сигурност големите компании мислят за и осъзнават тези проблеми, но поне за момента няма лесно решение. По принцип съществуват типове невронни мрежи като spiking neural networks, които са в пъти по-ефективни от гледна точка на енергия и въглероден отпечатък, но те са все още до голяма степен теоретични и е трудно да бъдат използвани на практика. Друга възможност са технологиите за аналогово смятане, които са пак доста по-ефективни, но отново изследванията в тази насока са много рудиментарни.

    А нещо ново в начина им на обучение?
    Както споменах по-горе, ChatGPT e фундаментално базиран на GPT-3.5, който, от своя страна, е базиран на трансформаторската архитектура. Това не е нещо фундаментално ново и нечувано. По-скоро напредъкът и „новото“ се дължат на подобрената способност за разговор и диалог с хората. Това се дължи на метода  Reinforcement Learning from Human Feedback (RLHF; Reinforcement обучение с човешка обратна връзка), описан по-горе, който е за пръв път използван в InstructGPT. Toзи модел е доста сходен и „брат“ на ChatGPT, където човешката обратна връзка силно подпомага релевантността и полезността на чатботовете в диалог с хората. Но това по-скоро е доста „полезен трик“, отколкото нещо качествено ново. Но все пак да, този трик наистина води до много добри резултати и със сигурност повечето компании и стартъпи ще го използват доста за в бъдеще, а може да видим и нови интересни начини за постигането на същия резултат.

    Като учен в сферата на ML и data science смяташ ли, че целият шум около ChatGPT е оправдан?
    Ако трябва да обобщя с една дума: донякъде. Със сигурност по отношение на бизнеса това ще отвори доста врати за развитие и автоматизация на скучни, но необходими дейности. Вместо начумерената служителка на административните структури да ни казва: „Тук не е информация“, може би ще получаваме вежлив, точен, полезен и бърз отговор на нашите запитвания (смее се). Индикация за полезността на тази технология е фактът, че от Microsoft са инвестирали $10 млрд. в OpenAI.
    Компанията иска да интегрира ChatGPT и негови разновидности в много от своите вече съществуващи услуги като Teams, Office, Bing и други. Има спекулации, че иначе доста „грохналата“ търсачка на Miscrosoft Bing ще стане толкова по-добра, че може би ще застраши омнипотентната и вездесъща Google търсачка. Но там е и въпрос на бизнес модел. Голяма част от прихода на Google идва от реклами и бърз и точен отговор без възможност за реклами и показване на много страници (чиято подредба също се монетизира) застрашава фундаментално този модел.
    Това, с поемането на отговорност за предоставяне на един отговор, а не лист от страници също може би е възпирало Google до някаква степен, а не просто липсата на техническо ноу-хау. Със сигурност Google не са много назад и показването на Bard AI, много сходен на ChatGPT, демонстрира това.

    Та от бизнес гледна точка със сигурност хайпът е може би до голяма степен оправдан. Но от научна и изследователска гледна точка по-скоро съм склонен да се съглася с Yann Lecun, че това не е нещо уникално ново и иновативно. Тези модели по-скоро приличат на ученици зубрачи, които са наизустили материала и могат да правят връзки между отделните уроци и знания, но нямат дълбоко и логическо познание на материята. Също така те може би могат умело да заблудят своите учители от време на време, но при по-дълбок разговор липсата на истинско познание и логическа мисъл „лъсват“. 

    А какво ще кажеш за Whisper, също направен от OpenAI? (превежда почти перфектно, според някои медийни съобщения)
    Whisper със сигурност е доста впечатляващ модел и се справя доста добре със симултативен превод и превръщането на говор в текст. Сигурно няма да ви учуди фактът, че и той като големите езикови модели е базиран на трансформаторската архитектура. В нашата фирма (faculty.ai) сме го използвали в няколко проекта и за момента се справя най-добре в сравнение с другите модели, които сме тествали. 

    Какво според теб предстои в сферата на AI?
    За мен основното нещо, което липсва за момента в текущите модели,  е способността за логическа мисъл и разсъждение. Повечето модели намират статистически закономерности между данните и ги използват, за да правят предвиждания или други задачи, които са им дадени. Така може да се стигне доста далеч, но в крайна сметка не е достатъчно за наистина интелигентни системи. В дългосрочен план изследвания в това направление според мен ще донесат много позитиви в развитието на изкуствения интелект.
    Нещо друго, което може би липсва в повечето сегашни системи, но е налично във всяка биологична невронна мрежа (животни) е богатото взаимодействие със заобикалящата среда по динамичен начин. Според мен ключово за развитието на биологичния интелект е именно това взаимодействие и постоянно приспособяване към заобикалящата среда. Ако можем да емулираме тези взаимодействия във виртуална реалност или най-добре в реална среда, това ще даде на алгоритмите възможност да генерализират по-добре.
    Неслучайно Google DeepMind са били успешни с подобни подходи и се надявам да видим повече от това за в бъдеще. Друго нещо, което липсва доста остро в момента, е енергийната ефективност. Както споменах по-горе, нещата, които може би биха помогнали в тази насока, са Spiking neural networks, Neuromorphic computing & Analog computing.
    В по-краткосрочен план според мен ще виждаме все по-големи модели, базирани на трансформаторската архитектура и може би повече данни, чрез които те да се тренират. Със сигурност ще има и интересни трикове като RLHF, които ще добавят нужни подобрения и нюанси в тренирането на тези модели.
    Но според мен този подход ще достигне своя лимит и тогава ще трябва нещо качествено ново на метафоричната маса, за да продължим напред. Като човек, занимавал се с усилено с невронаука, мисля, че областта на NeuroAI (много нова област, пресечната точка между изкуствения интелект и невронауката) ще даде най-обещаващите насоки. Човешкият и животинските мозъци са решили много от тези проблеми и ще бъде наивно, ако не почерпим опит от тях.

    Нагоре
    Отпечатай
     
    * Въведеният имейл се използва само за целите на абонамента, имате възможност да прекратите абонамента по всяко време.

    01 март 2024, 17:05
    5 български компании сред най-бързоразвиващите се в Европа
    В годишната класация на Financial Times FT1000 влязоха Ampeco, euShipments.com, Pontica Solutions, Storepool и Dreamix
    01 март 2024, 15:05
    01 март 2024, 14:46
    01 март 2024, 12:48
    Кофас: Предстоят трудни времена за строителния и жилищен сектор
    Завършеното строителство в България все още е под нивото, регистрирано през 2015
    01 март 2024, 11:18
    Соня Миклай е новият главен управител на „Германо-Българската индустриално-търговска камара
    Тя поема поста от д-р Митко Василев, който бе начело на организацията в последните над 30 години
    01 март 2024, 10:55