Статистиката е магия, но може да се превърне в тъмно изкуство

За машинното обучение и достигането до обективни изводи, вижте какво сподели един от лекторите на Astea Conference: Practical Magic

07 май 2019, 12:19 a+ a- a

Статистиката е много мощен инструмент. Тя е в основата на машинното самообучение, което може да постига впечатляващи резултати. Също така с нея може да се докаже връзка между раждаемостта и броя на щъркелите в дадена държава. Как злоупотребяваме със статистиката, когато искаме да докажем тезата си? Как машинното самообучение се учи на глупости, когато не отчитаме как работи статистиката? Тези въпроси ще засегне Екатерина Михайлова, програмист и основател на стартъп, по време на презентацията си в тазгодишното издание на Astea Conference: Practical Magic.

Свързани новини

Александър Попов: Ще се превръщаме все повече в киборги

Преслав Наков ще открие Astea Conference: Practical Magic

Магията на програмирането

Тазгодишната технологична конференция на Astea Solutions ще е с фокус „практически магии“

За пресечните точки между статистиката и машинното обучение вижте какво сподели тя пред екипа на Economy.bg:

Кой е най-ранният Ви спомен, свързан със статистика и какво Ви накара да заобичате тази математическа дисциплина?
Втори курс по "Увод в обработката на естествени езици". Разглеждахме различни подходи към изкуствен интелект и статистическите бяха най-интересни. Резултатите ми се виждаха магически - машини имитираха хора по невероятен начин благодарение на статистика. Малкият ѝ брат - вероятностите, също са доста интересни. Те имат и доста по-всеобхватно приложение в нашия живот и постоянно биват използвани грешно в политически спорове, от доктори, от адвокати, от учени. Това ме накара да се влюбя във вероятностите и статистиката - те са приложна магия. Вълшебни са, но намират приложение във всички сфери на нашия живот.

Ако трябваше да обясните на дете какво е „статистическа грешка“, как бихте подходили?
Ако през живота си си ял само 2 ябълки и двете са били червени, ще смяташ, че ябълките могат да бъдат само червени. Ако следващата ябълка, която изядеш е жълта ще смяташ, че на света има двойно по-малко от техния вид. Колкото повече ябълки ядеш, толкова по-добра представа ще имаш за това как са разпределени ябълките по цвят. Но винаги ще си малко в грешка, дори да си изял хиляди. Тази грешка може да бъде изчислена в зависимост от броя ябълки, който си изял - колкото повече ябълки си изял, толкова по-малка е грешката.

Каква е връзката между статистиката и машинното самообучение?
Методите за машинно самообучение се опитват да разберат как изглежда светът по това какво се наблюдава в ограничено количество данни. Това е и една от основните задачи на статистиката - по наблюдаваната извадка да определи какво се случва с цялото множество.

Оправдано ли е да се очаква даден изкуствен интелект да бъде по-обективен от създателя си и каква е ролята на масива данни, от които се обучава, за крайните решения, които алгоритъмът дава?
Възможно е даден изкуствен интелект да бъде по-обективен от създателя си, но не и от данните. Например, ако в данни за подбор на служители има дискриминация към някой от половете, то тя ще се появи и в крайния резултат. Обратно - ако създателят на изкуствения интелект има очакване, че мъжете са по-добри от жените, но остави на алгоритъма сам да намери зависимостта между резултата и пола, а такава няма, е възможно да се постигне по-добра обективност.

Вие лично имате ли някакъв набор от правила, които следвате, за да избегнете риска от изкривяване на информацията, с която боравите?
Има някои неща, за които човек може да внимава. Какво е количеството и качеството на данните, с които разполагате. Полученият резултат не трябва да е твърде добър (много хубаво не е на хубаво). Какво са получили другите в сферата. Но все пак всяка система има в себе си заложено някакво очакване за това как изглежда светът. При статистиката имаш очакване за това как изглежда разпределението. По същия начин е и при машинното самообучение. Данните ще бъдат налети в някакъв калъп и това не може да бъде избегнато. Може да тестваш с различни калъпи, но накрая трябва да се спреш на нещо. Данните ще кажат какъв е диаметърът, но ти трябва да определиш дали е на окръжност или на елипса. Този калъп може да изкриви резултата и това трудно се избягва.

Какво да очакват хората от презентацията Ви по време на конференцията на Astea Solutions?
Понякога когато хората имат данни, боравят доста агресивно с тях. Искам да покажа, че не е толкова лесно да се вадят изводи от числа. Объркват се данни в ежедневието ни, в научни статии, в машинно самообучение. Статистиката е магия, но може да се превърне в тъмно изкуство, ако не внимаваме.

преди 28 минути

Бизнес

Делойт Централна Европа откри нов хъб в София

Екипът в София в момента се състои от 50 професионалисти, амбицията е да се увеличи до 500 през следващите няколко години

преди 58 минути

България

45 преподаватели от България, Словения и Сърбия станаха част от първата международна мрежа от STEAM начални учители

Издателство „Клет България“ е водещ координатор по проекта, чиято задача е въвеждането на STEM/STEAM обучението от 1. до 4. клас

преди 2 часа

HumanCapital

Проучване: 77% от компаниите у нас предлагат хибриден модел на работа

С 10% са нараснали възнагражденията през 2023, за тази година ръстът е от 7%, сочи проучване на Mercer Marsh Benefits

преди 2 часа

Икономика

Окончателно: Либерализацията на пазара на ток за бита беше отложена с 1 година

НС прие на второ четене промени в Закона за енергетиката

преди 3 часа

Имоти

Спад в броя на сделките с имоти у нас

Средните цени на жилищата задържат нивата си през първото тримесечие на 2024, отчитат от Arco Real Estate

преди 19 часа

България

Future Jobs: Какво и как ще работим в бъдеще?

Какви нови професии ще се появяват в бъдеще и ще се променят ли моделите на работа, дискутират Футурологът д-р Мариана Тодорова и Председателят на УС на БАСКОМ Доброслав Димитров

преди 1 ден

Бизнес

SAP Labs България: Открихме над 200 работни места от 2023, продължаваме да растем

С програмата SAP Next Talent даваме шанс на завършващи студенти с ИТ профил да продължат кариерата си в компанията - Радослав Николов, изпълнителен директор, пред Economy.bg