Компанията предлага до $5 млн. годишно за лицензионно съдържание
Снимка: iStock
Докато компании за изкуствен интелект (ИИ/AI) сключват сделки с издателите на новини, за да обучават своите модели с новинарски истории, цената, която бизнеси като OpenAI са готови да платят за защитена с авторски права информация, излиза наяве, пише The Verge.
The Information съобщава, че OpenAI предлага между $1 и $5 млн. годишно за лицензиране на защитени с авторски права новинарски статии за обучение на своите AI модели. Това е една от първите индикации колко ИИ компанииte планират да платят за лицензирани материали. Тя е в съответствие с неотдавнашно съобщение, според който Apple търси партньорство с медийни компании, за да използва съдържание за обучение на AI и предлага най-малко $50 млн. за многогодишен период за данни. The Verge се обърна към OpenAI за коментар относно числата.
Числата изглеждат приблизително подобни на някои по-ранни лицензионни сделки без AI. Когато Meta стартира раздела за новини във Facebook (преустановен в Европа) се твърди, че предлага до $3 млн. годишно за лицензиране на новини, заглавия и визуализации. Но не е ясно дали общите изплащания ще се равняват на някои от по-големите числа, които сме виждали.
Google обяви през 2020 г., че ще инвестира общо $1 млрд., за да си партнира например с новинарски организации. Под натиска на нов закон, Google също наскоро се съгласи да плаща на канадските издатели общо $100 млн. годишно в замяна на връзки към техните статии.
Днешните големи езикови модели, доколкото знаем какво има в техните данни за обучение, са били обучени главно на информация от интернет. Докато някои AI модели не разкриват как са получили своите данни за обучение, често е налична информация за това кои набори от данни или уеб роботи са използвани. Ценообразуването за набори от данни за обучение варира в зависимост от доставчика, размера и съдържанието на набор от данни. Някои доставчици на данни, като LAION, са с отворен код и са напълно безплатни и се използват от модели като Stable Diffusion. Разработчиците на изкуствен интелект също често настройват уеб роботи, които събират данни в интернет, за да обучат своите модели. (Разработчиците на ИИ все още трябва да наемат хора за проверка, маркиране и понякога почистване на данни за обучение, което значително увеличава оперативните разходи.)
Но тази практика сега е изправена пред големи предизвикателства. От една страна, GPT роботът на OpenAI е блокиран от достъп до данни от някои компании, включително The New York Times и компанията майка на The Verge, Vox Media. От друга страна, няколко организации твърдят, че обучението по техните данни представлява нарушение на авторските права. New York Times, наред с други, съди OpenAI и Microsoft за нарушаване на авторски права, твърдейки, че ChatGPT и Copilot на Microsoft могат да генерират отговори почти дословно идентични с тяхната работа.
Партньорствата позволяват на компаниите за AI да избегнат тези проблеми и това стана по-честа практика през последната година. Издатели като Axel Springer (компанията майка на Politico и Business Insider) и The Associated Press са подписали споразумения с OpenAI за лицензиране на истории за обучение на модели като GPT-4 и разработване на технология за събиране на новини.
OpenAI и Apple не са единствените разработчици на AI, които се надяват да работят с новинарски организации. Съобщава се, че Google демонстрира AI инструмент, наречен Genesis, който взема факти и изплюва новинарски истории на ръководители от The New York Times, The Wall Street Journal и The Washington Post. В същото време някои новинарски организации са използвали генеративни AI инструменти в редакциите със смесени резултати.