Apple, Nvidia и Anthropic использовали тысячи просмотров видео с YouTube для обучения искусственного интеллекта
Компании, занимающиеся ИИ, как правило, скрывают информацию о своих источниках данных для обучения. Однако исследование Proof News показало, что некоторые из самых богатых компаний в мире использовали материалы из тысяч видеороликов YouTube для обучения ИИ. Компании сделали это, несмотря на правила YouTube, запрещающие использование материалов с платформы без разрешения.
Наше расследование показало, что субтитры к 173536 видеороликам YouTube, снятым с более чем 48 тысяч каналов, использовались тяжеловесами Кремниевой долины, включая Anthropic, Nvidia, Apple и Salesforce.
Набор данных, называемый YouTube Subtitles, содержит видеозаписи с образовательных и обучающих онлайн-каналов, таких как Академия Хана, Массачусетский технологический институт и Гарвард. The Wall Street Journal, NPR и BBC также имеют свои видеоролики, которые использовали для обучения искусственного интеллекта, как и «Вечернее шоу со Стивеном Колбертом», «На прошлой неделе вечером с Джоном Оливером» и «Джимми Киммел в прямом эфире».
Proof News также нашёл материалы от мегазвезд YouTube, включая MrBeast (289 миллионов подписчиков, два обучающих видео), Marques Brownlee (19 миллионов подписчиков, семь взятых видео), Jacksepticeye (почти 31 миллион подписчиков, 377 взятых видео) и PewDiePie (111 миллионов подписчиков, взятых снятых видео). Некоторые материалы, используемые для обучения ИИ, также пропагандировали заговоры, такие как «теория плоской Земли».
Proof News создали инструмент для поиска создателей в наборе данных YouTube для обучения ИИ.
«Никто не пришёл ко мне и не сказал: ”Мы хотели бы использовать это“», — сказал Дэвид Пакман, ведущий «Шоу Дэвида Пакмана», политического канала левого толка с более чем двумя миллионами подписчиков и более чем двумя миллиардами просмотров. Почти 160 его видеороликов были включены в обучающий набор субтитров YouTube.
Четыре человека работают полный рабочий день на предприятии Pakman, которое публикует несколько видеороликов каждый день, а также выпускает подкасты, видеоролики TikTok и материалы для других платформ. По словам Пакмана, если компаниям, работающим с ИИ, платят, он должен получать компенсацию за использование своих данных. Он отметил, что некоторые медиа-компании недавно заключили соглашения о выплате вознаграждения за использование их работы для обучения искусственного интеллекта. «Это мой источник дохода, и я вкладываю время, ресурсы, деньги и время сотрудников в создание этого контента, — сказал Пакман. — На самом деле недостатка в работе нет».
«Это кража», — сказал Дэйв Вискус, генеральный директор Nebula, стримингового сервиса, частично принадлежащего его создателям, некоторые из которых позаимствовали свои работы с YouTube для обучения искусственного интеллекта. Вискус сказал, что «неуважительно» использовать работы авторов без их согласия, тем более что студии могут использовать «генеративный искусственный интеллект, чтобы заменить как можно больше авторов на своём пути». «Будет ли это использовано для эксплуатации авторов и причинения им вреда? Да, безусловно», — сказал Вискус.
Представители EleutherAI, создателей набора данных, не ответили на просьбы прокомментировать выводы Proof, включая утверждения о том, что видео были использованы без разрешения. На веб‑сайте компании говорится, что её общая цель — снизить барьеры на пути развития искусственного интеллекта для тех, кто находится за пределами высоких технологий, и исторически они предоставляли «доступ к передовым технологиям искусственного интеллекта путём обучения и выпуска моделей».
Субтитры YouTube не содержат видеоизображений, а состоят из обычного текста субтитров к видео, часто с переводами на такие языки, как японский, немецкий и арабский.
Согласно исследовательской работе, опубликованной EleutherAI, набор данных является частью сборника, выпущенного некоммерческой организацией под названием the Pile. Разработчики the Pile использовали материалы не только с YouTube, но и из Европейского парламента, английской Википедии и подборки электронных писем сотрудников корпорации Enron, которые были опубликованы в рамках федерального расследования в отношении фирмы.
Большинство наборов данных The Pile доступны в Интернете любому пользователю, у которого достаточно места и вычислительных мощностей для доступа к ним. Учёные и другие разработчики, не связанные с крупными технологиями, использовали этот набор данных, но они были не единственными.
Apple, Nvidia и Salesforce — компании, стоимость которых оценивается в сотни миллиардов и триллионы долларов, — описывают в своих исследовательских статьях и публикациях, как они использовали Pile для обучения искусственного интеллекта. Документы также показывают, что Apple использовала Pile для обучения OpenELM, популярной модели, выпущенной в апреле, за несколько недель до того, как компания объявила, что добавит новые возможности искусственного интеллекта в iPhone и MacBook. Bloomberg и Databricks также обучали моделей на Pile, указывают публикации компаний.
То же самое сделала и компания Anthropic, ведущий производитель искусственного интеллекта, которая привлекла инвестиции Amazon в размере 4 миллиардов долларов и продвигает свою концепцию «безопасности искусственного интеллекта».
«Pile включает в себя очень небольшое количество субтитров YouTube», — заявила Дженнифер Мартинес, представитель Anthropic, в заявлении, подтверждающем использование Pile в помощнике Anthropic по генеративному искусственному интеллекту Claude. «Условия YouTube распространяются на прямое использование его платформы, что отличается от использования набора данных Pile. Что касается возможных нарушений условий предоставления услуг YouTube, мы вынуждены обратиться к авторам Pile».
Salesforce также подтвердила использование Pile для создания модели искусственного интеллекта в «академических и исследовательских целях». Каймин Сюн, вице-президент компании по исследованиям в области искусственного интеллекта, подчеркнул в своём заявлении, что набор данных был «общедоступным».
Позже, в 2022 году, Salesforce выпустила эту же модель искусственного интеллекта для публичного использования, и с тех пор, согласно странице Hugging Face, её скачали не менее 86 тысяч раз. В своей исследовательской работе разработчики Salesforce отметили, что в этой подборке также содержится ненормативная лексика, а также «предвзятое отношение к полу и определённым религиозным группам», и предупредили, что это может привести к «уязвимостям и проблемам с безопасностью». Proof News обнаружила тысячи примеров ненормативной лексики в субтитрах YouTube, а также случаи расовых и гендерных оскорблений. Представитель Salesforce не ответил на вопросы о безопасности.
Представитель Nvidia отказался от комментариев. Представители Apple, Databricks и Bloomberg не ответили на запросы о комментариях.
Данные YouTube — «золотая жила»
Компании, работающие с ИИ, конкурируют друг с другом, в частности, за счёт получения более качественных данных, говорит Джай Випра, исследователь политики в области ИИ и научный сотрудник по CyberBRICS Юридической школы Фонда Жетулио Варгаса в Рио-де-Жанейро, Бразилия. Это одна из причин, по которой компании держат источники данных под контролем.
Ранее в этом году New York Times сообщила, что Google, которой принадлежит YouTube, использует видео на платформе в качестве текста для обучения своих моделей. В ответ пресс-секретарь сообщил газете, что его использование разрешено в соответствии с соглашениями с создателями YouTube.
Расследование The Times также показало, что OpenAI использовала видео с YouTube без разрешения. Представители компании не подтвердили, но и не опровергли выводы газеты.
Руководство OpenAI неоднократно отказывалось публично отвечать на вопросы о том, использовала ли компания видео с YouTube для обучения своего ИИ-продукта Sora, который создаёт видео на основе текстовых подсказок. Ранее в этом году репортёр The Wall Street Journal задал этот вопрос Мире Мурати, главному технологическому директору OpenAI. «На самом деле я в этом не уверен», — ответил Мурати.
По словам Випры, субтитры YouTube и другие типы преобразования речи в текст потенциально являются «золотой жилой», поскольку они могут помочь обучить модели воспроизводить то, как люди разговаривают.
«Это по-прежнему остаётся главным принципом», — сказал Дэйв Фарина, ведущий программы «Профессор Дэйв объясняет», чей канал, на котором демонстрируются учебные пособия по химии и другим наукам, насчитывает 3 миллиона подписчиков и 140 видеороликов были размещены для субтитров на YouTube. «Если вы получаете прибыль от работы, которую я проделал [для создания продукта], из-за которой я или такие люди, как я, останутся без работы, тогда необходимо обсудить компенсацию или какое-то регулирование», — сказал он.
YouTube Subtitles, который был опубликован в 2020 году, также содержит субтитры из более чем 12 тысяч видеороликов, которые с тех пор были удалены с YouTube. По крайней мере, в одном случае создатель полностью удалил своё присутствие в Сети, однако эта работа была включена в неизвестное количество моделей искусственного интеллекта.
Proof News попыталась связаться с владельцами каналов, упомянутых в этой статье. Многие из них не ответили на запросы о комментариях. Из авторов, с которыми мы беседовали, никто не знал, что их информация была украдена, а тем более о том, как она была использована.
Среди удивлённых — продюсеры Crash Course (почти 16 миллионов подписчиков, снято 871 видео) и SciShow (8 миллионов подписчиков, снято 228 видео), которые являются столпами образовательной видеоимперии братьев Хэнк и Джон Грин.
«Мы разочарованы, узнав, что наш тщательно подготовленный образовательный контент был использован таким образом без нашего согласия», — говорится в заявлении Джули Уолш Смит, генерального директора продюсерской компании Complexly.
YouTube Subtitles — не первый набор обучающих данных для ИИ, которые беспокоят креативные индустрии.
Автор Proof News Алекс Рейснер получил копию Books3, ещё одного набора данных Pile, и в прошлом году опубликовал статью в The Atlantic, в которой сообщил о своём открытии, что более 180 тысяч книг, в том числе написанных Маргарет Этвуд, Майклом Полланом и Зейди Смит, были украдены. С тех пор многие авторы подали в суд на компании, занимающиеся искусственным интеллектом, за несанкционированное использование их работ и предполагаемые нарушения авторских прав. С тех пор количество подобных дел стремительно растёт, и платформа, на которой размещён Books3, закрыла их.
В ответ на иски ответчики, такие как Meta, OpenAI и Bloomberg, заявили, что их действия представляют собой добросовестное использование. Иск против EleutherAI, который первоначально удалил бухгалтерские книги и обнародовал их, был добровольно прекращён истцами.
Судебные разбирательства по остальным делам находятся на ранней стадии, поэтому вопросы, связанные с разрешением и оплатой, остаются нерешёнными. С тех пор The Pile был удалён с официального сайта для скачивания, но по-прежнему доступен на файлообменных сервисах.
«Технологические компании действуют грубо», — сказала Эми Келлер, юрист по защите прав потребителей и партнёр фирмы DiCello Levitt, которая подала иски от имени креативщиков, чья работа, как утверждается, была украдена компаниями, работающими с ИИ, без их согласия. «Люди обеспокоены тем фактом, что у них не было выбора в этом вопросе, — сказала Келлер. — Я думаю, что это действительно проблематично».
Подражание попугаю
Многие создатели испытывают неуверенность в том, какой путь им предстоит избрать.
Ютуберы постоянно следят за несанкционированным использованием своей работы, регулярно подавая уведомления об удалении, и некоторые опасаются, что это только вопрос времени, когда искусственный интеллект сможет генерировать контент, аналогичный тому, что они создают, — если не создавать откровенных подражателей.
Пакман, создатель «Шоу Дэвида Пакмана», недавно убедился в силе искусственного интеллекта, просматривая TikTok. Он наткнулся на видео, которое было помечено как клип Такера Карлсона, но когда Пакман посмотрел его, он был ошеломлён. Это было похоже на Карлсона, но слово в слово повторяло то, что Пакман сказал в своём шоу на YouTube, вплоть до интонации. Он был также встревожен тем, что только один из комментаторов видео, похоже, понял, что это подделка — голосовой клон Карлсона, читающего сценарий Пакмана. «Это будет проблемой, — сказал Пакман в видеоролике о подделке, который он снял на YouTube. — Вы можете сделать это практически с кем угодно».
Основатель EleutherAI Сид Блэк написал на GitHub, что он создал субтитры для YouTube с помощью скрипта. Этот скрипт загружает субтитры из API YouTube точно так же, как браузер пользователя YouTube загружает их при просмотре видео. Согласно документации на GitHub, Блэк использовал 495 поисковых запроса для отбора видеороликов, в том числе«смешные видеоблогеры», «Эйнштейн», «чёрный протестант», «Социальные службы защиты», «информационные войны», «квантовая хромодинамика», «Бен Шапиро», «уйгуры», «фруктовники», «торт, рецепт», «Линии Наска» и «плоская земля».
Хотя условия предоставления услуг YouTube запрещают доступ к его видео «автоматическими средствами», более 2000 пользователей GitHub добавили код в закладки или одобрили его.
Среди видеороликов, используемых компаниями с искусственным интеллектом, есть 146 видеороликов с канала Einstein Parrot, насчитывающего почти 150 тысяч подписчиков. Смотрительница африканского серого попугая Марсия, которая не захотела называть свою фамилию из-за боязни поставить под угрозу безопасность знаменитой птицы, сказала, что сначала ей показалось забавным узнать, что модели с искусственным интеллектом переваривают слова попугая-имитатора.
«Кому захочется говорить голосом попугая? — спросила Марсия. — Но я-то знаю, что он говорит очень хорошо. Он говорит моим голосом. Так что он повторяет за мной, а ИИ повторяет за попугаем».
Данные, полученные искусственным интеллектом, невозможно переучить. Марсия была обеспокоена неизвестными способами использования информации о её птице, включая создание цифрового дубликата попугая и, как она опасалась, превращение его в проклятие. «Мы вступаем на неизведанную территорию», — сказала Марсия.