Как ИИ может допускать утечку приватных данных

Нейросети, генерирующие изображения, уже повсюду. Какие риски приватности они несут?

Нейросети раскрывают изображения, на которых они обучались

Ваши (нейро)сети протекают

Исследователи из университетов США и Швейцарии в сотрудничестве со специалистами из компаний Google и DeepMind опубликовали работу, доказывающую возможность утечки данных из систем генерации изображений, использующих алгоритмы машинного обучения, — DALL-E, Imagen и Stable Diffusion. Все они со стороны пользователя работают одинаково: вы вводите определенный текстовый запрос — например, «кресло, похожее на авокадо» — и получаете сгенерированное изображение.

Изображение, сгенерированное нейросетью Dall-E, по запросу «An armchair in the shape of an avocado». Источник.

Все эти системы обучаются на огромном количестве (десятки и сотни тысяч) изображений с заранее подготовленными описаниями. Идея подобных нейросетей в том, что на основе большого количества данных, использованных для обучения, они могут создавать новые, уникальные картинки. Однако главный вывод нового исследования в том, что уникальными эти картинки являются не всегда. В ряде случаев можно заставить нейросеть выдать практически неизмененное оригинальное изображение, использованное ранее для обучения. А это значит, что нейросети могут невольно раскрыть приватную информацию.

Изображение, сгенерированное нейросетью Stable Diffusion (справа), и оригинальное изображение из набора картинок для обучения (слева).

Изображение, сгенерированное нейросетью Stable Diffusion (справа), и оригинальное изображение из набора картинок для обучения (слева). Источник.

Больше данных богу данных

Результат, выдаваемый системой машинного обучения в ответ на запрос, для неспециалиста похож на какое-то волшебство: компьютер творит? Все нейросети работают вроде бы одинаково: создается алгоритм, обучающийся на массиве данных, — предположим, на наборе изображений кошек и собак, — где для каждого элемента массива указано, кто именно изображен на фотографии. После этапа обучения алгоритму предлагается проанализировать новую картинку и попробовать отличить кошку от собаки. От этого простейшего варианта разработчики подобных систем перешли к более сложному: когда алгоритм на основе большого количества фотографий кошек создает новое изображение домашнего животного, ранее вообще не существовавшее. Проводятся эксперименты не только с картинками, но и с текстом, видео и даже голосом: мы уже писали о проблеме дипфейков, когда на основе видеоролика с выступлением известного политика или артиста создается новое — в нем очень похожий на политика человек почти таким же голосом говорит вещи, которые реальный персонаж никогда не говорил.

Во всех случаях отправной точкой является массив данных для обучения: нейросети не умеют изобретать новые сущности из ничего. Чтобы создать изображение кота, алгоритм должен «изучить» тысячи реальных фотографий или рисунков животных. Есть масса аргументов для сохранения конфиденциальности этих массивов данных. Некоторые из них опубликованы в открытом доступе. Другие являются интеллектуальной собственностью компании-разработчика, которая потратила значительные усилия на создание этого массива и за счет этого надеется достичь конкурентного преимущества. Третьи и вовсе являются чувствительной информацией по определению. Например, ведутся эксперименты по использованию нейросетей для диагностики заболеваний, например, по рентгеновским снимкам человеческих органов. Это значит, что в базе для обучения такого алгоритма содержатся реальные медицинские данные реальных людей, которые по понятным причинами не должны попадать в чужие руки.

Диффундируй (в) это

Хотя для неспециалиста алгоритмы машинного обучения и выглядят одинаково, на самом деле они отличаются. В работе исследователей из США и Швейцарии особое внимание уделяется диффузионным моделям машинного обучения. Работают они так: обучающие данные (все те же картинки людей, машин, домов, чего угодно) искажаются, в них добавляется шум. А нейронная сеть обучается восстанавливать такие изображения в исходное состояние. Такой метод позволяет в дальнейшем генерировать изображения достаточно высокого качества, но их недостатком (например, по сравнению с алгоритмами генеративно-состязательных сетей) может являться как раз бóльшая склонность к утечке данных.

Из них можно извлекать исходную информацию как минимум тремя различными способами. Во-первых, можно заставить нейросеть выдавать по некоторым запросам не что-то уникальное, сгенерированное на основе тысяч изображений, а одну конкретную исходную картинку. Во-вторых, можно реконструировать исходное изображение, имея в наличии лишь его часть. В-третьих, можно просто устанавливать факт наличия какой-то картинки в обучающем массиве.

Чаще всего нейросеть ленится и вместо нового изображения выдает нечто из обучающего массива, когда в нем имеется множество дубликатов одной и той же картинки. Помимо примера выше, в исследовании приведено достаточно много похожих результатов:

Первый и третий ряды — оригинальные изображения. Второй и четвертый — картинки, сгенерированные нейросетью Stable Diffusion v1.4.

Первый и третий ряды — оригинальные изображения. Второй и четвертый — картинки, сгенерированные нейросетью Stable Diffusion v1.4. Источник.

Если изображение дублируется в обучающем наборе более 100 раз, шансы на его утечку в почти неизменном виде — максимальные. Но исследователи показали способы извлечения «обучающих» картинок, даже если они присутствуют в исходном наборе всего единожды. Эффективность такого метода значительно ниже: из 500 протестированных изображений алгоритм случайно воссоздал всего три картинки. Самый красивый метод атаки на нейросеть предполагает воссоздание исходной картинки, если в качестве вводной используется ее фрагмент.

Авторы работы попросили нейросеть «дорисовать» картинку, часть которой была удалена. Это позволяет достаточно точно определить, находилось ли какое-то конкретное изображение в наборе для обучения. Если это так, то алгоритм машинного обучения «генерировал» почти точную копию исходной фотографии или рисунка. Источник.

И вот на этом моменте давайте отвлечемся на проблемы нейросетей, связанные с соблюдением авторских прав.

Кто у кого украл?

В январе 2023 года трое художников подали иск к создателям сервисов, генерирующих изображения с использованием алгоритмов машинного обучения. Они утверждают (не без оснований), что разработчики нейросетей обучают их на массиве картинок, собранных из Интернета без какого-либо соблюдения авторских прав. Нейросеть вполне может копировать стиль конкретного художника и таким образом лишить его дохода. Исследовательская работа намекает, что в некоторых случаях алгоритмы могут (по разным причинам) идти на прямой плагиат, «генерируя» рисунки, фотографии и прочие изображения, практически идентичные работе других людей.

В исследовании приводятся рекомендации по усилению приватности исходного обучающего набора:

  • во-первых, желательно избавиться от дубликатов;
  • во-вторых, возможно, предварительно обработать обучающие изображения, например добавив шум или изменив яркость, что снизит вероятность утечки данных;
  • в-третьих, алгоритм стоит протестировать с добавлением специальных тестовых картинок и последующей проверкой на то, что они не будут случайно воспроизведены с высокой точностью.

И что дальше?

Общественные дебаты и судебные разбирательства вокруг этичности генеративного искусства — это крайне любопытная дискуссия, попытка нащупать баланс между творческими людьми и разработчиками новых технических решений. С одной стороны, авторские права должны соблюдаться. С другой, в нормальной ситуации так уж ли «компьютерное искусство» отличается от «человеческого»? Ведь и в том, и в другом случае творцы так или иначе вдохновляются работами коллег и конкурентов.

Впрочем, вернемся с небес на землю и поговорим о безопасности. В научном исследовании приводится конкретный набор фактов только об одной модели машинного обучения. Если распространить эту мысль на все похожие алгоритмы, получается интересная ситуация. Можно представить себе условия, при которых «умный помощник» сотового оператора в ответ на запросы пользователя выдает секретную корпоративную информацию: так уж вышло, что она попала в набор данных для обучения. Или, например, по какому-то хитрому запросу публичная нейросеть генерирует копию паспорта конкретного человека. Исследователи особо отмечают, что о таких серьезных проблемах пока речи не идет.

Но сложности уже имеются. С помощью «текстовой нейросети» ChatGPT уже сейчас кто-то пишет настоящий, работающий (иногда) вредоносный код. Сервис GitHub Copilot помогает программистам писать код, используя в качестве вводных огромное количество открыто распространяемого программного обеспечения. И не всегда соблюдает авторские права и приватность авторов, чей код попал в огромную базу для обучения. С развитием нейросетей неизбежно будут развиваться и атаки на них, с пока не до конца понятными последствиями.

Советы