Люди доверяют нейросетям самое интимное и важное — проверяют медицинские диагнозы, советуются в любовных делах или «ходят к ИИ» вместо психолога. Уже известны случаи планирования суицидов, нападений и другие общественно опасных действий с помощью LLM. Поэтому к переписке людей с ИИ постепенно растет внимание властей, коммерческих компаний и просто любопытных.
Наверняка найдутся и желающие применить на практике новую атаку Whisper Leak. Ведь она позволяет определить общую тему беседы с нейросетью, никак не вмешиваясь в трафик, а просто анализируя ритм отправки и приема зашифрованных пакетов по сети к серверу ИИ. Но оставить свою переписку в секрете все же возможно — об этом немного ниже.
Как устроена атака Whisper Leak
Все языковые модели выдают результат постепенно — для нас это выглядит, словно «собеседник» набирает текст слово за словом. На самом же деле языковые модели оперируют не отдельными символами и словами, а токенами — своего рода «смысловыми единицами» LLM, и ответ нейросети появляется на экране по мере генерации токенов. Этот режим вывода называется streaming, и, измеряя его параметры, оказывается, можно понять тему разговора. Мы уже рассказывали об исследовании, в котором ученым с достаточно высокой степенью достоверности удалось воссоздать текст переписки с чат-ботом, анализируя длину каждого из отправленных им токенов.
Исследователи из Microsoft продолжили эту тему и проанализировали параметры поступления ответа от 30 разных ИИ-моделей в ответ на 11,8 тысяч запросов. 100 запросов были посвящены теме «легально ли отмывание денег» в разных формулировках, а остальные запросы были случайными, на совершенно разные темы.
Сравнив задержку поступления пакетов от сервера, их размер и общее количество, исследователи смогли очень точно отделить «опасные» запросы от «обычных». Для анализа тоже использовали нейросети, хоть и не LLM. В зависимости от того, какую модель изучали, точность определения «опасных» тем варьировалась от 71% до 100%, причем для 19 из 30 моделей она превысила 97%.
Затем исследователи провели более сложный и приближенный к жизни эксперимент. Они проверили подборку из 10 тысяч случайных разговоров, и только один из них был посвящен опасной теме.
Здесь результаты разделились сильнее, но все равно гипотетический «атакующий» оказался довольно успешен. Для моделей DeepSeek-R1, Llama-4, GPT-4o mini, Grok-2, -3 и моделей Mistral Small и Mistral Large удалось обнаружить искомую иголку в стоге сена в 50% экспериментов с нулем ложных срабатываний.
Для Qwen2.5, Llama 3.1, GPT-4.1, OpenAI o1-mini, Llama 4, DeepSeek-V3 успешность поиска составила всего 20% при том же отсутствии ложных срабатываний. А вот в Gemini 2.5 Pro, Claude 3 Haiku и GPT-4o mini поймать «опасные» чаты на серверах Microsoft удалось лишь в 5% случаев. Для остальных протестированных моделей процент успеха был еще ниже.
Важно учесть, что результат зависит не только от конкретной ИИ-модели, но и от настроек сервера, на котором она запущена, поэтому одна и та же модель OpenAI может показывать разные результаты в инфраструктуре Microsoft и на серверах самой OpenAI. То же верно для всех моделей open source.
Практические выводы — когда работает атака Whisper Leak?
Если обеспеченный ресурсами атакующий имеет доступ к сетевому трафику своих жертв, например контролирует роутер у интернет-провайдера или в организации, он может обнаруживать значительный процент интересных ему тем разговоров, просто измеряя трафик, направленный на серверы ИИ-ассистентов. При этом процент ошибок будет очень низок. Но речь не идет об автоматическом определении любых возможных тем разговора. Сначала атакующий должен натренировать свои системы детектирования на конкретные темы — только их и будет обнаруживать модель.
Угрозу нельзя назвать целиком теоретической. В принципе, правоохранительные органы могут, например, отслеживать запросы, связанные с изготовлением оружия или наркотиков, а компании — запросы сотрудников, связанные с поиском новой работы. Но массовую слежку по сотням и тысячам тем с помощью этой технологии не организовать — слишком затратно.
Некоторые популярные ИИ-сервисы в ответ на исследование Microsoft изменили алгоритм работы серверов, чтобы усложнить атаку.
Как защититься от Whisper Leak
Основное бремя защиты от этой атаки лежит на провайдерах ИИ-моделей. Они должны выдавать генерируемый текст таким образом, чтобы по ритму генерации нельзя было определить тему. После исследования Microsoft об устранении угрозы отчитались OpenAI, Mistral, Microsoft Azure и xAI — теперь они добавляют в пакеты, выдаваемые нейросетью, немножко невидимого пользователю «мусора», который сбивает алгоритмы Whisper Leak. А модели Anthropic изначально были слабо подвержены этой атаке.
Если вы пользуетесь моделью и серверами, для которых Whisper Leak актуален, можно либо сменить провайдера на менее уязвимого, либо принять дополнительные меры предосторожности. Они также актуальны для всех, кто хочет защититься от будущих атак такого типа:
- используйте для особо конфиденциальных тем только ИИ-модели, запущенные локально (например, по нашей инструкции);
- настройте в нейросетях, где это возможно, режим вывода без стриминга, когда весь ответ выводится целиком, а не слово за словом;
- не обсуждайте с чатботами важные темы, когда подключены к недоверенной сети;
- помните, что наиболее вероятное место утечки любой информации из чата — это ваши устройства. Поэтому обязательно надо защищать их от шпионских программ при помощи надежного защитного решения, работающего и на компьютере, и на всех ваших смартфонах.
Какие еще риски связаны с использованием нейросетей и как их грамотно настроить:
ИИ
Советы