Независимые тесты: оцениваем тех, кто оценивает

Независимые тестовые лаборатории регулярно исследуют защитные решения. Мы бы хотели объяснить, как правильно читать их результаты.

Насколько эффективно решение для киберзащиты бизнеса, надо бы представлять себе до его внедрения. Вопрос в том, чему и кому верить. Судить о надежности той или иной системы по маркетинговым материалам вендора — все равно что выбирать квартиру исключительно по фото на сайтах застройщиков: мягко говоря, беспечно. От советов коллег и «соседей по индустрии» проку еще меньше: у каждого свои требования к кибербезопасности, свои особенности ИТ-инфраструктуры, свои предпочтения. Да, строго говоря, далеко не каждый советчик может реалистично оценить уровень безопасности собственной компании. Кромешная субъективность.

Тем и ценен взгляд опытных независимых профессионалов, которые в своих суждениях опираются на измеримые показатели. Ставя продукты в одинаковые условия, они выявляют, какое решение в какой «дисциплине» окажется фаворитом. Благодаря их отчетам заказчик имеет шанс разобраться, чьи продукты предпочесть исходя из объективных показателей.

Хотя проводятся тесты не только и не столько для тех, кто выбирает себе защиту. Они важны прежде всего самим вендорам, которым необходимо «сверять часы» с  актуальным ландшафтом угроз ради понимания того, сопоставимы ли их решения по возможностям и качеству работы с конкурирующими, в верном ли направлении развиваются.

Высокое место продукта в общем зачете — убедительное доказательство его эффективности. Так что игроки рынка охотно участвуют в независимых проверках качеств своих продуктов и помогают лабораториям совершенствовать свои методологии. Если же вендор в маркетинге напирает на технологические ноу-хау, а участием в независимых испытаниях пренебрегает, впору усомниться, действительно ли его продукт так эффективен, как разрекламировано.

Как тесты делятся по целям и общему характеру проведения

Точечные тесты. Порой тестеры получают конкретные запросы от какого-либо игрока рынка: обкатать какую-то технологию, испытать продукт в специфических условиях и так далее. В этом случае компания-заказчик компенсирует затраты тестера на выполнение работ и может даже задавать состав участников или вносить коррективы в методологию. Бывает, вендор просит устроить «дуэль» между его продуктом и каким-либо из конкурирующих.

Теоретически заказывающий вендор может потребовать проведения теста в условиях, предоставляющих их продукту неоспоримые преимущества. При этом сам тестовый кейс может быть абсолютно нерелевантным реальному ландшафту угроз. В таком случае, разумеется, объективная ценность такого теста стремится к нулю. Исследование, имеющее пометку «Проведено по запросу такой-то компании», можно принимать во внимание, только если вы четко понимаете, как именно оно проводилось. Вообще, признак корректности исследования — согласие всех испытуемых с методологией.

Иногда тестеры видят явный интерес отрасли к конкретной технологии и сами проводят точечные исследования. Например, изучая качество облачной защиты или защиты от эксплойтов, программ-вымогателей или банковских угроз.

Тесты такого вида — узкоспециализированные. Так что при интересе к конкретному аспекту продукта на их выводы есть смысл ориентироваться.

Наиболее распространены регулярные сравнительные тесты, которые выполняются с заданной периодичностью. Частота «замеров» зависит в первую очередь от возможностей лаборатории. Обычно такие испытания проводятся с интервалом от одного месяца до полугода. В тесте участвуют несколько конкурирующих продуктов, и по результатам каждого соревнования они получают условные награды.

Иногда подобные тесты проводятся в течение целого года. Однако в таком случае тестировщики, как правило, готовят промежуточные отчеты. Как следствие, вендор должен давать свои продукты на анализ постоянно, без пропусков. Зато таким образом удается оценить решение в динамике и с большей дотошностью. Оставаться лидером на протяжении года гораздо сложнее, чем однократно завоевать первенство, поэтому рекомендуем приглядеться к тем, кому удается закрепиться наверху таких рейтингов. Непрерывные сравнительные тесты дают панорамный взгляд на отрасль и заслуживают самого пристального внимания. К тому же они наглядно показывают тех вендоров, которые участвуют только в одном тесте в году (по единственному исследованию составить адекватное представление о продукте невозможно).

Некоторые исследователи практикуют сертификационные тесты, в ходе которых продукты проверяются по стандартизированной схеме. Суть такой сертификации заключается в выяснении, соответствует ли продукт определенным требованиям (как правило, минимальным). Проводятся они в основном для того, чтобы определить, является ли продукт реальным защитным решением или имитацией (а такие на рынке периодически встречаются). Так что выяснить с их помощью, какой продукт лучше, а какой хуже, возможным не представляется. Иными словами, для полноты картины нелишне ознакомиться и с ними, однако полагаться исключительно на такие тесты при выборе решения не стоит.

Какие у тестов бывают методологии

Каждая тестовая лаборатория использует собственные методологии. В большинстве случаев они являются результатом долгой эволюции различных методов, в ходе которой отбирались сценарии, наиболее приближенные к реальности и отражающие наиболее непредвзятую картину. В том числе каждая лаборатория собирала независимые коллекции тест-кейсов. Именно поэтому анализ результатов разных тестов, проведенных разными компаниями, позволяет получить более комплексную картину эффективности продуктов.

Первые тесты антивирусов сводились к простейшим проверкам: лаборатория собирала коллекцию вирусов и сканировала ее всеми сравниваемыми продуктами. Процедура получила название on-demand scan (ODS). Также в ходу была и вариация, задействующая метод on-access scan, проводившая сканирование при копировании файлов с места на место. Однако и угрозы, и защитные решения быстро развивались, и ее стало недостаточно. Хотя подобные тесты ограниченно практикуются до сих пор, сами по себе, вне более широкого контекста, они мало о чем говорят.

Дальнейшим развитием методологии стало тестирование технологий поведенческого анализа, которые все чаще стали появляться в продуктах. Для этого на тестовых машинах запускаются семплы зловредов. При этом процесс тестирования усложнился, а длительность его, соответственно, увеличилась.

Но и эти методы постепенно утрачивали репрезентативность: зловреды становились все более изощренными. Так, многие из них начинают свою тлетворную деятельность лишь в окружении — операционка, язык системы, браузер, страна, установленные приложения, — под которое написаны. Более того, особо хитрые умеют определять, что изолированы в виртуальной среде, и не запускаются в ней: киберпреступники делают все, чтобы их создания не были препарированы безопасниками.

Потребовалось совершенствовать методологию дальше. Так индустрия пришла к концепции тестирования в условиях, приближенных к боевым, или real-world testing (RW). В таких испытаниях конфигурация тестовых машин и условия максимально приближены к реальным сценариям с живым человеком. Методика обеспечивает наиболее точный результат, но сложна, трудоемка и, соответственно, обходится тестеру достаточно дорого. Поэтому далеко не все лаборатории проводят RW.

Иногда тестеры проводят сертификации по итогам поведенческих (по терминологии различных лабораторий они могут называться behavior или proactive) тестов. Суть их в том, что продукт сканирует заведомо неизвестные ему семплы и демонстрирует, как хорошо продукт может детектировать зловреды со старыми базами и насколько хорошо работают его инструменты поведенческого анализа. Тестировщики инсталлируют систему на компьютер без доступа к Интернету и оставляют его так на несколько месяцев, после чего забрасывают на него семплы, появившиеся за это время. А иногда даже сами компилируют и программно преобразуют вредоносный код, маскируя его, чтобы сымитировать угрозу, сведения о которой в решение не заложены. Однако, поскольку сейчас вендоры все чаще используют облачные сервисы, подобный подход теряет актуальность.

Также зрелая, проработанная методология, как правило, включает в себя тесты на производительность и ложные срабатывания (false-positive, FP). Каким бы эффективным в определении и обезвреживании вредоносного кода ни было решение, оно практически бесполезно, если оттягивает на себя львиную долю вычислительных ресурсов ПК. Еще важнее FP-тест: хорошая защита не заклеймит добропорядочное приложение зловредом. Когда же такое происходит чересчур часто, нет-нет да и придет в голову мысль, не превратился ли рыцарь-драконоборец в дракона, как в пьесе Шварца.

Как извлечь из тестов пользу

Методология любой организации, тестирующей продукты для обеспечения кибербезопасности, должна быть прозрачна как для вендоров, так и для потребителей. Если неизвестна детальная методология подготовки и проведения теста, нет оснований доверять его результатам.

Держите в уме четыре первейших повода для скепсиса в отношении утверждений о продуктах компании — разработчика средств кибербезопасности:

  • она принимает участие в тестах без детально и открыто описанной методологии;
  • участвовала только в одном исследовании у одной компании, пропустив остальные тесты в серии (единственный тест нерепрезентативен);
  • принципиально не участвует в открытых исследованиях известных лабораторий;
  • участвует исключительно в тестах, методология которых включает только синтетические сценарии, не имеющие отношения к реальности.

Оценивайте совокупность тестов (не какой-то один) и желательно за относительно долгий период времени. Важно также, чтобы они проводились разными компаниями. Очевидно, что решение, из раза в раз признаваемое лучшим по некоей методике, уступает тому, которое регулярно побеждает во всех прочих испытаниях. Чтобы сделать правильные выводы об эффективности продукта, следует анализировать его в разных условиях, в испытаниях с разными критериями успешного прохождения.

Обращайте внимание на то, под какой операционной системой проводился тест. Далеко не факт, что если продукты показывают себя эффективными в тестированиях под Windows 10, то они будут столь же хороши и под более старыми системами.

Изучайте и то, как проявляют себя в тестах разные продукты одного вендора. Чем меньше стабильности в среднем по решениям компании, тем вероятнее, что удачный релиз оказался для нее случайным прорывом.

«Лаборатория Касперского» находится в постоянном контакте с авторитетными исследовательскими лабораториями и позволяет им испытывать свои продукты самых разных категорий. Результаты тестов открыты, и с ними можно ознакомиться.

Советы