Такие Дела

Большие данные: между техноутопией и цифровой диктатурой

Голосовые помощники и машинные переводчики становятся умнее с каждым днем, обучаясь языку на триллионах слов. Алгоритмы запоминают все наши поисковые запросы и внимательнее друзей следят за нашими интонациями. Фитнес-трекеры позволяют нам отслеживать показатели здоровья в реальном времени, но мы как-то упускаем из виду, что эти же данные становятся доступны кому-то еще — по ту сторону экрана. Netflix дает идеальные рекомендации, лучше нас самих понимая, какой сериал мы захотим посмотреть следующим, но не повод ли это насторожиться?

Мы живем в эпоху больших данных. Тысячи компаний и государственных органов собирают, хранят и обрабатывают огромные массивы информации о каждом из нас и мире, в котором мы живем.

К сожалению, не всегда они используют эту информацию ради нашего блага. «Если человека беспокоят проблемы в его сексуальной жизни, реклама подсунет ему “Виагру”, а то и пообещает увеличение пениса. Если вам не хватает денег, вас забросают предложениями “кредитов до зарплаты” с высоким процентом», — пишет математик и дата-сайентист Кэти О’Нил в своей книге «Убийственные большие данные». Хищническая реклама — лишь один из примеров того, как наши данные могут быть использованы против нас. Распознавание лиц по городским камерам и отслеживание геолокации политических активистов в авторитарных странах, кража персональной информации киберпреступниками и навязывание политической рекламы на основе активности в соцсетях — это тоже темная сторона больших данных.

Некоторым будущее, описанное в романе «1984» Джорджа Оруэлла, уже не кажется особенно фантастичным. Историк и футуролог Юваль Ной Харари в книге «21 урок для XXI века» не исключает, что в будущем в странах вроде КНДР могут появиться биометрические браслеты, регистрирующие признаки гнева при взгляде на портрет вождя. Стоит повыситься кровяному давлению и активизироваться миндалине в мозге обладателя такого браслета — и наутро он проснется в концлагере.

Впрочем, Большим братом может оказаться даже супермаркет, в котором вы каждый день покупаете продукты. Американский магазин сниженных цен Target, например, прославился на весь мир из-за того, что выявлял беременность клиенток по характерному набору покупок. Собранные данные компания использовала для нацеленной рекламы. Однажды Target якобы даже определила беременность одной из покупательниц до того, как та поделилась этой новостью с кем-то еще. Будущий дедушка узнал о пополнении, когда компания выслала на его адрес купоны со скидками на детские товары для его дочери.

Так ли высоки риски или Харари сгущает краски, а хищническая реклама и утечки приватной информации — просто издержки технического прогресса? Чтобы ответить на этот вопрос, для начала разберемся, что вообще такое большие данные.

«Любые данные, которые не помещаются в экселе»

Люди собирали данные с древности. Уже в библейские времена, например, проводились переписи населения. Сбор данных, однако, на протяжении тысячелетий был чрезвычайно долгим, дорогим и трудоемким процессом. Книгу Судного дня, в которой собрано огромное количество экономических и демографических сведений об Англии XI века, не успели завершить при жизни короля Вильгельма — хотя именно по его распоряжению и началось ее составление.

Все изменилось с появлением компьютеров и оцифровки данных. В последние полвека стоимость цифрового хранения уменьшалась вдвое каждые два года. Сегодня объем хранящейся информации растет в четыре раза быстрее, чем мировая экономика.

Когда такие науки, как геномика и астрономия, столкнулись в середине 2000-х годов с внезапным ростом объемов информации, возникло понятие «большие данные». Обрабатываемой информации в каждом конкретном случае было теперь так много, что она не помещалась в памяти одного компьютера. Если прежде ученые полагались на метод выборки, теперь в исследованиях можно было использовать почти всю или вообще всю информацию, относящуюся к изучаемому явлению. Исследователи стали видеть закономерности, которые невозможно было выявить в «малых данных».

«Первое, что следует понимать о словосочетании “большие данные”, — что оно не является техническим термином, а потому и не имеет строгого определения. “Большие данные”, как и “искусственный интеллект” или “машинное обучение”, — это некоторое обобщение целого набора сущностей, — объясняет в разговоре с “Такими делами” преподаватель Международного института экономики и финансов НИУ ВШЭ Алан Нартикоев и в шутку добавляет: — Если вкратце, большие данные — это любые данные, которые не помещаются в экселе. Есть простой и понятный (но совсем не строгий) критерий больших данных: если величина массива информации не помещается в оперативной памяти компьютера, то это большие данные».

На вопрос о том, для чего ученые используют большие данные, Нартикоев отвечает: «Анализ больших данных решает проблемы поиска закономерностей (как цена воды влияет на цену хлеба), прогнозирования (сколько будет стоить хлеб, если вода стоит 50 рублей), классификации (является письмо спамом или нет)». Такой анализ позволяет в численной форме выявлять закономерности реального мира, которые невозможно разглядеть без использования технологий.

Иллюстрация: Вика Шибаева для ТД

Как большие данные делают мир безопаснее

Отрицать пользу больших данных трудно. В США, допустим, их используют для контроля за здоровьем преждевременно рожденных младенцев. Система, созданная специалистом по биоинформатике Кэролин МакГрегор и ее командой, в режиме реального времени отслеживает 16 потоков данных — например, о сердцебиении, частоте дыхания, артериальном давлении и уровне кислорода в крови младенцев. Эта система, в частности, способна сообщить о начале развития инфекции — до появления явных симптомов. Причем не важно, что именно вызвало инфекцию. Важнее просто ее зафиксировать. Виктор Майер-Шенбергер и Кеннет Кукьер, авторы книги «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим», поясняют: «Если электронные медицинские записи показывают, что в определенном сочетании апельсиновый сок и аспирин способны излечить от рака, то точная причина менее важна, чем сам факт: лечение эффективно… Вопрос не в том — почему, а в том — что».

Бизнесменам большие данные помогают сохранять деньги. Сегодня на важных объектах вроде заводов и мостов устанавливают множество датчиков. Благодаря им удается выявлять испорченные детали и избегать поломок, угрожающих простоем производства. А сторонники здорового образа жизни с помощью специальных гаджетов могут отслеживать данные, например, о своей физической активности и сне. Компании, которым пользователи предоставляют эту информацию в обмен на удобные приложения, собирают огромные базы данных и выявляют неожиданные закономерности. Так, компания Asthmapolis присоединила к ингаляторам от астмы датчики, накапливающие информацию о геолокации пользователей, и выяснила, какие факторы провоцируют приступы астмы, — а это, например, близость к определенным посевным культурам.

Наконец, большие данные помогают бороться с преступностью. Доктор математики из Гарварда Мира Бернштейн, к примеру, построила модель, которая сканирует масштабные производственные цепочки (это может быть, скажем, сборка мобильных или изготовление кроссовок) и выискивает в них признаки принудительного труда. Распространяются по всей Америке и программы по предсказанию преступлений на основе больших данных. Эти системы анализируют город в поиске опасных районов и направляют патрульных туда, где преступление может произойти с большей вероятностью. Одну из таких систем, под названием PredPol, стали использовать в Рединге (Пенсильвания). Из-за кризиса 2008 года штат полиции в этом очень бедном городе сократили на 45 человек. Местный шеф Уильям Хейм, чтобы не допустить роста преступности, в 2013 году решил потратиться на PredPol. Уже через год он заявил, что количество ограблений сократилось на 23 процента.

Почему нам все же не стоит доверять большим данным правосудие

Все это звучит многообещающе. Идея той же PredPol, на первый взгляд, выглядит разумно: отлавливать преступников еще до того, как они преступили закон. Однако идеальное прогнозирование невозможно. Профессор Пенсильванского университета Ричард Берк, например, разработал модель, позволяющую вычислить, совершит ли убийство заключенный, если его выпустить условно-досрочно. По словам Берка, прогноз будет точным на 75 процентов. Это высокий показатель, но он значит, что одно из четырех решений комиссии по условно-досрочному освобождению, полагающейся на модель Берка, будет ошибочным.

Она выпустит на свободу будущего убийцу или напрасно откажет в освобождении раскаявшемуся заключенному.

Другая проблема состоит в необъективности алгоритмов. Большинство преступлений не столь серьезны, как ограбления и убийства. Чаще происходят мелкие правонарушения, распространенные в бедных кварталах. Если система вроде PredPol учитывает их, полицейским приходится наведываться в такие районы все чаще. Модель подпитывается новыми данными о мелких преступлениях, которые в противном случае были бы не замечены, и все чаще отправляет полицейских в те же самые районы. В итоге тюрьмы заполняются осужденными за преступления, в которых нет пострадавших, — например, за хранение марихуаны. Угонщики же автомобилей и грабители, напротив, активно перемещаются, чтобы предугадать маршруты патрульных машин, и ускользают от внимания PredPol.

Кэти О’Нил предлагает представить, что бы произошло, если бы полиция вместо патрулирования бедных кварталов отправилась на Золотой берег, один из самых богатых районов Чикаго. «Что, если бы они начали задерживать тех, кто, закончив пробежку в парке, перебежал Северный бульвар в неположенном месте, или обрушились на владельцев пуделей, которые справили свою нужду на Лейкшор-драйв?» — спрашивает О’Нил. Скорее всего, правоохранители выявили бы пару пьяных водителей и вскрыли бы несколько случаев мошенничества со страховками, домашнего насилия или рэкета. Система же, подобная PredPol, зафиксировала бы рост преступности и привлекла сюда еще больше полицейских.

Мы не можем слепо верить в объективность алгоритмов, считает О’Нил. Ведь алгоритмы учатся у нас, а значит, перенимают наши предубеждения. «Они не обеспечат честность. Они повторяют наш прошлый опыт, наши шаблоны. Они автоматизируют статус-кво», — говорит ученый. Кроме того, любая модель — это упрощение. Поэтому мы должны понимать, что иногда модели будут работать «бестолково, с огромными пробелами», отражающими суждения и приоритеты их создателей. «Модели — это мнения, заключенные в математическую форму», — заключает О’Нил. Вдобавок к этому многие компании делают все возможное, чтобы скрыть результаты работы этих моделей или даже само их существование. В итоге мы не понимаем, работают ли эти непрозрачные механизмы ради нашего блага и справедливы ли они.

Иллюстрация: Вика Шибаева для ТД

Как большие данные угрожают нашей приватности

Крупные компании вроде Google и Facebook постоянно изучают наше поведение онлайн, оценивают нас с помощью сотен моделей и зачисляют в ту или иную интернет-касту. Как много они о нас знают? В 2014 году торговая компания OfficeMax прислала Майку Сею конверт со скидочными предложениями. Все бы ничего, но рядом с именем адресата была пометка: «Дочь погибла в автокатастрофе». Дочь Сея действительно скончалась после аварии за год до этого, а компания, судя по всему, могла использовать эту информацию для более точечной рекламы.

Компании при этом уверяют, что обезличивают собираемую информацию. Однако предположим, что некая компания собирает анонимные данные о наших перемещениях. Насколько сложно будет деанонимизировать эти точки, передвигающиеся по картам? Кэти О’Нил иронично замечает:

чтобы связать точку с адресом, куда она прибывает каждый вечер, не нужно обладать задатками гениального сыщика.

Пугающая история произошла в 2006 году. Компания AOL выложила в открытый доступ 20 миллионов поисковых запросов от 650 тысяч пользователей. Предлог был благовидный: позволить дата-исследователям анализировать эту информацию в поисках интересных открытий. Данные были анонимизированы. Сотрудникам The New York Times, однако, хватило всего пары дней, чтобы, связав поисковые запросы вроде «одинокие мужчины за 60», «целебный чай» и «ландшафтный дизайнер в Лилбурне, Джорджия», установить личность пользователя № 4417749. Ею оказалась 62-летняя вдова Тельма Арнольд из города Лилбурна. Когда журналисты приехали к ней в гости, она была ошарашена: «О господи, это же вся моя личная жизнь!»

В мире больших данных анонимизация затруднительна. Даже когда данные и отдаленно не похожи на личную информацию, по ним можно узнать немало любопытного об их владельце. В США и Европе, например, становятся популярными «умные» электросчетчики. Они в режиме реального времени собирают большое количество информации, помогающей отличить холодильник от телевизора, а телевизор… от подсветки для выращивания марихуаны.

«Сбор и анализ больших данных, а также обмен и торговля этими данными действительно могут представлять некоторую угрозу нашей приватности, — соглашается Алан Нартикоев. — Некомфортно ощущать, что банк может принимать решение о лимите по вашей кредитной карте, беря в расчет не только ваш заработок, но и лайки в Tinder, адреса заказа такси, любимые блюда в ресторанах, места проведения отпуска и прочие интимные вещи. Такое вполне возможно, ведь мы десятки раз за год подписываем согласие на обработку персональных данных, но вряд ли хоть раз читаем их от и до».

Тем не менее нарисованный Ноем Харари образ будущего с биометрическими датчиками, вычисляющими диссидентов, реалистичным эксперту не кажется. «Зловещие зарисовки о цифровых диктатурах, конечно, имеют под собой некоторую фактическую основу, но выстроены главным образом из художественных вымыслов, — поясняет Нартикоев. — Безусловно, всестороннее накопление безумного объема информации о человеке потенциально может ограничить его свободу, но я бы не стал рассматривать сам процесс сбора и обработки данных как угрозу нашему будущему. Если посмотреть на исторический опыт, то человек всегда стремился к сбору и систематизации знаний. В ходе эволюции обществ мы придумали метрические книги, статистические реестры, паспорта, страховые полисы, водительские удостоверения, номера телефонов, аккаунты в соцсетях. Всегда происходило наращивание объема данных, но нельзя сказать, что человек из-за этого становился менее свободным или что условия его жизни становились хуже. Поэтому я не вижу оснований считать, что в будущем эта тенденция изменится и накопление данных из фактора роста нашего благополучия превратится в причину закрепощения и подчинения людей».

Почему большие данные — это угроза гуманизму

Впрочем, в книге «Краткая история будущего» Ной Харари рассматривает еще большую проблему, чем тотальный контроль. Эта проблема — философская. По утверждению Харари, в современном научном сообществе укрепляется идея о том, что «жирафы, помидоры и люди — это способы обработки данных, просто разные». По мере распространения концепции больших данных набирает популярность и новая религия — датаизм, божеством которой является информация. Человеку в этой концепции отведено место всего лишь микропроцессора, а наши переживания предстают в ней как устаревшие биохимические алгоритмы. Датаизм безразличен к людям. У него другая забота — подключить всё и вся к «Интернету Всех Вещей». Весь мир должен быть связан единой сетью: «…И наши тела, и машины на улице, и холодильники на кухне, и куры в курятниках, и деревья в лесу».

Мы будем не более значимой частью этой системы, чем куры. В конце концов, чем люди лучше кур? Только тем, что люди — это более сложные механизмы обработки данных, считает Харари. «Но если будет создана система обработки данных, усваивающая больше информации и обрабатывающая ее эффективнее людей, разве эта система не превзойдет человека точно так же, как человек превзошел курицу?» — спрашивает футуролог.

Клятвы и налоги, чтобы укротить алгоритмы

На самом деле все эти угрозы не остаются без обсуждения. Кэти О’Нил, например, призывает дата-специалистов по всему миру отказаться от соблазна навязывать алгоритмам собственные представления о справедливости. «Мы должны транслировать этику широкой общественности», — предлагает О’Нил в качестве альтернативы.

Справедливость невозможно измерить и посчитать. Поэтому мы должны брать на себя ответственность избавляться от определенных данных, порождающих дискриминацию. Добавление в алгоритмы PredPol гигабайта данных о мелких правонарушениях, возможно, поможет предсказать, где произойдет серьезное преступление. Однако это происходит ценой несправедливости: когда мы с большей строгостью относимся к проступкам одной части общества, закрывая глаза на проступки другой. «Поэтому я выступаю за то, чтобы исключить эти данные», — заявляет О’Нил.

Некоторые компании уже следуют этому совету. Одна из главных проблем любой фирмы — текучесть кадров. Замена сотрудников, особенно высокого уровня, дорого обходится бизнесу. Из-за этого многие предприятия используют большие данные для вычисления вероятности, с которой соискатель останется на рабочем месте подольше. Xerox заказала такой анализ компании Evolv, Inc. Исследование выявило одну проблематичную закономерность: люди, которые жили дальше от места работы, с большей вероятностью могли ее сменить. Однако другое наблюдение указывало на то, что люди, которым приходилось дольше ездить на работу, проживали в бедных районах. В итоге Xerox пожертвовала эффективностью ради справедливости и исключила эти данные из модели. Теперь алгоритмы не рассматривали менее обеспеченных кандидатов как менее надежных.

Иллюстрация: Вика Шибаева для ТД

А Виктор Майер-Шенбергер и Кеннет Кукьер предрекают появление экспертов в области больших данных — алгоритмистов. Становились бы ими специалисты по компьютерным наукам, математике и статистике. Они давали бы клятву быть беспристрастными и уважать конфиденциальность данных, а их работа заключалась бы в надзоре за должным использованием алгоритмов и в интерпретации результатов их работы. При возникновении конфликтов алгоритмисты получали бы доступ к алгоритмам и наборам данных и искали бы решение проблемы. Благодаря таким специалистам алгоритмы стали бы прозрачными и подотчетными обществу.

Наконец, еще одну инициативу озвучили в документальном фильме Netflix «Социальная дилемма»: активисты предложили ввести налог на сбор данных. Чем больше сведений попадают в руки компании, тем больше денег должно будет уйти в государственный бюджет в виде налогов.

Future is private

Другие предлагают и вовсе свести до минимума количество собираемых данных. Глава российской компании Wheely, предоставляющей услуги премиум-такси, Антон Чиркунов, например, заявил: «Будет идеально, если нам вообще никакие данные собирать не придется». В 2020 году, когда московский департамент транспорта потребовал от всех сервисов такси предоставлять данные о поездках, Wheely были единственными, кто отказался выполнить это решение. В компании объяснили: «Эти данные дают возможность постоянно следить за любым водителем и косвенно — за пассажиром. Если известен адрес пассажира — а это может быть и адвокат, и журналист, и политик, — то не составляет труда отследить все поездки из этой точки и установить, когда и куда он поехал, с кем встречался».

По словам Чиркунова, в других странах приватность уже начинает восприниматься как фундаментальное право человека. «Есть даже такое выражение: future is private, — говорит бизнесмен. — В Европе в 2018 году ввели GDPR. Это сейчас золотой стандарт. В Калифорнии свой privacy act появился в 2020-м. Похожее законодательство уже приняли и в других странах: Бразилии, Японии и так далее. Сервисы, для которых privacy в приоритете, будут становиться мейнстримом».

GDPR (от английского General Data Protection Regulation, что переводится как «общий регламент по защите данных») — важнейший закон, принятый Европейским союзом в 2016 году и вступивший в силу спустя два года. Этот документ обязует европейские и зарубежные компании, предоставляющие товары и услуги европейцам, следовать ряду правил по защите персональной информации. Например, компании должны простым языком объяснять права пользователей, а уже потом брать согласие на обработку их личных данных. По запросу компания обязана предоставить вам сведения о том, что она знает о вас и как использует эту информацию. В любой момент вы можете отозвать согласие на обработку ваших данных, а в случае серьезной утечки компания должна будет уведомить вас в течение 72 часов. Если компания нарушит одно из этих правил, ей могут грозить штрафы от 10 миллионов евро или 2 процента годового оборота.

Станут ли алгоритмы могущественнее человека?

Любопытно, что GDPR поддержал основатель Facebook Марк Цукерберг. «Я верю, что для интернета будет хорошо, если в еще большем количестве стран появятся законы вроде GDPR», — написал он в статье для The Washington Post. Кроме того, Цукерберг провел в 2019 году серию публичных дискуссий о будущем технологий. Поговорил он в том числе и с Ноем Харари, неоднократно критиковавшим Facebook в своих книгах. Харари, в частности, спросил Цукерберга, насколько вообще современный человек может быть уверен, что его внутренний голос — это результат некоторой свободной воли, а не влияния мощнейшего внешнего алгоритма, понимающего, что происходит внутри нас, и знающего, на какие кнопки нажимать, чтобы нами манипулировать.

Цель Facebook, ответил Цукерберг, вовсе не в том, чтобы манипулировать сознанием пользователей, подсовывая им кучу ненужного контента, а в том, чтобы давать им возможность общаться с людьми, которых они ценят. «Все психологические исследования, что я видел, и опыт, который был у нас [в Facebook], говорят о том, что, когда люди видят что-то, что не совпадает с их убеждениями, они просто игнорируют это», — пояснил Цукерберг.

Похоже, многие из нас и правда склонны преувеличивать угрозы, которые несет технический прогресс. Насколько оправданы эти страхи теперь, когда появляются инициативы вроде GDPR, обещающие защищать нашу личную жизнь от всевидящего ока корпораций и государства? Вероятно, риски не столь велики, как польза от технологий, помогающих предотвращать болезни, аварии и преступления. Станут ли алгоритмы более могущественными, чем человек? Вряд ли. Генри Форду приписывают цитату: «Если бы я спросил у людей, чего они хотят, они бы ответили: более быстрых лошадей». Отличие человека от алгоритмов в том, что он способен увидеть то, чего еще нет. То, что еще не нашло отражение в данных.

Exit mobile version