Исходный размер 425x563

Хито Штейерль. Средние образы

Финалист конкурса

Предисловие

В этой статье Хито Штейерль продолжает политэкономический и эстетический анализ визуального порядка, начатый исследованием бедных образов. Теперь в фокусе внимания изображения, производимые нейросетями, и сеть трудовых, политических, эстетических и семиотических отношений, продуктом которой они являются.

Это «средние образы» — призрачные результаты корреляции усредненных значений, которые лишены референции. Они — инструменты разнообразных дискриминаций, которые делают устранение байасов неоднозначной процедурой и в которые замешаны все пользователи, чьи изображения были взяты без спроса для тренировки сетей. Изображения, производимые нейросетями, якобы магически возникают прямо из самих данных, но на уровне производства, доказывает Штейерль, опосредованы эксплуататорскими трудовыми отношениями в индустрии, наживающейся на геополитических конфликтах и уязвимости беженцев и мигрантов.

В связи с этим художница показывает неоднозначность обещаний и реальности автоматизации. Штейерль обращает внимание, что в этой сфере прекарного и спекулятивного труда вложенные усилия не окупаются линейно вознаграждением: причинно-следственные связи подменяются корреляциями, и повседневная реальность становится похожа на казино. В конечном счете тренируются не только нейросети — принудительно тренируются и пользователи, и работники, будучи встраиваемы в производственные конвейеры и иерархические структуры генерации прибыли цифровых корпораций. Надежда на выход, по Штейерль, — «растренировать» себя, освободившись от системы вымогательства и экстракции.

Подход Штейерль иллюстрирует тезис исследований науки и техники (STS):

У любой реальной техники не только техническое, но и социальное, экономическое, политическое, культурное и инженерное устройства, и эти устройства переплетены в гетерогенной сети, которой и является техника (а вовсе не просто девайсом).

Подробнее о технике как гетерогенной сети см. этот лонгрид, о технике как продукте гетерогенной инженерии см. здесь.

(Также подробнее о байасах нейросетей см. этот лонгрид , о захламляющей силе визуальности нейросетей  см. здесь, о желании, стоящем за этой визуальностью в контексте капиталистических потоков см. здесь, о границах делегирования художественных задач ИИ см. этот лонгрид.)

big
Исходный размер 501x499

Paul Winstanley. Walkway 3 (1989)

Средние образы

Писатель-фантаст Тед Чан недавно описал текстовую продукцию ChatGPT как «размытый JPEG всего текста в сети» [1] — или: как семантический вариант «бедного образа» (poor image). Но у размытого результата, генерируемого сетями машинного обучения (ML, machine learning), есть дополнительное историческое измерение: статистика.

Визуальные образы, создаваемые ML-инструментами, — это статистические визуализации (renderings), а не картинки реально существующих объектов. Они переносят нас от фотографической индексальности к стохастическому различению. Эти образы больше не отсылают к фактичности, не говоря уж об истине: они указывают на вероятность. На смену шоку внезапного фотографического озарения приходят следы кривых нормального распределения, функций потерь и «длинных хвостов», которые запускаются безжалостным бюрократизмом.

Эти визуализации представляют собой усредненные версии гигантского множества образов, украденных из сети ботами-неводами. Они выполнены в стиле расплывчатых евгенических композитных фото Фрэнсиса Гальтона, 8k, Unreal engine. Как визуализациям данных им не нужна никакая индексальная отсылка к своему объекту. Они не зависят от реального воздействия фотонов на датчик или эмульсию. Они сходятся вокруг среднего, медианного; галлюцинируемая усредненность. Они репрезентируют норму, передавая среднее (mean). Они заменяют похожесть (likeness) на вероятностность (likeliness). С точки зрения разрешения они могут быть «бедными образами», но по своему стилю и по сути они — средние образы.

Вот пример того, как корпус более традиционных фотографий конвертируется в статистическую визуализацию: поисковый движок Have I been trained? — очень полезный инструмент, разработанный художниками Матом Драйхёрстом и Холли Хёрндон, — позволяет пользователю просматривать огромный датасет LAION-5B, на котором тренировался Stable Diffusion, один из самых популярных генераторов text-to-image на основе глубокого обучения. В этом тренировочном корпусе данных есть и изображения со мной (Рис. 1). Что делает из них Stable Diffusion? Попросите модель визуализировать «an image of hito steyerl», и вот результат (Рис. 2).

Исходный размер 1438x1179

Рис. 1. «Images of Hito Steyerl» в датасете LAION-5B

Исходный размер 1437x1246

Рис. 2. «image of hito steyerl», сгенерированный Stable Diffusion

Как Stable Diffusion добрался из точки А в точку Б, от реального образа к такому? Конечно, это не самое лестное «до и после»; будь это лечение, я бы его не советовала. Выглядит довольно средне или даже унизительно (demeaning); но в том и дело. Вопрос: какое средство? Чье средство? Которое? Stable Diffusion создал этот портрет меня в определенном возрастном диапазоне, он порожден неизвестными внутренними процессами, туманно связанными с тренировочными данными. Дело не в спрятанном в «черный ящик» алгоритме, поскольку код Stable Diffusion известен. Мы бы могли, наоборот, назвать это алгоритмом в прозрачном ящике (white box), или социальным фильтром.

Это приблизительно то, как общество видит меня через фильтр усредненного интернет-мусора. Нужно только убрать из моих фото шум реальности и взамен выделить социальный сигнал; в результате и получится «средний образ», отображение скоррелированных средних значений — или: разных оттенков среднего.

У английского «mean» много значений, и все они тут применимы. «Mean» может указывать на низкое или жалкое происхождение, на норму, скупое или отвратительное. Оно связано со значением (meaning) как означающее, с идеями общего достояния, но также с финансовыми или инструментальными средствами (means). Сам термин [mean images] составной, композит, он размывает и накладывает друг на друга по видимости несовместимые слои смысла. Он сплавляет моральные, статистические, финансовые и эстетические ценности, а также общее (common) и низшие позиции в одну сжатую до трудноразличимости установку.

Исходный размер 476x472

Paul Winstanley. Underpass (1989)

Средние образы далеки от случайных галлюцинаций. Они — предсказуемые продукты дата-популизма. Они улавливают непроявленные социальные паттерны, в которых конфликтующие смыслы закодированы в виде векторных координат. Они визуализируют реально существующие социальные оценки, которые увязывают общее со статусом низших классов, посредственностью и отвратительным поведением. Они — остаточные изображения (after-images), выжженные на экранах и сетчатках еще долго после того, как их источник стерт. Они осуществляют психоанализ без психики или без анализа для эпохи автоматизации, в которую производство усилено массовой фальсификацией.

Средние образы — социальные сны без сна, приводящие иррациональные функции общества к их логическим следствиям. Они — документальные выражения собственных взглядов общества на само себя, которые улавливаются посредством хаотического захвата и масштабного воровства данных. Они полагаются на обширные инфраструктуры загрязняющего «железа» и неквалифицированного и лишенного прав труда, используя политический конфликт в качестве своего ресурса.

Проблема Януса

Когда осенью 2022 года в тестовом режиме был запущен text-to-3d инструмент Dreamfusion, пользователи начали замечать интересный глюк. 3d-модели, сгенерированные этим ML-инструментом, часто имели несколько лиц, направленных в разные стороны (Рис. 3). Этот глитч назвали проблемой Януса [2]. Что было ее причиной? Один из возможных ответов состоит в том, что при машинном обучении распознаванию и анализу образов чересчур сильный акцент делается на лицах; в корпусе тренировочных данных лиц больше, чем других частей тела. Два лика Януса, римского бога начал и концов, направлены в прошлое и будущее; это также бог войны и мира, перехода из одного социального состояния в другое.

Исходный размер 1444x1624

Рис. 3. 3d-модель белки с тремя лицами, сгенерированная ML-сетью

Проблема Януса, связанная с машинным обучением, затрагивает важную тему — отношение между индивидом и множеством. Как изобразить толпу в качестве чего-то одного? Или, наоборот, одно — как толпу, коллектив, группу, класс или Левиафан? Каково отношение между индивидом и группой, между частным и общим интересами (и собственностью), особенно в эпоху, когда статистические визуализации — это усредненные композиции групп?

Вероятностности

Вот другой статистический композит, в который впутано мое лицо (Рис 4).

Исходный размер 1432x990

Рис. 4. Примеры [изображений лиц] и композитные образы [лиц] из Racial Faces in the Wild Database

«Расовые» пятна с призрачным гендером справа можно назвать вертикальными групповыми фотографиями, на которых люди расположены не рядом друг с другом, а поверх друг друга. Как такие образы появились?

В 2016 году мое имя всплыло в компендиуме под названием MS-Celeb-1M — базе данных Microsoft, содержащей 10 млн найденных в интернете изображений 100 000 людей. Информацию об этом обнародовали Адам Харви и Джулс Лаплас в рамках своего расследовательского проекта Megapixels [3], посвященного базам данных. Если ваше имя оказывалось в списке, Microsoft поощряло исследователей загружать из интернета фотографии вашего лица, чтобы построить биометрический профиль. Я стала частью раннего тренировочного датасета, предназначенного для алгоритмов распознавания лиц. Но для чего и кем он использовался?

Исходный размер 512x512

Paul Winstanley. Walkway (1989)

Как оказалось, MS-Celeb-1M заинтересовала ряд групп и институций. К примеру, эту базу использовали для оптимизации расовой классификации разработчики другого датасета, Racial Faces in the Wild. Они жаловались на то, что технология распознавания лиц плохо работает с не-белыми людьми. Так что они задались целью «исправить» эту проблему. Разработчики выгрузили картинки из датасета MS-Celeb-1M в интерфейс распознавания Face++ и использовали полученные расовые метки, чтобы разделить людей на четыре группы: европейцы, азиаты, индийцы и африканцы. При этом декларируемой целью было сокращение байасов в программе распознания лиц и повышение разнообразия тренировочных данных [4].

Результатами стали призракообразные представления расиализированных фенотипов, или квази-платоническая идея дискриминации как таковой.

Эти призрачные визуализации неслучайно напоминают знаменитые фотографические композиты, созданные Фрэнсисом Гальтоном. Социальный исследователь-новатор, статистик и евгенист, Гальтон разработал метод фотографического наложения, чтобы создавать портреты так называемых типов, например, «евреев», «больных туберкулезом» и «преступников» [5]. Евгенистами были люди, убежденные в «расовом улучшении» и «планировании селекции», некоторые из них защищали методы вроде стерилизации, сегрегации и даже прямого уничтожения, направленные на очищение общества от тех типов, которые они считали «нездоровыми». Призраки часто оказывались сыскными листками категорий, которые должны были исчезнуть.

Исходный размер 870x488

Francis Galton, Inquiries into Human Faculty and Its Development (Frontispiece of Book, detail) (1883)

Многое написано о евгеническом бэкграунде пионеров статистики, в том числе, к примеру, Рональда Фишера. Но с тех пор статистика как наука продвинулась [6]. Как объясняет Джастин Джок, в ходе XX века статистические методы были донастроены так, чтобы включать в себя основанные на рынке механизмы и параметры, такие как контракты, затраты и аффордансы, и регистрировать экономические риски ложно-позитивных или ложно-негативных результатов. В итоге в статистическую науку была интегрирована математика хорошо откалиброванного казино [7]. Используя данные, байесовские методы могли бы перевернуть процедуру Фишера по доказательству или опровержению так называемой нулевой гипотезы. Новый подход работал наоборот: начинайте с данных и вычисляйте вероятность гипотезы. Полученный ответ может быть подвергнут обратной инженерии, чтобы удовлетворять наиболее вероятному соответствующему вопросу. Со временем методы подсчета вероятности оптимизировали ради прибыльности, добавив рыночные механизмы к механизмам отбора.

Исходный размер 1046x899

Composite photographs of a family. Plate XXXIII of Pearson’s biography of Galton (18xx)

Статистические визуализации добавляют к этой процедуре квази-магический визуальный эффект. Поскольку кажется, что категории возникают из самих данных, они приобретают власть неопосредованной манифестации или представления.

Данные здесь больше не представляются через традиционные медиумы графиков, кластеров, кривых, диаграмм или иных научных абстракций. Вместо этого они визуализируются в форме вещи, из которой они, как предполагается, абстрагируются. Они пропускают опосредование, чтобы указывать на ложную имманентность. Процессы абстрагирования и отчуждения заменяются запутанными процессами обратного распространения ошибки — или, проще говоря, социальными фильтрами.

Если Джок прибегает к введенному Зон-Ретель понятию реальной абстракции, чтобы описать статистические способы репрезентации, то «средние образы» можно описать как «имитирующие подлинность абстракции» (authenticist abstractions) [8]. Этот парадокс отражает фундаментальное противоречие в сердце данного способа визуализации.

Даже несмотря на то, что эти визуализации основаны на скоррелированных средних значениях (means), они устремляются к крайним и недосягаемым аномалиям — к примеру, идеалам анорексичного тела. Нереалистичный и, вероятно, убийственный результат предписывается как норма; этот модус человеческой социальной обусловленности возник задолго до машинного обучения.

Исходный размер 595x504

Paul Winstanley. Interior (Window) (1994)

В «средних образах» статистические данные интегрированы прямо в сходство (likeness) объекта при помощи детерминаций вероятностности (likeliness). Если Гальтон проделал этот трюк для лиц, то статистические визуализации расширяют применение его метода на область действий, отношений и объектов — в пределе на весь мир. Якобы спонтанное представление, которое предъявляется этими распределениями, затушевывает операции в «скрытых слоях» нейронных сетей. Эти операции принуждают существующие социальные отношения устремляться к в высшей степени идеологическому «оптимуму» через разные веса и параметры, сопряженные с рынком. Рынки уже рассматривались фон Мизесом и Хайеком как сверхэффективные компьютеры.

Действительно, в либеральных экономических мифологиях рынки играют роль искусственных общих интеллектов — высшие, предположительно всезнающие структуры, которые не следует регулировать, в работу которых не следует вмешиваться. Можно считать, таким образом, что нейронные сети подражают рыночной логике, в которой реальность является предметом постоянного торга.

Такая интеграция статистики очевидна в случае 3d-моделей Dreamfusion. Самая распространенная статистическая аналогия — знаменитая монетка, при честном подбрасывании которой с 50%-вероятностью выпадают орел или решка (head or tail, аверс (от лат. adversus — «обращённый лицом») или реверс). Но в случае проблемы Януса вероятность выпадения орла [«лица»], а не решки, гораздо выше, чем 50%. На самом деле может вообще не быть никакой решки. Разработчики отмечают базовую проблему получения 3d-визуализаций из 2d-картинок. Вдобавок к тому, о чем шла речь выше, в данных может быть перекос, а алгоритм может быть дефектен или в нем может чего-то не хватать, — или же сам эксперимент и его инструменты могут оказаться и нечестными, и небеспристрастными.

Так или иначе, Dreamfusion породил собственную вилку теории вероятности: вероятность теперь не орлы или решки, а орлы и орлы.

Исходный размер 493x499

Paul Winstanley. Walkway 2 (1989)

Какое все это имеет отношение к многоголовым композитам проекта Racial Faces in the Wild, в которые я оказалась впутана? В либеральной логике цифровой экстракции эксплуатация и неравенство не ставятся под вопрос; максимум — они диверсифицируются. В этом отношении авторы данного проекта попытались сократить расовый байас в программе распознавания лиц. Результаты были легко переупакованы, чтобы более точно опознавать меньшинства при помощи алгоритмов машинного зрения.

Полицейские отделения спали и видели, что распознавание лиц оптимизируют для не-белых лиц. Именно это и произошло с исследованием, сделанным на базе MS-Celeb-1M.

Компания SenseTime тоже отметилась в этом [9]. SenseTime занимается искусственным интеллектом и до апреля 2019 года поставляла властям Китая программное обеспечение слежения, которое использовалось для наблюдения и отслеживания уйгуров; компанию неоднократно связывали с нарушениями прав человека [10]. По-видимому, сочетание моего имени и изображения лица использовалось не только в оптимизации машинного зрения под расовую классификацию. Плодам этой оптимизации быстро нашли применение — использовали для опознания и отслеживания этнического меньшинства в Китае. Факта моего существования в интернете было достаточно, чтобы превратить мое лицо в инструмент буквальной дискриминации, управляемой реально существующим цифровым авторитаризмом. К настоящему моменту большинство лиц в интернете, вероятно, уже были использованы в подобных разработках.

Исходный размер 1500x1023

Katherine Russel. Homeward (2016)

Средства производства среднего

Есть еще одна, более релевантная причина, по которой предполагаемое устранение байасов в датасетах создает больше проблем, чем решает. Дело в том, что изменения затрагивают только часть результатов на выходе, делая их более приемлемыми для западных либеральных потребителей. При этом устройство индустрии и ее способов производства остается без изменений.

Проблемой, однако, является не только (социальное) среднее, но и средства производства в целом. Кому они принадлежат? Кем являются производители? Где происходит производство и как оно работает?

Исходный размер 1000x796

Katherine Russel. Army (2014)

Создание фильтров, предназначенных для освобождения от вредных и предвзятых результатов нейронной сети, все больше отдается на аутсорс незащищенным акторам — так называемым микроработникам или работникам-призракам. Микроработники находят и помечают в датасете материал, содержащий насилие, байасы или что-то незаконное. Эту работу они выполняют в форме низкооплачиваемых «микрозаданий», превращающих цифровые каналы в конвейерные ленты. Как сообщал в январе 2023 года журнал Time, низкооплачиваемых работников в Кении просили скармливать нейросети «отмеченные примеры насилия, в том числе сексуального, и ксенофобных высказываний» [11]. Теперь этот детектор используется в системах ChatGPT от OpenAI. В западных метрополиях микроработников часто рекрутируют из групп, которым доступ на официальный рынок труда запрещен законодательством о мигрантах или беженцах. Вот как это описывается в анонимизированном интервью с цифровым работником из большого города в Германии:

Цифровой работник: Мы все в общем-то были в одной и той же ситуации, очень уязвимой. Только-только приехали в город и в страну в целом, пытались вписаться, нам отчаянно нужна была работа. На моем этаже у всех сотрудников была как минимум степень магистра, я не один такой. Один из моих коллег был биологом, который специализировался на изучении бабочек и был вынужден работать над точно такими же задачами, как и я. Поскольку найти реальную работу по специальности слишком трудно, люди берут эту работу для частичной занятости. Это высококвалифицированные кадры с разным языковым бэкграундом.

Интервьер: Все были иностранцами?

Ц.р.: Да, все.

И.: Что это была за работа?

Ц.р.: Ужасная. И все, с кем я общался, воспринимали ее так же. Во время обучения тебе говорят, что предстоит отсматривать педофилию, разный графический контент, тексты сексуально откровенного характера. А потом, когда начинаешь работать, то сидишь за столом и видишь вещи, в которые невозможно поверить. Это взаправду? Вдолгую последствия такой работы отвратительны. В моей группе не было никого, у кого бы не было впоследствии проблем. Например, расстройства сна, потери аппетита, фобий, социофобий. Кому-то даже пришлось прибегнуть к терапии. В первый месяц — очень, очень интенсивное обучение. Нам надо было научиться распознавать слишком радикальный контент. Потому что ИИ или механизмы машинного обучения были неспособны распознавать тонкие случаи. У машины нет чувств, поэтому она недостаточно точна.

Исходный размер 569x527

Paul Winstanley. T.V. Room 5 (1997)

Ц.р.: Я впал в депрессию. Пришлось ходить на терапию. Прописали препараты. Поначалу моей основной работой было отсеивание постов с  сексуально откровенным содержанием и случаи так называемой высокой приоритетности, обычно связанные с суицидом или селфхармом. Было много картинок c порезами. Мне надо было анализировать, какие из них селфхарм, а какие суицидальные. На второй месяц я попросил руководителя группы поставить меня на другой контент, потому что почувствовал себя плохо. На рабочем месте было много правил: ни телефонов, ни часов — ничего, с помощью чего можно сделать фото. Ни бумаги, ни ручек — ничего, с помощью чего можно сделать заметки. Спустя какое-то время мы заметили за окнами дронов. Якобы шпионы пытались снять, что происходит в компании. Всех проинструктировали в таких случаях зашторивать окна. Однажды около здания был журналист. Нам сказали не покидать здание и не говорить с ним. Для компании журналисты были как враги.

И.: Какого типа ИИ был включен в вашу работу?

Ц.р.: Я немногое знаю об этом ИИ. Думаю, они пытались его как-то скрыть. Мы только знали, что там ведется какое-то машинное обучение. Потому что базово они хотели заменить людей программами на основе ИИ. Помню, в какой-то момент они попытались использовать эту программу, но она была очень неточной. Так что они прекратили попытки.

И.: Что это была за программа, какое у нее было задание?

Ц.р.: Понятия не имею. Об этом знали только в руководстве компании. Информацию держали в секрете. До нас то тут, то там доходили слухи, но даже несмотря на это они прятали проект от нас. Впрочем, ИИ неудачен, потому что алгоритм неточен. Люди толкуют об искусственном интеллекте, но, я бы сказал, технология, которая за ним стоит, очень, очень обычная. Вот поэтому им и нужны мы, люди. У машин нет чувств. Они не могут прикоснуться. Главная же задача — чтобы люди вроде меня работали как роботы [12].

Исходный размер 1000x823

Katherine Russel. Exodus (2014)

В другом интервью из того же проекта описывалось, как сирийским цифровым работникам в Германии приходилось отсматривать и отбирать изображения их собственных родных городов, разрушенных недавним землетрясением в регионе, — а в некоторых случаях и руины их бывших домов [13]. Их сочли слишком жестокими для потребителей социальных медиа, но не для жителей этого региона, которых были вытеснены из страны войной и разрушениями и были вынуждены стать работниками-призраками в изгнании.

Военное насилие удачно обеспечило цифровые корпорации в Германии новой и весьма выгодной при эксплуатации рабочей силой из числа беженцев.

Таким образом, донастройка технологии ради большей «инклюзивности» может вести к улучшенному опознанию меньшинств, одновременно передавая на аутсорс травматичный и низкооплачиваемый труд. Она может оптимизировать дискриминацию, поверхностно очищая коммерческие приложения, но в процессе создавая откровенно эксплуататорские классовые иерархии. Политический и военный конфликты, а равно и расово мотивированные миграционные барьеры — важные инструменты создания этой лишенной гражданских прав трудовой силы. Возможно, байас — не баг, а важное свойство системы производства среднего. Байас продуктивен не только на уровне репрезентации, поскольку унижает людей в визуальном плане. Его предполагаемое устранение столь же продуктивно, так как помогает консолидировать классовые иерархии, подкрепляемые войнами, энергетическими конфликтами и расистскими пограничными системами, и может быть использовано в отвратительной системе производства среднего.

Исходный размер 1000x739

Katherine Russel. Nomad (2015)

Устранение байасов — не единственная задача микроработников. Они также размечают фотографии улиц для беспилотных автомобилей и категоризируют изображения объектов и людей, чтобы помочь сетям на машинном обучении различать их. Как отмечали многие авторы, работники-призраки из числа людей — двигатель автоматизации, беспилотные автомобили не могли работать без них.

Автоматизация работает на усредненных микросуждениях целых групп низкооплачиваемых работников, а не на каком-то суперумном компьютере. В некоторых случаях это ведет к тому, что люди выдают себя за ИИ даже там, где машинное обучение никак не применяется. Как пишет один исследователь,

«Мы интервьюировали К., парижского предпринимателя и основателя стартапа, который обвинял конкурентов в том, что они говорят, что делают ИИ, в то время как всю работу отдавали на аутсорс людям, нанятым через зарубежные платформы. Он даже заявлял, что „Мадагаскар — лидер французской отрасли искусственного интеллекта“. Еще более расстроен был С., студент, он стажировался в ИИ-стартапе, который предлагал обеспеченным людям индивидуализированные рекомендации в области люксовых путешествий. В коммуникационной стратегии его компании упор делался на автоматизацию, а рекомендательная система была якобы основана на предпочтениях пользователей, извлеченных из социальных медиа. Но негласно все процессы были отданы на аутсорс микро-исполнителям с Мадагаскара. Никакого машинного обучения не велось, поэтому стажер и не мог получить высокотехнологичные навыки, о которых мечтал» [14].

Исходный размер 1000x743

Katherine Russel. Migration (2015)

Скрытые слои нейронных сетей прячут реальность человеческого труда так же, как и абсурдность исполняемых задач.

Кажущееся непосредственным магическое и спонтанное возникновение изображений из вороха данных в действительности опирается на массовую эксплуатацию и экспроприацию на уровне производства. Возможно, призрачно всплывающие в статистических визуализациях лица — это на деле портреты скрытых микро-работников, преследующие и пронизывающие средние образы.

Скрытый труд важен и для датасетов, которые используются в тренировке генераторов промтов. 5.8 млрд изображений и подписей к ним, слитые из интернета и собранные в LAION-5B, открытом датасете, на котором тренировался Stable Diffusion, — все это продукты низкооплачиваемого человеческого труда, «от людей, занимающихся дизайном и кодом сайтов до пользователей, загружающих и публикующих на этих сайтах фотографии» [15]. Само собой никому из этих людей не предлагали ни вознаграждения, ни доли в корпусе данных или построенных на его основе продуктах и моделях. Права частной собственности в цифровом и не только капитализме действительны только когда дело касается богатых собственников. У всех остальных можно красть.

От среднего к общему?

Теперь становится яснее, почему янусоголовые 3d-модели показывают гораздо больше орлов чем решек (more heads than tails): «монетка» порченая. Выпадает ли орел или «орел», автоматизация или, как выражается Астра Тэйлор, фальш-автоматизация, игорный дом всегда выигрывает. Но вопрос об условиях труда позволяет сделать более общие замечания по поводу отношения между статистикой и реальностью, или вопроса о корреляции и причинности. Многие авторы, включая меня, интерпретировали переход от науки, основанной на причинности, к допущениям на основе корреляции как пример проявления магического мышления или же скатывание в алхимию. Но что если в этом скатывании одновременно схватывается важный аспект реальности? Реальности, которая вместо того, чтобы быть управляемой логикой или причинностью, фактически становится больше похожей по своему устройству на казино?

Исходный размер 614x489

Paul Winstanley. Night Walkway 3 (2005)

Отличным примером тут может послужить пост из одного блога о депрессии и видеоиграх. Автор описывает, как играет в видеоигры в моменты депрессии и получает удовольствие от маленьких повторяющихся заданий, которые ведут к какому-то конструктивному результату — выращенному урожаю или построенному дому:

«Труд видеоигр так захватывает именно потому, что дает шанс сполна насладиться вознаграждением за свои старания. Буквально что вкладываешь, то и получаешь. Действительно, самые приятные игры — фантазийные симуляции проживания базовой марксистской ценности: труд имеет право на все, что производит» [16].

Автор описывает причинно-следственную связь между вкладом и результатом, трудом и вознаграждением. Он приходит к поразительному выводу: при нынешнем капитализме такая причинность редка, особенно когда речь идет о прекарной работе. Какие бы усилия вы ни вложили, это не приведет линейно к соответствующему им результату, будь то прожиточный минимум или адекватная форма компенсации. Прекарные и в высшей степени спекулятивные формы труда не дают линейной отдачи; причина и следствие разъединены. Это вводит классовый аспект в реальное распределение причинности в противовес корреляции. Работы с почасовой оплатой получают более высокую степень причины-и-следствия, чем те, которые делаются в слабо регулируемой области случая, причем на обоих полюсах шкалы заработной оплаты.

Поэтому для многих людей более «рационально» понимать свое ежедневное существование как казино и надеяться на спекулятивные сюрпризы. Если все, на что ты можешь надеяться с точки зрения причинной парадигмы, это нулевой доход, то покупка лотерейного билета становится чрезвычайно рациональным решением. Работа начинает походить на азартную игру.

Исходный размер 617x489

Paul Winstanley. Night Walkway 4 (2005)

Фил Джонс описывает микроработу схожим образом:

«Таким образом, работник все больше действует в квази-магической экономике азартных игр и лотереи. Микроработа являет собой сумрачную вершину этой траектории, на которой возможность оплаты следующего задания соблазняет работников возвращаться за новым заданием снова и снова. Сложные графики вознаграждения и зависящее от конкуренции ценообразование геймифицируют задания и эффективно переупаковывают избыточность и прекарность в качестве новых, захватывающих форм работы-как-досуга» [17].

Исходный размер 623x512

Paul Winstanley. Lobby 7 (1991)

Когда «заработная плата (wage) трансформируется в ставку (wager)», вероятность — уже не только оценка реального результата. Она становится частью самого результата [18]. Статистические визуализации объясняют это. Когда социальная причинность частично заменяется корреляцией, трудовые отношения отбрасывает во времена викторианских потогонок, изображения стремятся стать ставками, а завод превращается в игорный дом. Индексальная фотография хотя бы частично была основана на причинно-следственной связи. Но в статистических визуализациях причинность теряется в хаосе квази-нелинейных процессов, которые не случайны, но незаметно подделаны.

Прекарный труд в индустриях машинного обучения вместе с необходимыми ему повторяющимися процессами обусловливания и тренировки поднимает вопрос: кто или что тренируется? Очевидно, что не только машины или, точнее, не только нейросети.

Люди тоже тренируются — и микро-работники, и пользователи в целом. Вернемся к блестящему вопросу Хёрндон и Драйхёрста: «Тренировали ли меня?». Ответ: да. Не только мои картинки, но и меня самого. Разумеется, генераторы изображений на основе промпта вроде DALL-E опираются на тренировку ML-моделей. Но что гораздо важнее, они тренируют пользователей как использовать себя и тем самым встраивают их в новые производственные конвейеры, программные и аппаратные стеки в связке с проприетарными приложениями для машинного обучения.

Исходный размер 623x512

Paul Winstanley. Lobby 6 (1991)

Эти генераторы изображений нормализуют обособленную производственную среду, в которой пользователи постоянно должны платить ренту какой-то облачной системе не только чтобы мочь действовать, но даже чтобы иметь доступ к инструментам и результатам своего труда. Примером является Azure, которая, по словам Microsoft, является «единственным глобальным публичным облаком, предлагающим услуги ИИ-суперкомпьютеров с широкими возможностями масштабирования». Azure сдает в аренду вычислительные приложения для машинного обучения и вычислительные мощности, в то время как Microsoft учредила иерархическую проприетарную структуру, включающую в себя подготовленные для внедрения машинного обучения программы и аппараты, браузеры, доступ к моделям, интерфейсы приложений (API) и так далее. Adobe — самая ненавистная для тех, кто работает с изображениями, изощренная и экстрактивистская квази-монополия, — быстро движется в том же направлении.

Дуэйн Монро называет такие квази-монополии «рентными суперструктурами»: цифровые корпорации присваивают данные пользователей и продают им продукты на основе этих данных. «Технологическая индустрия захватила многое из того, что является общим (commons), и теперь сдает нам в аренду доступ к тому, что должно быть открытым» [19].

Исходный размер 513x512

Paul Winstanley. Lobby 5 (1990)

Автоматизация на основе машинного обучения угрожает многим цифровым и административным белым воротничкам, в том числе программистам, пиарщикам, веб-дизайнерам и бухгалтерам. Но более вероятна не полная их замена такой автоматизацией, а то, что многие из них, чтобы остаться «конкурентными», будут вынуждены «апгрейднуться», арендовав сервисы, построенные на украденном у них труде.

Сегодня тренировать этих профессионалов значит заставлять их привыкать к своему исчезновению в среднесрочной перспективе и приучать их к зависимости от предлагаемых монополиями пакетов, чтобы они могли продолжать работать и получать доступ к результатам собственного труда.

Это обращает внимание на еще один аспект «средних образов». Подобно NFT, статистические визуализации — это инструменты, внедряемые в специфические технические среды. В случае NFT это крипто-среда, реализуемая за счет таких инструментов как кошельки, биржи или реестры. В случае машинного обучения инфраструктура состоит из масштабных, энергозатратных, иерархичных, облачных архитектур, которые основаны на дешевом кликовом труде людей из регионов конфликтов или беженцев и мигрантов из центров метрополий.

Пользователей интегрируют в гигантскую систему экстракции и эксплуатации, оставляющую огромный углеродный след.

Исходный размер 514x433

Paul Winstanley. Ocean House (2001)

Поэтому всерьез воспринять проблему Януса значило бы растренировать себя (untrain oneself), освободившись от системы вымогательства и экстракции.

Первым шагом было бы активировать другую голову Януса — ту, что смотрит вперед в сторону переходов, концов как начал, а не ту, что смотрит в прошлое, сотканное из украденных данных. Почему бы не переключить точку зрения на другое будущее — время малых и устойчивых технологий, которые бы использовали жизнеспособные конфигурации по минимуму, работали на возобновляемой энергии, не требовали бы воровства, эксплуатации и монополии в цифровых средствах производства?

Это значило бы растренировать из себя, освободив от идеи будущего, которое порабощено цифровыми олигархическими пирамидами и реализуется трудом скрытых микро-работников, будущего, в котором причинность заменена подделанными корреляциями. Если одна голова Януса смотрит на  отвратительное и среднее, то другая устремлена к общему (commons).

Исходный размер 616x512

Paul Winstanley. College 2 (1992)

Примечания

1. Chiang T. Chatgpt is a Blurry jpeg of the Web // New Yorker, 9 February 2023. https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web.

2. Проблему Януса исходно обнаружил и сообщил о ней в своем твиттере Бен Пул, исследователь из экспериментальной лаборатории Google Brain.

  1. См. сайт их проекта: https://exposing.ai/about/. Вот некоторые из списка: Ай Вэйвэй, Арам Бартолл, Астра Тэйлор, Брюс Шнайер, Кори Доктороу, дана бойд, Эдвард Фелтен, Евгений Морозов, Гленн Гринвальд, Хито Штейерль, Джеймс Ризен, Джереми Скахилл, Джилл Магид, Джилиан Йорк, Джонатан Зитрейн, Джулт Брилл, Ким Зеттер, Лора Пойтрас, Люк Дюбуа, Майкл Анти, Манал аль-Шариф, Шошанна Зубофф и Тревор Паглен. Как пишут Харви и Лаплас, принятое Microsoft определение «знаменитости» включало в себя журналистов, активистов и художников, многие из которых были «заметными критиками той самой технологии, в создании которой Microsoft использует их имя и биометрические данные» (https://exposing.ai/msceleb/).

4. Wang M., Deng W., Hu J., Tao X., Huang Y. Racial Faces in the Wild: Reducing Racial Bias by Information Maximization Adaptation Network // Computer Vision Foundation research paper, 2019. https://arxiv.org/pdf/1812.00194.pdf

  1. См. также важнейший текст Аллана Секулы о композитах Гальтона: Sekula A. The Body and the Archive // October. 1986. Vol. 39, Winter. P. 19.

6. Chun W.H.K., Discriminating Data: Correlation, Neighbourhoods, and the New Politics of Recognition. Boston MA: MIT Press, 2021. P. 59; Lee-Morrison L. Francis Galton and the Composite Portrait // Portraits of Automated Facial Recognition. Bielefeld: transcript Verlag, 2019. P. 85–100.

Рональд Фишер, одна из ключевых фигур в истории статистики, в книге «Генетическая теория естественного отбора» (1930) утверждал, что цивилизации рискуют, поскольку люди «низкой генетической ценности» более фертильны, чем люди так называемой «высокой генетической ценности», и рекомендовал ограничить рождаемость в низших классах (Фишер Р. Генетическая теория естественного отбора. Ижевск: РХД., 2011). Фишер создал известный набор данных по ирисам, чтобы доказать, что можно классифицировать разные виды на основе измерений внешних параметров (результаты были опубликованы в «Анналах евгеники» в 1936 году). Цветы Фишера были прокси для более зловещей идеи: если можно различать разные цветочные виды по внешним измерениям, то можно доказать и существование разных рас на основе измерения черепов. Ирисы Фишера до сих пор преподают студентам в компьютерных науках как базовый пример.

7. К примеру, метод Неймана-Пирсона предполагает создание двух гипотез, между которыми статистический тест выбирает в зависимости от обстоятельств эксперимента. Подобно прибыльному казино, «если издержки и риск надлежаще рассчитаны, игорный дом обречен что-то потерять но со временем в конце концов выиграет больше» (Joque J. Revolutionary Mathematics: Artificial Intelligence, Statistics and the Logic of Capitalism. London, New York: Verso, 2022. P. 124–125).

8. Ibid. P. 179

9. См.: Megapixels, как выше.

10. Swanson A., Mozur P. U.S. Blacklists 28 Chinese Entities over Abuses in Xinjiang // New York Times, 17 October 2019.

11. Perrigo B. OpenAI Used Kenyan Workers on Less Than $2 Per Hour to Make ChatGPT Less Toxic // Time, 18 January 2023.

12. Die Zeit, Feuilleton Ausgabe no. 14, 30 March 2023 — совместный проект культурной поддержки по искусственному интеллекту, ведомый Мари Сера Эбсиноглу, Эйком Куном, Яном Лихте, Петером Нёйманом, Ханно Раутерберг, Малин Шульц, Хито Штейерль и Тобиасом Тиммом. Интервью взято Тобиасом Тиммом.

13. Интервью взято Мари Сера Эбсиноглу.

14. Tubaro P., Casilli A.A., Coville M. The trainer, the verifier, the imitator: Three ways in which human platform workers support artificial intelligence // Big Data & Society. 2020. Vol. 7. No. 1. P. 7.

15. Xiang C. AI Isn’t Artificial or Intelligent // Vice Motherboard, 6 Dec 2022.

16. Arnold T. Depression and Videogames // Labour Intensive Art Substack, 6 January 2023.

17. Jones P. Work Without the Worker: Labour in the Age of Platform Capitalism, London, New York: Verso, 2021. P. 50ff. 18 Ibid. P. 50.

19. Monroe D. ChatGPT: Super Rentier // Computational Impacts, 20 January 2023.

Перевод выполнен по изданию:

Steyerl H. Mean Images // New Left Review. 2023. No 140/141.

В оформлении обложки использована работа:

Paul Winstanley. Veil 27 (2011)

Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную...
Показать больше