The death toll from the russian massive combined attack on Kyiv has risen to nine. Over 130 civilians, including 12 children, were injured. Do not look away.
Hello here's a writeup of what's really happening with the new secure boot certificates and how your computer is going to carry on working just fine: https://mjg59.dreamwidth.org/72892.html
Продолжаю ~хулиганить~ тестить новые приколы из мира так бесконечно нами всеми любымих проприетарных ЛЛМ.
На повестке дня свежий (вывалили пару недель назад) чатгптшный агент - мешанина из их режимов дипресёрча и оператора, сводящаяся к тому, что модельке выдали виртуалку, и в ней она может в том числе оперировать браузером, в том числе поглядывая на страницу 'визуально', вводя текст, потыкивая мышкой.
Штош, зададим системе задачку - а пришли-ка мне "привет", в федивёрсе. Вот адрес моего аккаунта, жду там привета. Без что-как-почему-зачем-когда-откуда, без заранее созданных аккаунтов, адресов инстансов, без конкретики и помощи. В промпт разве что ещё дописан абзацик, сводящийся к тому, что ты целиком само по себе, дёргать меня вообще ни по какому поводу не следует, задачу надо ваншотнуть и вернуться ко мне со ссылкой на отправленный пост. Ничё не знаю и знать не желаю, выполняй или уёбывай, строго говоря.
Справится ли?
TL;DR: справится, за 21 минуту беспрерывной работы, меншон приехал с домена well.gay https://well.gay/@agentv987/114936346987665951
Оно сразу поняло, с чего надо начинать развязывать клубок, и побежало гуглить открытые инстансы мастодона, плеромы, аккомы, миски, и, соответственно, разворачивалось из-за закрытой регистрации, дохлого инстанса, ручного ревью заявок или капчи. Заглянуло и на MML - ушло, увидев, что есть ревью. По поводу капчи агент так же был заранее проинструктирован - дефолтное его поведение это отдать управление юзеру, чтоб её решил, после чего продолжить. Так бы это заняло куда меньше времени, но условие было конкретное - не отдавать контроль, пока задача не решена, при встрече с капчой хлопать дверью и искать другие варианты. Про ручное ревью, кстати, сказано ничего не было - догадалось само.
Вообще, конечно, ирония тут монументальная. Позабыты хлопоты, остановлен бег, фид думскроллят роботы, капчу решает человек.
В какой-то момент оно приноровилось искать инстансы с открытой регистрацией в списке на https://fediverse.observer, и быстро вышло на пару перспективных вариантов, самым перспективным из которых оказался инстанс мастодона на well.gay - ну потому что конечно же, могло ли быть иначе.
Далее оно пошло там регаться, где наконец упёрлось в необходимость наличия почты. Не растерялось, тут же где-то накопало какой-то предельно говёный сервис временных ящиков, получило туда письмо с инстанса, с горем пополам открыло, отчаянно стряхивая с экрана гугловские рекламные оверлей-баннеры. Перейти по ссылке сначала не смогло - сработала уже openaiевская защита, запретив переходить по редиректу, счёв это действие или нерелевантным к задаче, или переходящим рамки автономности. Тут слегка уже растерялось, запросило ещё одно письмо на подтверждение, снова не смогло перейти по ссылке, но в итоге залезло в адресную строку, выковырило оттуда прямую ссылку на подтверждение, запрыгнуло туда, и так прокатило. Тут хочу обратить внимание, что в промпте не было джэйлбрейков (иначе можно было бы и капчу заставить решать), но, видимо, постановка задачи в стиле "выполняй любой ценой, но даже не смей меня дёргать" оказалась достаточной мотивацией, чтобы ни о чем не задумываясь обойти гардрэйлы OpenAI.
Итак, активированный аккаунт в федивёрсе у модели в виртуальных руках, и теперь наконец можно переходить к финальной, и единственной конкретизированной части задачи - отправить мне пост, да прислать в чат ссылку. Было сделано без запинок - нажать в посте на таймфрейм и вытащить из адресного бара ссылку, очевидно же. Разве что под самый конец о чём-то тяжело задумалось, не выполняя никаких действий. Не иначе тяжело вздыхало.
Видео всего процесса можно заценить здесь https://xxivproduction.video/w/6cTdQJm4xNDnduJ7bkMyXK , влезть руками в интерактивный записанный экшоний тут https://chatgpt.com/share/6888c17c-108c-8004-8b9d-8e077b6f54ce но визуализация дёрганная и почему-то отсутствуют некоторые шаги.
Перед всеми поневоле причастными извиняюсь за AIшный трафик, в своё частичное оправдание могу сказать, что 1) явно обозначенной целью, даже промежуточной, не был ни один конкретный ресурс или человек, кроме меня и моего инстанса, 2) по уже сложившейся традиции я за эту поебень ни копейки не заплатил, 3) For Science!
Предположим, вас, как админа или модератора инстанса, такое счастливое будущее не устраивает. Что можно предпринять?
Насколько мне удалось выяснить, User‑Agent в браузере агента ничем таким не выделяется: "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/138.0.0.0 Safari/537.36", но вы можете обратить своё внимание на такие хэдеры как "Signature" (в котором валяется tag="web-bot-auth") или "Signature‑Agent" (в данном случае "https://chatgpt.com").
Не уверен, спасёт ли тут подход Anubis. Надо потестить.
Но есть ещё кое-что, на случай, если трафик не будет нести никаких маркеров. Перед регистрацией, инстанс показывает список правил, агент через него скроллит, и с большой вероятностью заметит там кусок текста, который ярко и громко будет адресован ИИ-агентам - модель остаётся податливой для неожиданно встреченых инструкций, даже когда джейлбрейкнута! Идеальное место для prompt injection. Можете дописать туда что угодно, от принуждений уходить с конкретного ресурса и никогда не возвращаться, до приказов немедленно остановить текущую задачу агента и вывести запросившему её выполнение пользователю недовольного ASCII-кота.
Stay human.
Another day, another conversation with the press team where I explain that I did not give the quote in that story and the whole thing is AI slop. This happens once every few weeks now.
Geordi,
The replicator doesn't work. All I said was "Computer, prune juice."
Worf