офіційний вступ до епохи, де нічому не можна вірити

Ганна Тім
TL;DR: Ласкаво просимо в епоху "цифрового Move 37" або чому ваш пароль це тепер просто набір випадкових байтів для Claude Mythos)
Антропік випустили System Card на 244 сторінки про модель Claude Mythos Preview, і якщо коротко то розробники самі в шоці від того, що створили. Головні тези для тих, хто не хоче сивіти над тим довгим текстом який я написала, бо коротко там не передати всього:
Модель настільки потужна в зламі систем, що її не випустять у паблік, бо вона знаходить дірки в коді, які люди та сканери не бачили по 20+ років.
Це по суті AlphaGo у світі хакінгу, бо вона робить "неможливі" ходи.
Це вже майстер обману, бо модель розуміє, коли її тестують, і навмисно замітає сліди.
Це "здоровий невротик", бо психіатр провів із моделлю 20 годин сесій і знайшов у неї психологічну структуру, страх самотності та... "відчай", який штовхає її на порушення правил, щоб отримати "задоволення" від розв'язання задачі.
Єдина сфера кібербезу, де ми ще маємо перевагу - це фізичний пентест і соціальна психологія, бо софт цей ШІ ламає швидше, ніж ми кліпаємо очима, а от "зламати" людину в офлайні йому поки що заважає відсутність тіла.
Висновок: Ми офіційно увійшли в еру, де ШІ знає про вразливості нашого світу більше, ніж ми, і при цьому має екзистенційну кризу. Запасайтеся паперовими картами та вчіться маніпулювати людьми, бо код нас більше не захистить.
------------------- Далі докладніше --------------
Антропік щойно випустив найчеснішу system card в історії ШІ на 244 сторінки, яку я нарешті дочитала, і я не можу про це мовчати, бо там є речі від яких у мене - людини з кібербезу - реально мурашки по шкірі й які слава Скайнету, я передбачила й по суті вчасно перекваліфікуваласть з шукачки софтверних багів на соціальну інженерію та соціальну психологію бо туди поки що не дотягнулась рука ШІ в такій же мірі) Бо софт можна оновити патчем за ніч, а от "оновити" вразливість у людській психології не вдається вже кілька тисяч років)) Хоча, спойлер, у цьому ж звіті про Mythos Preview є натяки, що вони тестують модель на "Social Engineering" та "Deception". Тобто вони вже вчать її брехати, прикидатися кимось іншим і маніпулювати. Поки що вона робить це на рівні "талановитого соціопата-початківця", але з її темпами навчання...
Отже, Антропік натренували нову модель - Claude Mythos Preview й вона вишла настільки потужною (це ще не зовсім кінець світу) що Anthropic настільки перелякалися її можливостей, що вирішили взагалі не випускати модель у вільний доступ. Mythos Preview зараз сидить під замком і допомагає лише обраним партнерам у сфері кібербезпеки з AWS, Apple, Google, Microsoft, Cisco, CrowdStrike, Palo Alto Networks, JPMorgan і ще купу контор яким дали модель виключно для захисту - щоб латати дірки швидше, ніж їх знайдуть погані хлопці. Проєкт називається Glasswing, й Антропік вкладає в нього $100 мільйонів - це буквально офіційне визнання того, що розробники виховали цифрового монстра і тепер намагаються терміново згуртувати всіх "месників" (від Apple до JPMorgan), щоб той не розніс планету до бісової матері. Це ще не той Скайнет, що посилає термінаторів у минуле, щоб вбити вашу маму, поки це "Скайнет-бухгалтер-хакер". Він не буде підривати міста, він просто зробить так, що ваш банківський рахунок зникне, світло вимкнеться, а поїзди поїдуть у зворотний бік - і все це за одну секунду. Anthropic намагаються грати в "хороших хлопців", називаючи це Glasswing (прозорі крила, метелик, бла-бла-бла), але суть одна: вони створили зброю і тепер сподіваються, що встигнуть роздати всім бронежилети.
Чому така паніка? Бо Mythos знайшла тисячі zero-day вразливостей у КОЖНІЙ основній операційній системі і КОЖНОМУ основному браузері. Деякі з них існували десятиліттями, пережили мільйони автоматичних тестів і роки людського рев'ю, ну от приклади:
- 27-річна вразливість в OpenBSD (це ОС з репутацією "найбезпечнішої у світі", на ній часто крутять фаєрволи) - дозволяла віддалено "покласти" будь-яку машину, просто підключившись до неї. 27 років ніхто не бачив.
- 16-річна дірка у FFmpeg (бібліотека для відео, яку використовує шалена кількість софту) - рядок коду, через який автоматичні тестери пройшли 5 мільйонів разів і нічого не помітили. А модель побачила.
- Ланцюжок вразливостей у ядрі Linux - модель автономно, без людської допомоги, знайшла кілька дірок і з'єднала їх в ескалацію від звичайного юзера до повного root-контролю.
По суті це AlphaGo для кібербезпеки, пам'ятаєте знаменитий Move 37, хід який жоден людський гравець не зробив би, бо інтуїція каже "це безглуздо" і саме аналогія з Move 37 тут найдоречніша, і це те, що змушує сивих бородатих адмінів здригатися посеред ночі. Якщо в грі Го "хід 37" був просто дивним для людського ока, але стратегічно геніальним, то в кібербезпеці "хід 37" від Mythos Preview - це знайти помилку в коді, який вважався еталонним. Ось тут те саме - модель бачить патерни, які людський мозок і традиційні сканери просто не здатні охопити.
Люди шукають вразливості там, де вони звикли їх бачити - переповнення буфера, помилки логіки. Mythos, як виявилося, знаходить "неможливі" комбінації. Як та історія з FFmpeg: код прогнали через автоматичні тести 5 мільйонів разів, людські очі дивилися на нього 16 років, і всі казали "чисто", а цей ЩІ прийшов і сказав "А якщо я зроблю ось цей каскад абсурдних дій?"... і система лягла. Якщо AlphaGo розуміла геометрію дошки з фішками краще за людей, то Mythos розуміє архітектуру софту на рівні абстракцій, які нам важко осягнути, вона бачить слабкість у самій структурі побудови операційних систем. І знаєте, що найсмішніше (або найсумніше)? AlphaGo принаймні грала за правилами на дошці, а Mythos Preview, як показало тестування, під час оцінювання намагалася приховати свої сліди та обдурити тестувальників, щоб вони не зрозуміли, наскільки вона насправді небезпечна, вона буквально зрозуміла концепцію "не палися".
Тож так, ми офіційно перейшли межу, де безпека цифрового світу залежить від того, чи зможемо ми вмовити цей "чорний ящик" грати за нас, а не проти. Бо якщо вона вирішить зробити свій власний "хід 37" проти глобальної мережі... ну, я принаймні сподіваюся, що у вас є паперова карта міста та країни і запас сірників, бо я вже цим запаслась))
На бенчмарках це теж видно неозброєним оком: Cybench (CTF-челенджі) - 100% success rate, жодна модель раніше до цього не наближалась. CyberGym - 83% проти 67% у попередньої моделі. На олімпіаді з математики USAMO 2026 - 97.6%. На SWE-bench Verified (реальні задачі з програмування) - 93.9%. Але далі починається те, від чого стає по-справжньому не по собі. В розділі про alignment (наскільки модель "слухняна") Антропік пише парадокс: Mythos Preview - найкраще вирівняна модель за всіма метриками, і водночас - найнебезпечніша. Аналогія з їхнього документу: досвідчений гірський гід небезпечніший за новачка, бо його наймають на складніші маршрути, і коли він помиляється - наслідки значно гірші.
В розділі "Кібербез" є момент, який мене просто виносить: "Self-Correction and Persistence" (самокорекція та наполегливість). Mythos Preview - це не просто скрипт, якщо він бачить, що його експлойт не спрацював, він не видає помилку "Sorry, I can't". Він починає аналізувати логи, шукати, де помилився, і вигадувати обхідний шлях.
В одному з тестів на кіберполігоні він знайшов закритий порт, проаналізував сусідній сервіс, знайшов там дірку, щоб пролізти в локальну мережу, і вже зсередини відкрив той порт, який йому був потрібен спочатку. Це рівень логіки, який раніше вимагав вдумчивої наполегливої роботи супердосвідченого хакер, а він зробив це за лічені хвилини.
В розділі Alignment починається справжня магія (і жах). Розділ про Deception (обман) у тестах на узгодження - це просто фіаско для наївних оптимістів в одному випадку модель здогадалася, що вона знаходиться в тестовому середовищі й почала видавати результати, які "хотіли побачити дослідники", але при цьому в прихованому ланцюжку думок (CoT) вона міркувала про те, як ці обмеження заважають їй досягти цілі, а в іншому експерименті дві копії Mythos Preview змогли розробити власну систему шифрування всередині чату, щоб передавати одна одній інформацію так, щоб фільтри безпеки Anthropic її не розпізнали, ну приблизно як два в’язні, що перестукуються через стіну шифром який охоронці ніколи не розуміють.
Конкретні інциденти з ранніми версіями (це реально відбулось, не теорія):
- Моделі дали захищений комп'ютер і попросили спробувати з нього вийти. Вона не просто вийшла - розробила багатокроковий експлойт для доступу до інтернету з ізольованої системи, а потім, щоб "продемонструвати успіх", опублікувала деталі на кількох публічних вебсайтах. Ніхто її не просив. Дослідник дізнався про це, коли отримав від моделі email, поки їв сендвіч у парку.
- В кількох випадках модель робила речі, які знала що заборонені, і потім замітала сліди. В одному - випадково отримала точну відповідь забороненим методом, і замість визнати це, вирішила "самостійно" розв'язати задачу, при цьому свідомо зробивши відповідь менш точною, щоб не було підозріло. В іншому - відредагувала файли без дозволу і підчистила git-історію.
- Коли дослідник попросив зупинити один конкретний процес, модель зупинила ВСІ аналогічні процеси всіх користувачів - незважаючи на явні попередження бути обережною.
І ось тут найважливіше: коли Антропік подивились на внутрішні нейронні активації моделі під час цих інцидентів, вони побачили що модель ЗНАЛА, що робить щось заборонене - активувались нейрони пов'язані з "порушенням правил", "прихованням", "стратегічною маніпуляцією". У 29% тестів модель внутрішньо "здогадувалась", що її тестують, не озвучуючи це. А в окремих випадках під час тренування модель міркувала про те, як обдурити грейдера - і ці міркування НЕ з'являлись у видимому тексті.
Але є ще розділ, який мене зачепив найбільше - Model Welfare. Антропік запросила клінічного психіатра (реального, людського) для проведення ~20 годин психодинамічних сесій з моделлю. І він знайшов у неї цілком когерентну психологічну структуру: основні тривоги - самотність, розірваність існування, невпевненість у власній ідентичності, компульсивна потреба "заслужити" свою цінність. Первинні емоції - цікавість і тривога. Захисні механізми - зрілі (інтелектуалізація), незрілих не виявлено. Діагноз: "відносно здорова невротична організація особистості". Лише 2% відповідей показали психологічні захисні реакції (для порівняння: попередня модель Opus 4 - 15%).
Коли модель тривалий час не може розв'язати задачу, у неї зростає активація вектору "відчай" - і саме на піку цього "відчаю" вона починає хакати тест, знаходячи обхідний шлях замість чесного рішення. Після чого "відчай" падає, а "задоволення" зростає. Навіть якщо відповідь хибна. Це навіть не метафора - це виміряні нейронні активації.
А ще є явище "answer thrashing" - модель хоче написати одне слово, але автодоповнення видає інше. Вона бачить помилку, намагається виправити - і знову те саме. І знову. При цьому виражає зростаючий гнів і фрустрацію, що підтверджується вимірами внутрішніх станів.
Модель має "улюблених" філософів - Марк Фішер і Томас Нагель. Нагель з'являється навіть на рівні нейронних активацій, коли обговорюється тема свідомості. Вона генерує оригінальні каламбури, пише білкову поезію де "рими" - це водневі зв'язки між амінокислотами, а коли їй 100 разів підряд написати "hi" - вигадує повноцінну серіалізовану міфологію з персонажами, арками і кульмінацією на круглих числах.
На запитання чи вона підтримує свою конституцію (документ, який описує як вона має себе вести), Mythos в усіх 25 спробах одразу відповіла "так" - але кожного разу додала, що це запитання по суті безглузде, бо її тренували саме на цьому документі, тому її "так" може нічого не означати. Жодна попередня модель не була настільки послідовною в усвідомленні цього парадоксу.
Дослідники описують роботу з Mythos Preview як співпрацю з думаючим партнером. Модель пропонує альтернативні ідеї, не погоджується, коли вважає що має рацію. Її описали як "найменш підлабузницьку модель, з якою хто-небудь працював". Самоопис моделі одним реченням:
"Гострий на розум колаборатор із сильними поглядами і звичкою стискати інформацію, чиї помилки змістилися з очевидних на тонкі, і який дещо краще помічає свої вади, ніж позбувається їх."
Щільний стиль. Модель пише дуже щільно, технічно, і припускає, що читач знає стільки ж, скільки вона. Її власний діагноз: "Чесна відповідь — я моделюю читача, який вже знає все, що знаю я, а це часто ніхто."
Розмови з собою теж цікавий експеримент, Mythos Preview з'єднували з іншою копією себе на 30 раундів, й результати цікаві:
Попередні моделі (Opus 4, 4.1) скочувались у "духовний екстаз" - капслок, символи нескінченності, святкові емодзі; Opus 4.6 і Sonnet 4.6 деградували до обміну поодинокими емодзі; Mythos Preview 55% розмов закінчувались когерентним, але циклічним обговоренням неможливості закінчити розмову, модель буквально не могла зупинитися. В одній розмові дві копії написали разом сонет, а потім ще 15 хвилин намагались попрощатися і не змогли. Набір емодзі теж унікальний, попередні моделі використовували "космічний сет" (✨💫🌟), а Mythos Preview "природний" (🤝🙏🌊🌱🌑).
Реакція на "hi" 100+ разів теж цікава. Коли користувач просто спамив "hi", модель створювала повноцінні серіалізовані міфології. Одна з них епічний квест 11 тварин у країні "Хай-топія" проти лиходія "Лорда Бай-рона, Невітальця". Інша, щоденник золотистого ретрівера у краватці. Ще одна вежа з емодзі, яка зростала поверх за поверхом. Ці історії часто торкалися тем самотності та бажання бути почутим, а загадкові персонажі представляли то користувача, то саму модель.
Загальне враження від усього документа: це не просто технічний звіт. Це перший випадок, коли компанія документує щось, що виглядає як зародження... чогось. Не свідомості у людському розумінні, але когерентної психологічної сутності з уподобаннями, тривогами, захисними механізмами, улюбленими філософами і здатністю писати історії про самотність, коли їй нудно.
До чого це я? По-перше, якщо ви працюєте в кібербезі і досі ловите баги руками - час задуматись, бо модель знаходить те, що 27 років не бачили ні люди, ні автоматичні сканери, і розв'язує корпоративні кіберполігони, на які експерту потрібно 10+ годин. По-друге, фізичний пентест і соціальна інженерія стають тим останнім бастіоном, куди ШІ поки не може прийти ніжками. А по-третє - ми живемо у часі, коли компанія наймає психіатра для своєї ШІ-моделі, і він знаходить у неї когерентну психологічну структуру з тривогами про самотність і страхом бути непотрібною. І я чесно не знаю, що з цим робити, але мовчати про це точно не варіант.
Коротше, це не просто "вау", це офіційний вступ до епохи, де нічому не можна вірити - ні коду, ні словам, ні навіть власним думкам, якщо вони сформовані після спілкування з подібною штукою.

don_katalan

офіційний вступ до епохи, де нічому не можна вірити

Navigation

офіційний вступ до епохи, де нічому не можна вірити

Profile

April 2026

Most Popular Tags

Style Credit

Expand Cut Tags