don_katalan: (Default)
[personal profile] don_katalan
Вячеслав Ільченко
Чесно кажучи, коли я планував статтю про класифікатор, який є "серцем" будь-якого сучасного штучного інтелекта - то думав розписати це на прикладі генеруючих картинки систем, того ж самого Midjourney. Знову ж таки, ілюстративний матеріал у мене накопичений.
Але ось, The Economist буквально пару днів тому надрукував новину про те, що штучний інтелект компанії Google DeepMind "винайшов" близько 2,2 млн. нових кристалів. Тому сьогодні ми поговоримо про цю новину, про кристалографію, штучний інтелект і класифікатор.
Кристали мене цікавлять практично все життя, навіть довше, ніж комп'ютери.
Коли я іще був школярем, то постійно вигадував різні приключки, щоб потрапити на екскурсію до краєзнавчого музею. Там я найбільше зависав в двох відділеннях - історичному та мінералогічному. Мене надзвичайно захопили кристали - особливо ті, які виступали із шматків породи, ніби насіння якихось чудернацьких кристалічних рослин. Одного разу я запитав екскурсовода - а скільки всього існує кристалів в світі? Мені відповіли: чотири тисячі різних природніх кристалів.
Я не повірив, бо цифра була прямо-таки астрономічна. Того вечора я прийшов додому, зняв з полиці перший том Українського Енциклопедичного Словника (видання 1986 р.), дістав чистий зошит в клітинку - і висолопивши язика, почав акуратно виписувати з нього все, що хоча б нагадувало визначення кристалу. Батьки, либонь, були в повному шоці - сидить дитина, записує в зошит короткі довідки про кристали і щось мимрить про кристалічну решітку, сингонію (це класифікація груп кристалів за типом симетрії - їх існує цілих 230 - це лише групи кристалів, підкреслюю) та хімічні формули.
Якщо вам цікаво, я збився десь на третьому зошиті і чотирьохсотому номері, при цьому закінчивши лише перший том. Цього вистачило, щоб упевнитись - мені назвали може й трохи завищену, але правдоподібну цифру. В світі дійсно є тисячі різних природніх кристалів.
Уже в політехнічному (це межа тисячоліття, двадцять років тому) я, перебираючи старі записи, знайшов ці зошити і вирішив перевірити ще раз, користуючись науковими джерелами. Нова цифра мене приголомшила ще більше: в світі існує близько 500 тис. кристалів.
Зараз кількість відкритих кристалів сягнула мільйона (прописом - один млн. кристалів відкрито, описано і занесено в картотеки), причому щороку відкривається 50 тис. нових кристалічних структур. І це, швидше за все, лише верхівка верхівки айсберга - тому що йдеться лише про кристали, які є стабільними протягом достатньо довгого проміжку часу, аби їх можна було описати і дослідити. Якщо включити і нестабільні, цифра може сягнути і мільярда.
Тому з одного боку - "відкриття", зроблене штучним інтелектом, не таке вже й відкриття. 2,2 мільйони - це всього тільки вдвічі більше, ніж встигли описати науковці по сьогодні, і значно менше, ніж могло б бути.
За оцінкою Лондонського Імперського Коледжа, якщо просто підрахувати можливу кількість комбінацій відомих хімічних елементів у відомі кристалічні структури - вийде порядка 32 трлн. кристалів. Прописом: тридцять два трильйони видів кристалів. Це консервативна оцінка, її наводить і сам The Economist.
Тепер давайте трохи поліземо в деталі "механізма відкриття".
Перш за все, правильно уявіть собі основу сучасного штучного інтелекта (точніше, нейромережі - бо ШІ бувають різні) - класифікаційний нейрон.
Класифікаційний нейрон представляє собою матрицю коефіцієнтів, які описують важливість значень, які поступають на його вхід. Якщо сума або суперпозиція цих коефіцієнтів вища за певне "еталонне" значення, нейрон генерує висновок. Він може бути як в класичній бінарній формі (так - ні), а може бути в формі вірогідності чи навіть запиту на додаткові дані - це залежить від того, наскільки складним є "начиння" нейрона.
Головна особливість класифікаційного нейрона в тому, що він здатен "учитись". Грубо кажучи, він має додатковий зворотній параметр, який дозволяє коригувати коефіцієнти важливості вхідних значень. Як правило, цей параметр контролюється або експертом-людиною, або запитом в певну "еталонну базу даних", які містить набір уже підтверджених експертами висновків.
Процес "тренування" аналогічний до проведення тестування учня - на входи подаються умови задач, відповіді на які уже відомі, і перевіряється результат. Якщо він неправильний, відбувається коригування матриці важливості, і цикл повторюється. Існують різноманітні стратегії такої корекції, які складають окрему дисципліну "глибинного навчання".
Навчання вважається завершеним, якщо хоча б на дві третини задач нейромережа буде давати чітку і правильну відповідь (а краще - більше, але для цього необхідні більш різноманітні задачі і більший обсяг еталонних висновків).
Отже, компанія Google DeepMind створила нейросистему Graph Networks for Materials Exploration (GNOME), яка складається із двох класифікаційних нейромасивів - один із них мав оцінювати структурну стабільність, другий - хімічну стабільність матеріалу. Після цього вони розпочали "тренування" класифікатора, використовуючи три наступні бази даних:
- Inorganic Crystal Structure Database (ICSD). Це найстарша в світі база даних, яка містить інформацію про неорганічні кристалічні сполуки. Її почали збирати в Карлсруе ще в 1913 р., у табличній формі. Вона містить точну інформацію про 20 тис. кристалів;
- The Open Quantum Materials Database (OQMD). Ця база даних містить інформацію про кристалічну структуру порядка 1 млн. сполук, підтримується Північно-Західним Університетом в Чикаго;
- Спеціальний датасет, підготовлений в Гарвардському університеті в 2021 р. для передбачення стабільності кристалічної структури матеріалів. В наукових публікаціях він відомий як "WBM dataset" - по іменам учених, які його створили - Хай-Чен Вонг, Сільвана Ботті та Мігель Маркіз.
В сумі це дало 48 тисяч еталонних висновків, на базі яких і була натренована нейромережа. В підсумку GNOME оцінили як здатний дати правильні відповіді на практично всі тестові задачі.
Після цього штучному інтелекту просто дали обробити всі відомі на сьогодні комбінації із трьох, чотирьох, п'яти і шести хімічних елементів. Щоб ви просто розуміли - кристали, чия кристалічна гратка складається із шести різних елементів, вважаються надзвичайно рідкісними. Переважна більшість кристалів містить три-чотири елементи, з яких один-два основні, а решта - домішки.
Результатом і стали ось ці 2,2 млн. кристалів, які є потенційно стабільними принаймні для лабораторних досліджень. Із них 381 тис. кристалів може бути створена прямщас, на базі існуючих лабораторних потужностей. Із цих трьохсот тисяч порядка 1% (тобто, 3,2 тис. формул) - кристали, які складаються із шести різних елементів.
В Університеті Берклі уже провели експериментальну перевірку - там вибрали із "стабільних" результатів наугад 58 формул і успішно синтезували 41 кристал протягом двох тижнів. Тобто, по факту GNOME здатен давати правильні відповіді в 70% задач як мінімум.
За попередніми оцінками науковців, як мінімум пару тисяч із цих кристалів можуть накопичувати великий електричний заряд (що дуже важливо - адже літієвим батарейкам зараз практично нема альтернативи), і пару тисяч - потенційні надпровідники (так що наступного літа, або навіть уже навесні нас очікує чергова серія "гарячого надпровідника року").
Само собою, як я уже казав - це просто верхівка верхівки айсберга. Роботи попереду іще дуже і дуже багато, тому що кожну формулу необхідно не лише синтезувати, а й дослідити властивості нового кристалу. Але, принаймні, штучний інтелект звільнив науковців від величезного обсягу чорнової роботи.
Бонус:
... "гарячий надпровідник літа 2023 року" LK-99 досі знаходиться в "підвішеному стані" - жодне його дослідження не дало чітких результатів ...
... про класифікатор картинок ми іще окремо поговоримо, там складніша і цікавіша модель навчання ...
... про "проект Q-Star", який нещодавно наробив галасу в новинах - мовляв, розробники ChatGPT зробили прорив, який дозволяє нейромережі узагальнювати і робити висновки на рівні людини - ми теж окремо поговоримо ...
Хоч це все і моя "професійна" тематика, але складність її така висока, що на статті необхідно багато часу - тому, що я стараюсь пояснити все максимально простою українською мовою, зрозумілою читачеві. Якщо хочете, щоб було швидше - скажіть, чи було вам цікаво, зрозуміло і чи хочете ви ще такого.

Profile

don_katalan: (Default)
don_katalan

June 2025

S M T W T F S
1 2 3 4 5 6 7
8 9 1011121314
15161718192021
22232425262728
2930     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 10th, 2025 08:49 pm
Powered by Dreamwidth Studios