Протягом понад десяти років науковець із дослідження складних систем Пітер Турчин та його колеги працювали над створенням унікальної бази даних людської історії – Глобального історичного банку даних Seshat. Нещодавно Турчин разом із комп’ютерною науковицею Марією дель Ріо-Чанона зосередили свою увагу на чат-ботах зі штучним інтелектом (ШІ), досліджуючи, чи можуть ці передові моделі допомогти історикам і археологам інтерпретувати минуле.
Дослідження, яке є першим у своєму роді, оцінює знання з історії провідних моделей ШІ, таких як ChatGPT-4, Llama і Gemini. Результати, представлені на конференції NeurIPS, демонструють як потенціал, так і значні обмеження ШІ у здатності осягати історичні знання, особливо на рівні експертного аналізу.
Обмежена історична компетенція ШІ
«Великі мовні моделі (LLM), такі як ChatGPT, досягли значного успіху у певних галузях – наприклад, вони фактично замінили помічників юристів», – зазначив Турчин, який очолює дослідницьку групу з соціальної складності та колапсу в Complexity Science Hub (CSH). «Але коли справа доходить до оцінки характеристик минулих суспільств, особливо за межами Північної Америки та Західної Європи, їхні можливості є значно обмеженими».
Результати дослідження підкреслюють, що здібності ШІ є специфічними для окремих сфер. Хоча LLM досягають успіху у деяких застосуваннях, вони мають труднощі з аналізом на експертному рівні. GPT-4 Turbo, найкраща модель у дослідженні, досягла збалансованої точності лише 46% у тесті з вибором із чотирьох варіантів. Цей результат, хоча і перевершує випадкове вгадування (25%), свідчить про значні прогалини в розумінні ШІ глобальної історії.
«Я очікувала, що чат-боти зі штучним інтелектом покажуть кращий результат», – зазначила Марія дель Ріо-Чанона, відповідальна авторка дослідження та доцентка Університетського коледжу Лондона. «Історія часто сприймається як набір фактів, але іноді необхідна інтерпретація, щоб зрозуміти її».
Чи розуміє ШІ історію на експертному рівні?
У дослідженні використовували Глобальний історичний банк даних Seshat – всеосяжний ресурс, що документує дані про 600 суспільств по всьому світу, включно з понад 36,000 історичними даними та 2,700 науковими джерелами. Використовуючи Seshat як еталон, дослідники протестували LLM на питаннях, які вимагали знань на рівні випускників чи експертів.
«Ми хотіли створити еталон для оцінки здатності цих моделей працювати з експертними знаннями з історії», – пояснив перший автор Якоб Хаузер, науковий співробітник CSH.
«Ключовий компонент нашого еталона полягає в тому, що ми не лише перевіряємо, чи можуть моделі ідентифікувати правильні факти, але й прямо запитуємо, чи можна довести або вивести факт із непрямих доказів».
Регіональні та хронологічні диспропорції
Дослідження виявило, що результати ШІ значно відрізнялися залежно від часових періодів і географічних регіонів. Моделі LLM демонстрували вищу точність у питаннях, що стосувалися стародавньої історії, зокрема між 8000 р. до н.е. та 3000 р. до н.е., але відчували труднощі з більш сучасними подіями, особливо після 1500 р. н.е.
Географічно моделі OpenAI, як-от GPT-4, краще справлялися із завданнями щодо регіонів Латинської Америки та Карибів, тоді як моделі Llama показували кращі результати для Північної Америки. Однак обидві системи демонстрували слабкі результати для Субсахарської Африки, а Llama також показала слабші результати для Океанії. Ці диспропорції свідчать про можливі упередження у навчальних даних, які можуть надавати перевагу певним історичним наративам, нехтуючи іншими.
Відсутність глибини у моделях ШІ
Моделі LLM найкраще справлялися із завданнями, що стосувалися правових систем і соціальної складності, але значно відставали у питаннях, пов’язаних із дискримінацією та соціальною мобільністю.
«Головний висновок цього дослідження полягає в тому, що LLM, хоча й вражаючі, все ще не мають тієї глибини розуміння, яка необхідна для глибокого аналізу історії», – зазначила дель Ріо-Чанона. «Вони добре справляються з базовими фактами, але коли мова йде про складні, докторські рівні історичні дослідження, їм поки що не вистачає можливостей».
Серед протестованих моделей GPT-4 Turbo показала найкращий результат із точністю 46%, тоді як Llama-3.1-8B показала найгірший – 33.6%.
Розширення набору даних і зменшення упереджень
Дослідники планують усунути недоліки, виявлені в цьому дослідженні, шляхом розширення набору даних і вдосконалення еталона. Хаузер наголосив на планах інтегрувати більше даних із недостатньо представлених регіонів, особливо Глобального Півдня, і додати складніші історичні запитання.
«Ми також плануємо протестувати новіші моделі LLM, такі як o3, щоб перевірити, чи можуть вони усунути виявлені прогалини», – зазначив Хаузер.
Науковці вважають, що результати є цінними як для розробників ШІ, так і для істориків та археологів. Для академіків розуміння обмежень ШІ може допомогти правильно використовувати його у дослідженнях, тоді як для розробників дослідження підкреслює напрями для вдосконалення, зокрема усунення регіональних упереджень і підвищення здатності моделей працювати з нюансованими історичними даними.
Вдосконалення розуміння історії ШІ
Дослідження висвітлює як потенціал, так і поточні обмеження ШІ у дослідженні історії. Хоча моделі LLM виявилися корисними для генерації базових історичних фактів, вони поки що не здатні ефективно інтерпретувати складні й багатовимірні історичні контексти. Для дослідників і розробників ці результати є дорожньою картою для вдосконалення ШІ в розумінні глобальної історії, прокладаючи шлях до створення інструментів, які краще підтримуватимуть науковий аналіз минулого.