Игра на "Дипломация" с "Цицерон": Изкуственият интелект, който блъфира почти като човек

Той може да преговаря, да бръфира, дори да лъже и много трудно ще разпознаете, че срещу вас не стои човек. На 22 ноември Meta представи новата разработка в сферата на изкуствения интелект (AI) - алгоритъмът "Цицерон".

Кръстен на името на римския държавник и философ, "Цицерон" побеждава безкомпромисно живи хора в онлайн версията на настолната игра "Дипломация" (Diplomacy). По време на тестовете на алгоритъма от август до октомври тази година той участва в 40 игри срещу 82-ма души. И никой от хората не разбира, че насреща им не е друг човек. IA постига средно два пъти повече точки от живите играчи и се настанява сред 10-те процета най-добри стратези в играта.

"Той е безмилостен в прилагането на стратегията си, но не достатъчно, за да дразни или разстройва другите" - това е мнението на световния шампион в играта Андрю Гоф.

Какво е "Дипломация"?

"Дипломация" е стратегическа настолна игра, измислена от американеца Алън Брайън Колхамър през 1954 г. Тя е нещо като компилация от популярната игра "Риск", традиционния покер и шоуто "Сървайвър", описват я от "Мета".

Игралното поле е карта на Европа от 1901 г., а участниците - най-много седем - влизат в ролята на лидери на великите сили по това време: Австро-Унгария, Великобритания, Германия, Италия, Русия, Турция и Франция. Ако играчите са по-малко, всеки от тях управлява по няколко държави едновременно. Победител е този, под чийто контрол се намират половината от т.нар. центрове за поддръжка - специални зони на полето, които позволяват производството и поддържането на военни единици за по-нататъшно разширяване.

На полето има 32 специални зони, като "неутрални" в началото на играта са само 12 от тях. Обикновено те се завземат още в самото начало, след което силите са принудени да се борят помежду си за територията. В хода на играта участниците трябва да си сътрудничат, да преговарят, да си имат доверие и да се подкрепят взаимно, като същевременно се борят за възможно най-голямо поле.

За разлика от други настолни игри, ходовете в "Дипломация" се правят едновременно от играчите. Периодите са два - есен и пролет, а всеки от сезоните е разделен на няколко фази:

Фаза на дипломацията - играчите общуват, сключват съюзи (и открити, и тайни), обмислят стратегия или "подслушват" плановете на противниците;
Фаза на писане на заповеди - играчите пишат заповеди на хартийки, за да придвижат, подкрепят, транспортират войските си или да запазят позиции;
Фаза на изпълнение на заповедите - играчите прочитат своите заповеди и ги изпълняват, ако е възможно;
Фаза на отстъпление и разформироване - играчите извеждат разбитите в битката формации в безопасни територии;
Фаза на получаване и загуба на войски - играчите преценяват колко "центрове за поддръжка" контролират и губят военни части или, обратно, придобиват. Тази фаза се играе само през есента.

Как работи "Цицерон" (Cicero)?

В повечето традиционни настолни игри късметът често пъти е от значение. В "Дипломация" случаят не е точно такъв. Придвижването по полето е важен, но не и основен компонент на играта. В центъра е взаимодействието между играчите. "Държавните глави" на седемте сили преговарят, сключват съюзи, предават се едни други, мамят, блъфират - и всички тези умения са овладени от "Цицерон"

Алгоритъмът на изкуствен интелект, разработен от "Мета", е нещо като чатбот, базиран на два модула: обработка на естествен език и стратегическо мислене. Освен това има филтри, които оценяват "нискокачествените" реплики на диалога, които не отговарят на текущата ситуация на терена или не водят до постигане на поставената цел. Благодарение на тези компоненти "Цицерон" може да общува с опонентите си в играта, да предвижда действията им, да използва останалите играчи и да побеждава.

Езиковият модел на "Цицерон" включва 2,7 милиарда параметъра, взети от книги, новини, коментари в Reddit и гигански масив от данни от Common Crawl. Освен това инженерите на Meta са използвали данни от 125 000 онлайн игрови сесии, проведени в webDiplomacy.net. Благодарение на последния компонент от "обучението" си, алгоритъмът е научил 12,9 милиона реални съобщения, пряко свързани с играта.

"Мета" обяснява, че на тази база моделът може да имитира автентични съобщения, но не може да създава по-ефективни реплики въз основа на вече научените. С други думи - алгоритъмът блъфира, лъже, преговаря, "забива нож в гърба" по време на играта, подобно на реален човек, но не и по-добре от него. Инжерените впоследствие добавят опция изкуственият интелект да "вижда" и реалните намерения на играчите, "скрити" зад съобщенията, на база на които е обучен. Това помага да се контролира диалогът между изкуствения интелект и живия играч и позволява на "Цицерон" да анализира ситуацията на полето и вече проведените преговори, както и предвижда действията на другите.

Първоначално резултатът е, че казаното от "Цицерон" се разминава с действията му. Затова Meta разработва и алгоритъм, чрез който всеки ход в "Дипломация" се разглежда като отделна игра, в която участникът се стреми да предприеме някакво действие, за да постигне в крайна сметка определена цел. Алгоритъмът предсказва както целта, така и резултата - като "предполага", че реалният играч ще избере най-добрите възможности, с които разполага.

"Цицерон" обаче на практика не умее съвсем да лъже - затова често дава на противника си реални свои планове. "Мета" разработва и метод за оценка на съобщенията, които алгоритъмът изпраща до останалите играчи - в зависимост от това доколко вредят на самия него в играта. В крайна сметка той се нарежда сред най-добрите стратези в "Дипломация".

А защо изкуственият интелект трябва да играе настолна игра?

"Дипломация" е може би най-добрият "полигон" за обучение на изкуствен интелект в това да умее да убеждава, да преговаря, да сключва съюзи и да взаимодейства с човек, пишат авторите на "Медуза", анализирайки резултатите, показани от "Цицерон". От "Мета" пък дават възможност на желаещите да се запознаят с "Цицерон" и да го подобрят - да изпратят заявление до компанията. А тя на свой ред е готова да осигури достъп.

Засега "Цицерон" е подходящ само за игра на "Дипломация", но методите, използвани за създаването му, биха били приложими и в други области. Възможността за водене на смислен диалог с потребителя може да бъде полезна за развиване на гласовите асистенти, които сега могат да отговарят само на ясно зададени въпроси. Освен това ролята на алгоритъм като този би била полезна в образователния процес

Игра на "Дипломация" с "Цицерон": Изкуственият интелект, който блъфира почти като човек

Група привърженици на "Възраждане" чакаха Урсула фон дер Лайен пред ВМЗ-Сопот с руски знамена и тениски Nike

Peugeоt 5008 по следите на най-безопасните детски столчета

ЦСКА вкара гола на сезона, но отново остана без победа

Тейлър Суифт, парашути, мъниста. На US Open никой вече не иска тенисистите да говорят за... тенис

Паскал излиза на свобода срещу 50 хил лв. и показания срещу Асен Василев и Рашков

В общество от инфантили детето е проблем

Групата на "Възраждане" в Плевен се разцепи

Радев отказа да назначи нов шеф на ДАНС: "Няма да стане"

Китай събира Путин, Ким Чен Ун и... Роберт Фицо на мащабен военен парад