Вы, наверное, помните старые кнопочные телефоны, на которых текст набирался при помощи цифровых клавиш. Такие телефоны пытались угадывать, какое слово вы собираетесь набрать, иногда получалось смешно. Эта система называлась T9 (текст на девяти клавишах или автозамена).
Так вот, я вам скажу, что это был зародыш ChatGPT. ChatGPT делает то же самое: вы даёте ему текст (текст своего вопроса), и он угадывает, какое первое слово будет в ответе. Потом он подставляет в конец это слово и угадывает второе слово, и так далее. Получается ответ.
Однако, скажите вы, если ChatGPT - это всего лишь угадыватель слов, то как же у него получается связанные ответы?
А как вы угадываете ответ? Вы же это можете!
"Шла Саша по шоссе и сосала…" - Все знают, какое слово надо подставить в это предложение.
Откуда вы это знаете? Вы когда-то слышали эту скороговорку. И у вас есть предварительные знания.
Это был простой пример. Вот сложнее: "Давай пойдем пить кофе в…". Какое слово будет следующим?
Уже не всё так однозначно. Это может быть "кафе", "ресторан", а может быть "ко мне домой".
Чтобы подобрать здесь правильный ответ, нужно знать, куда вообще теоретически можно ходить пить кофе, и какой из этих вариантов в данном случае подойдёт лучше всего. Для этого надо проанализировать большое количество уже существующих текстов. Этот процесс называется машинным обучением, а системы, которые так учатся, называются языковыми моделями.
GPT - это одна из таких языковых моделей, и T9 тоже, только очень простая. Разница в размере систем и количестве текстов, на которых их тренировали.
Та модель, которая работает в ChatGPT, была натренирована на объеме данных 420 ГБ. Много это или мало? 500 ГБ - это объем диска типичного ноутбука сейчас. Казалось бы, немного. Но если учесть, что это тексты, то объем получается гигантский - 300 миллионов печатных страниц.
И каков результат? Количество перешло в качество!
Система может отвечать на вопросы, генерировать тексты, проверять грамотность, переводить с любого языка на любой. Система настолько мощная, что при генерации ответа на ваш конкретный вопрос учитывает все тексты, которые только возможно учесть. Не только сам вопрос, но и ваши предыдущие вопросы и все тексты, на которых она училась.
Да, тот факт, что система прочитала Шекспира, влияет на то, как она ответит на вопрос "Сколько будет 5 раз по 200?"
(ChatGPT ответил 1000, хотя всем понятно что правильный ответ "литр")
Значит ли это, что такие системы знают все и что они всегда дают правильный ответ? Нет, конечно, они дают один из наиболее вероятных ответов, не факт, что правильный.
Если мы потребуем, чтобы система выдавала только правильные ответы, она не сможет отвечать вообще. Ожидать от таких систем точных ответов на вопросы бессмысленно да и не надо.
В ChatGPT изначально заложена способность давать разные ответы на один и тот же вопрос. Если вопрос простой, то это будет просто несколько чуть-чуть разных ответов:
Я: Сколько будет дважды два?
ChatGPT: Дважды два равняется четырём.
Я: Сколько будет дважды два?
ChatGPT: Дважды два равно четырём.
Есть, как видите, маленькая разница.
А что, если мы попросим создать что-то, чего раньше не было, и правильного ответа не существует? Например, написать сказку. Вот тогда бот начинает придумывать совершенно разные варианты. Мы это называем творчеством.
Именно этим мы занимаемся на этом сайте: заставляем бота писать сказки.
Сказочная тематика выбрана специально, чтобы у читателей не возникало желания спорить с системой и говорить, что это не возможно.
В сказках все возможно!