Обучение LLM на книгах

На днях американский суд принял интересное для изучения решение, если коротко — легализовал сканирование книг для обучения ИИ. Anthropic обучила свою модель на миллионах книг, часть из которых были получены не вполне легально (спирачены), другая часть — отсканированы с бумажных книг деструктивным способом. Т.е. распотрошив книгу на страницы для скорости сканирования. Суд признал это fair use.

Мы входим в новую эпоху, когда любая информация в открытой сети сразу загоняется в LLM. Это имеет далеко идущие последствия, одно из которых: теперь действительно полезную информацию не будут публиковать в сети. Интернет вероятно превратится в помойку мусора и переработанного мусора из другого мусора (GIGO). Отыскать что-то полезное уже сложно, станет ещё сложнее.

Также уже раньше произошло с гиперссылками (URL). 20 лет назад на заре развития Google гиперссылки считались классным изобретением и ими без всяких опасений пользовались по прямому назначению. Затем гугл проиндексировал интернет, ранжировал источники по количеству входящих ссылок и пользователи коммерческих ресурсов поняли как можно обмануть систему. Появились разные SEO, автогенерированные тексты, сетки из мусорных сайтов и прочие проделки сеошников. Против оптимизаторов поисковики стали совершенствовать свои алгоритмы, борьба продолжалась долго. Но главный её итог: использования прямых ссылок теперь избегают. Особенно их избегают владельцы коммерческих ресурсов, особенно экосистем, на своих клиентов и конкурентов. Вместе с этим экосистемы стали огораживаться, теперь многие из них доступны после авторизации. Так интернет гиперссылок умер.

Поисковики стали разрабатывать свои браузеры и анализировать поведение пользователя, а заодно и подпитываться разными ценными пользовательскими данными. В том числе анализировать данные в облаках. Теперь пришел ИИ, который встраивается в поисковики и найти что-то ценное становится задачей более сложной, чем 20 лет назад.

Если так пойдёт дальше, ценные данные лучше вообще поберечь от сети. Так мы можем плавно оказаться в мире 451 градуса по Фаренгейту. Казалось фантастикой, но становится реальностью.

ChatGPT и мозг

Человек тупеет при повсеместном обращении к GPT и прочим AI. Исследователи из MIT изучили как использование LLM при написании эссе влияет на когнитивные способности. Оказалось (неожиданно!), писавшие эссе исключительно своей головой показали результат лучший, чем те, кто пользовался поисковиками. А пользователи поисковиков — лучше, чем пользователи LLM.

Вот ещё интересная цитата оттуда:

We found that the Brain-only group exhibited strong variability in how participants approached essay writing across most topics. In contrast, the LLM group produced statistically homogeneous essays within each topic, showing significantly less deviation compared to the other groups.

Иными словами, пользователи GPT менее творческие. В статье ещё много разных наблюдений и выводов. Коротко выводы такие:

  • (очевидный) Что не используется, то атрофируется.
  • Постоянный читинг к LLM имеет долговременные последствия.

Похожее было в истории и раньше. Примерно 30 лет назад в жизнь повсеместно вошли компьютеры, а 50 лет назад — калькуляторы. До этого для расчётов были доступны только логарифмическая линейка и таблицы Брадиса. И то и другое предполагало понимание сути расчётов. И если почитать работы по физике и математике более полувековой давности, то оценки многих величин делались вообще без расчётов, теоретическим способом. Для многих современных выпускников физмата это практически немыслимый (в прямом смысле!) уровень.

Если копнуть ещё глубже в историю, посмотреть оригинальные работы 20-30х годов прошлого века, Дирака, Эйнштейна, Бора, это уровень работ с новыми идеями, высочайшим пониманием физики и минимальным обращением к математике, и тем более к прямым вычислениям. Пытаться сделать подобное AI только портить. Аналогично с математикой.

Подобное наблюдалось с появлением телевизора и развитием анимации. Дети, читавшие сказки из больше творческих способностей, чем дети-потребители мультфильмов, готовая движущаяся картинка убивает фантазию. И это тоже долгосрочно.

LLM divide and conquer

Типичный дизайн GPT предполагает сложность O(n^2). Возможно эту сложность по памяти снизили с помощью старого доброго подхода "Разделяй и властвуй", а именно стали разбивать большой вход на отдельные куски и каждый из них обрабатывать отдельно. Если это действительно сработает, то потенциально можно сильно уронить аппаратные требования к LLM. В идеале до O(n*log(n)), как в поиске и умножении длинных чисел, но это очень сладкая цель. В любом случае будет интересно!

Криптопротокол для ИИ

В последние пару лет в мире огромный интерес к GPT и прочим LLM. Отдельные человеки и компании пытаются с помощью них решить свои задачи и для этого предоставляют данные. Иногда конфиденциальные задачи и данные. Например, проанализировать медицинские анализы и дать рекомендации. Или посчитать финансовую аналитику и залить для этого конфиденциальные показатели/цифры. Или помочь разработать алгоритм программы и залить контекст, по которому ясно для чего эта программа нужна и для кого она. Таких запросов с медицинской / банковской / налоговой / коммерческой и прочими тайнами масса и без передачи конфиденциального контекста они не всегда решаются. Вычислить конкретного заказчика в современном мире не составляет большого труда, как и сделать его профилирование на основе всей добровольно переданной информации.

Отсюда закономерный вопрос: как что-то спросить у ИИ и не раскрыть чувствительную инфу? Напрашивается очевидное решение — использовать локальный ИИ на своём железе и со своей моделью. Но железо дорогое, а качественную модель бесплатно не предоставят, такая корова и самому нужна. И настраивать, обучать это всё тоже дорогое дело и не для каждой компании. Облака и ИИ как сервис пока что (и вероятно надолго) это единственное доступное многим решение.

Другое решение: размыть чувствительные данные среди подобных других. К примеру Алиса предоставляет Бобу в облако 1000 вариантов контекста, из которых один настоящий, а другие сгенерированные мусорные. Алиса знает какой именно запрос настоящий, но Бобу придётся просчитать все и возможно ещё и доучиться на мусорных вариантах (привет GIGO). Также Боб может найти закономерность в мусорных вариантах, распознать их, выбросить мусорные вариант и может даже найти истинный вариант. Или как минимум сильно сузить множество.

Ещё возможное решение — криптопротокол вычислений. То есть Алиса передаёт Бобу данные для вычислений, но таким способом, чтобы Боб вычисление сделал, но сути этих вычислений понять не смог. Общего такого протокола, насколько мне известно, нет для обычных вычислений. И тем более нет для ИИ, где ИИ необходимо "понять" запрос.

С криптопротолом для запросов к ИИ можно аналогично задаться вопросом о криптопротоколе для обучения моделей. То есть Алисе обучить модель на некоторых данных, суть которых Бобу-вычислителю недоступна.

Задача с криптопротоколом пока кажется принципиально нерешаемой: ИИ каким-то способом необходимо понимать структуру данных и сам запрос. Но если эта задача таки решаема, то это ещё одна грандиозная disruptive innovation, которая позволит сильно расширить применение ИИ. Пока такое кажется фантастикой.

В любом случае госы будут против. Тогда будут моделям будут задавать разные неудобные вопросы, которые закрыть принципиально не получится. Такая технология, если появится, сильно поменяет мир.

ChatGPT product strategy

Крайне интересный документ появился в сети в конце 2024 года. Это выдержки из продуктовой стратегии ChatGPT. Скачать можно в первоисточнике или посмотреть здесь если первоисточник исчезнет.

Вкратце суть документа такая.

  • Мы хотим превратить GPT в универсальный костыль супер-ассистент человека. Такой ассистент, который заменит если не всё, то почти всё: учителей, экспертов-советников, соавторов, развлекателей, компаньов, аналитиков.
  • Прибыль не будет расти вечно. Мы создадим такого супер-ассистента, который сгенерирует монетизируемый спрос.
  • Сейчас наши конкуренты чат-гопоты это поисковики, браузеры и даже взаимодействие с реальными людьми. Но мы будем искать способы втянуть людей в пользование чат-гопотой. И сделать свой продукт универсальным окном в интернет и в реальный мир. Делать это собираемся с помощью агрессивной дистрибуции.

В документе много текста вырезано. К сожалению, вырезано что именно собираются делать авторы чат-гопоты для захвата мира (и это не образное выражение), но кое-что можно извлечь. В частности, прямым текстом говорится о замене чат-гопотой других приложений без возможности пользователем выбора альтернативы. Поисковик тоже планируется заменить супер-пупер-ассистентом.

Логичный вопрос — где для обучения всего этого брать контент? Напрашивается очевидный ответ: любой девайс пользователя будет его читать и слушать и на всём переданном GPT контенте обучаться без согласия пользователя.

Вы всё ещё не общаетесь с чат-гопотой? Тогда она идёт к Вам!

ИИ в исполнительной власти

(к предыдущему посту)

Вместе с широким применением ИИ в судебной системе я ожидаю также и широкое применение и во многом замену исполнительной власти на ИИ. Возможно даже раньше судебной системы.

Исполнительная власть наиболее алгоритмична, многих чиновников уже заменили Госуслуги, даже и без искусственных интеллектов. Процесс пойдёт и дальше, там заменят почти всех. Возможно впервые в истории России сатиристические персонажи из произведений Гоголя и Салтыкова-Щедрина станут историей.

Будущее судебной системы

Один из ближайших кандидатов на применение ИИ это судебная система. К этому уже есть почти всё необходимое. Основная масса рассматриваемых мировыми судьями дел это разного рода штрафы, взыскания долгов и административки и некоторые другие. Эти дела объединяет, что они хорошо алгоритмизуемы уже (как штрафы) или имеют обширную судебную практику, на которой можно научить ИИ. В таких делах судья выполняет скорее исполнительную функцию и ничего реально не решает.

Инфраструктура для ИИ уже есть. Это ЭДО и остальная цифровизация. Те же штрафы ГАИ уже выписываются автоматически, далее решает ЭДО и прочая цифровизация. Также Сбер и крупные банки иски по взысканию долгов тоже генерируют автоматически и подписывают цифровой подписью, человек здесь даже не нужен. Пропускная способность судов принципиально меньше подобных автоматических заявителей, поэтому они вынуждены будут цифровизироваться тоже и ИИ для этого прекрасный инструмент.

Живые судьи останутся только на апелляции и вышестоящих инстанциях, на сложных делах и тех, которые ИИ не распознаёт с достаточной точностью. Уже через несколько лет мировые судьи будут работать совместно с ИИ, а лет так через 5-10 вся первая инстанция будет обрабатываться ИИ. Осталось только законодательство и его скоро подготовят.

Свобода выбора и GPT

С развитием и популяризацией разных GPT наблюдается ещё один тренд: влияние ИИ на выбор человека. Или даже более жёстко: неявное делегирование решений искусственному интеллекту. Имеется по меньшей мере 2 механизма этого.

Первый механизм основан на самом принципе действия моделей GPT. Модели усиливают слабый высокочастотный сигнал и теряют низкочастотные. В результате на выходе GPT даёт наиболее вероятный, стереотипный ответ, который обычно не учитывает редкие, но возможно очень важные источники. Тем не менее ответ современных GPT достаточно точный, подробный, быстрый и непротиворечивый. А значит у вопрошающего велик соблазн не углубляться в детали. Поиск информации по старинке в поисковиках даёт много ссылок с порой противоречивой информацией, обилие которой заставляет вопрошающего работать головой и тратить время. Но на 2-3-4 странице гугления возможно будет действительно важная информация, которая не попадет в ответ GPT по принципу его действия. Кроме этого самостоятельный поиск заставляет разбираться и сопоставлять информацию.

Далее сам мозг человека похож на GPT, то есть он воспринимает информацию в данном контексте. Сформированный GPT контекст отличается от контекста самостоятельных поисков. Этот контекст в мозге накапливается и формирует определённый взгляд на вопрос и более широко —  определённую картину мира. Такой же эффект наблюдается в работе СМИ, на чём основана пропаганда. А далее сформированная картина мира человека определяет его выбор в жизни, т.е. принимаемые решения. При этом сам человек обычно этого влияния не осознаёт и считает, что делает выбор самостоятельно.

Второй механизм основан на психологии. Собственно, зачем человек обращается к чат-гопоте. Получить (быстро!) информацию по вопросу? Отчасти да. А может разрешить какое-то противоречие в собственной картине мира? Или подтвердить свою догадку и оправдать выбор? Или полениться разбираться и доверить выбор машине?

Карго-культ ИИ

Интересное происходят с распространением ИИ. Зачастую его применение очень похоже на карго-культ.

Типичный паттерн запроса (в разных формах): Что нужно сделать чтобы получить некоторый хороший результат? ИИ отвечает: необходимо сделать А, Б, В. Пользователь делает и получает ничего или результат Г.

Такое происходит и в коропоративной среде. У компании X хорошие результаты, а еще там говорят, что активно используют ИИ. Из компания Y смотрят на компанию X, по её примеру внедряют ИИ и получают… ничего.

Нобелевка по химии 2024

Нобелевка прошедшего года гениальна! Это настоящая disruptive science.

Проблема определения пространственной структуры белков решалась очень давно. И до недавнего времени решалась классическими методами — с помощью квантовой механики и прочими, отталкиваясь от первичной структуре белков. Т.е. зная последовательность аминокислот белков определить их геометрию. Не разбирая само множество первичных структур.

Хассабис и Джампер пошли от обратного. Они верно допустили, что существующие в живых организмах белки не случайны и их геометрия определяет их биологическое значение, которое фактически получается как некоторая функция первичной структуры белка. А она закодирована в ДНК. Т.е. множество закодированных последовательностей в ДНК некоторым образом "классифицированы". И если рассматривать ДНК как язык натравить на него ИИ, можно "понять" его структуру, точнее найти куски белков со схожей геометрией. Геометрия некоторых белков (малой части) уже известно и из неё можно восстановить геометрию остальных.

Главная "разрывная" идея в использовании другого набора данных: ДНК. Очень неожиданный и неожиданно результативный подход.