Обучение LLM на книгах

На днях американский суд принял интересное для изучения решение, если коротко — легализовал сканирование книг для обучения ИИ. Anthropic обучила свою модель на миллионах книг, часть из которых были получены не вполне легально (спирачены), другая часть — отсканированы с бумажных книг деструктивным способом. Т.е. распотрошив книгу на страницы для скорости сканирования. Суд признал это fair use.

Мы входим в новую эпоху, когда любая информация в открытой сети сразу загоняется в LLM. Это имеет далеко идущие последствия, одно из которых: теперь действительно полезную информацию не будут публиковать в сети. Интернет вероятно превратится в помойку мусора и переработанного мусора из другого мусора (GIGO). Отыскать что-то полезное уже сложно, станет ещё сложнее.

Также уже раньше произошло с гиперссылками (URL). 20 лет назад на заре развития Google гиперссылки считались классным изобретением и ими без всяких опасений пользовались по прямому назначению. Затем гугл проиндексировал интернет, ранжировал источники по количеству входящих ссылок и пользователи коммерческих ресурсов поняли как можно обмануть систему. Появились разные SEO, автогенерированные тексты, сетки из мусорных сайтов и прочие проделки сеошников. Против оптимизаторов поисковики стали совершенствовать свои алгоритмы, борьба продолжалась долго. Но главный её итог: использования прямых ссылок теперь избегают. Особенно их избегают владельцы коммерческих ресурсов, особенно экосистем, на своих клиентов и конкурентов. Вместе с этим экосистемы стали огораживаться, теперь многие из них доступны после авторизации. Так интернет гиперссылок умер.

Поисковики стали разрабатывать свои браузеры и анализировать поведение пользователя, а заодно и подпитываться разными ценными пользовательскими данными. В том числе анализировать данные в облаках. Теперь пришел ИИ, который встраивается в поисковики и найти что-то ценное становится задачей более сложной, чем 20 лет назад.

Если так пойдёт дальше, ценные данные лучше вообще поберечь от сети. Так мы можем плавно оказаться в мире 451 градуса по Фаренгейту. Казалось фантастикой, но становится реальностью.

Деловая среда меняется

Заметил, что последние 3 года сильно поменяли деловую среду. Кто бы что не говорил про "перегрев экономики", эта самая экономика находится в дефиците.

15 лет назад чтобы преуспеть не нужно было быть самым лучшим. Достаточно было быть не хуже большинства. Даже в доковидные времена в целом можно было работать "не хуже большинства". Как в старом анекдоте про двух геологов и медведя:

Два геолога идут по тайге. Внезапно из-за деревьев появляется медведь. Один геолог разворачивается и спешным шагом уходит. Второй кричит ему вслед:
— Бесполезно, ты не сможешь убежать от медведя, он бегает быстрее человека.

Он ему в ответ:
— А мне и не надо бежать быстрее медведя. Мне всего лишь надо быть быстрее тебя!

Это оборонительная стратегия, стратегия игры проигравших. Она хорошо работала почти 30 лет новой России. Сейчас этого уже недостаточно.

Крупный бизнес съедает малый. Где-то рынок переполняется и быстрых уже очень много. У кого-то маржа падает до критически низких значений и бизнес погибает. А тут ещё маркетплейсы, цифровизация, искусственный интеллект…

Чтобы выжить приходится находить нестандартные решения, идти на высокий риск, резать внутренние расходы и бюрократию, открывать новые рынки. Не все на такое пойдут. Многие компании погибнут, и крупные тоже.

blog vs telegram vs соцсети

В последние годы произошла революция в плане средств общения. Много пользователей перешло в телеграм из других платформ. Туда же перетекли различные СМИ, новостные ленты, блогеры, разного рода аналитики и прочие.

Параллельно происходит изменение способа интернет-покупок из сайтов и интернет-магазинов в приложения на смартфонах. Интернет-магазины без приложения уже не в моде и теряют аудиторию, маркет-плейсы её пожирают.

Старый добрый web погибает. Раньше реклама была "сайт три дабл-Ю что-то там", сейчас это скорее tg-канал или приложение. Соцсети туда же.

Вместе с этим меняется и пространство доступной информации. Сама система URL, на анализе которых были построены поисковики вроде гугла/яндекса уходит в историю. А крупные агрегаторы информации, тот же телеграм, соцсети и маркетплейсы обладают огромным массивом информации, на котором учат LLM и профилируют пользователей пользователей. Соцсети, мессенджеры и маркетплейсы знают типичного пользователя лучше спецслужб и, владея такой информацией, потенциально имеют больше власти, чем спецслужбы государств. И да, все данные, которые там принадлежат соответствующим платформам, они продают и сами данные, и основанные на них продукты. На подходе цифровой надзор и контроль.

Старые добрые технологии индексирования и поиски (на чем взлетел гугл) и свободный доступ к информации уже в прошлом.

Может лучше старый добрый web?

К природе технологических революций

Интересное исследование от Маккинзи о производительности экономики и как эта производительность распределяется и растёт. Несколько неочевидных моментов:

  • Рост производительности отдельных компаний приводит к росту экономики
  • Небольшое количество компаний вносит основной вклад в рост производительности. В США 5% компаний это 80% прироста производительности.
  • Производительность растёт в результате новых путей создавать/масштабировать ценность

Наиболее важная мысль: Создавать новый продукт, новые рынки, новые технологии. А не повышать эффективность старых.

Полное исследование в pdf, нашим "импортозаместителям" на заметку.

Эволюция интернетов

Последние годы происходит активное изменение канала получение информации пользователем интернета. Всё меньше текстовых источников, особенно "лонгридов", и даже меньше графики и всё больше видео и аудио.

В 90-е годы интернет был дорогой и медленный. Полезная информация была преимущественно в текстовом виде и графике низкого качества и маленького размера. Тогда же возник ЖЖ и множество тематических форумов на самые разные темы. Начало нулевых это золотое время форумов и вообще текстового формата, того же ЖЖ. Их развитие сильно подогрели поисковики: гуглы и яндексы, которые проиндексировали всё это сравнительно небольшое многообразие текстов.

Потом появились соцсети, сначала фб, а затем и российский аналог вк. Молодежь стала достаточно быстро перетекать в соцсети, вместе с этим изменился и преимущественный формат данных. Картиночки и короткие тексты заменили старые лонгриды и форумы, сами тексты стали ситуационными. Взлетел твиттер, квинтэссенция такого формата.

Примерно в то же время гугл купил ютуб, тогда ещё не очень популярный и не очень понятный стартап, интегрировал его в свою систему и он стал стремительно набирать популярность. Идёт время, наступают "десятые", и люди постепенно меняют старые кнопочные телефоны на смартфоны, модный флагман которых — айфон. Мобильный интернет за считанные годы становится кратно быстрее и доступнее, и позволяет уже не только передавать тексты, но и аудио/видео. Набирает популярность instagram, стремительно распространяются мессенджеры, VoIP и видеозвонки.

Наступает 2020, вместе с ним ковид, самоизоляция. Популярность набирает Zoom, уже в корпоративной среде и удалённая работа. Видеозвонки становятся мейнстримом. Видеоблоггеры и тиктокеры захватывают мир. Вместе с этим меняются и каналы рекламы. На улицах и транспорте всё больше "ушастых" людей, набирают популярность подкасты и звуковой способ подачи информации.

Что имеем сейчас? Произвольный некоммерческий запрос в гугл дает в результате youtube-роликов столько же или больше, чем на текстовые источники. ЖЖ фактически умер, как и многие старые текстовые форумы, тот же StackOverflow. Найти информацию в текстовом вебе сейчас парадоксально сложнее, чем 20 лет назад. Видеоформат (youtube) фактически заменил телевизор, телеграм-каналы заменили новостные веб-ленты.

Почему это важно? Формат подачи информации тесно связан с мышлением. Человек читающий сильно отличается от человека слушающего и человека тиктока/ютуба. А человек пишущий отличается от человека читающего.

Сейчас на подходе ИИ. Он постепенно заменяет поисковики, даёт быстрый и вполне точный ответ. И это тоже другой тип мышления.

Ах, да. С днём радио!

Halloween docs

Осенью далёкого теперь 1998 года из в сеть утекли так называемые Хеллоуинские документы. Это внутренняя аналитика Microsoft по вопросам конкуренции её продуктов с Linux и в целом с открытым программным обеспечением. Это крайне интересное чтиво, как в первоисточнике, так и с комментариями Эрика Раймонда. Кто интересуется внедрением ИТ-систем, интеграцией и даже разработкой ПО полезно хотя бы ознакомиться с этой историей. И точное необходимо кто развивает ИТ-бизнес или метит в фаундеры, а также любому бизнесу, завязанному ключевым образом на ИТ.

А история следующая. В 90-е годы Майкрософт вполне себе хорошо жил на рынке серверных операционных систем. Даже больше: MS вместе с Интелом (=wintel) были такими же столпами индустрии в корпоративном ИТ, как сейчас Nvidia с OpenAI в искусственном интеллекте. Unix в разных вариантах использовался, но имел огромные сложности как коммерческий продукт, а Linux был вообще уделом маргиналов и прочих гиков. Основной софт писался под Windows и основное внимание "денег" было направленно в wintel.

В хеллоуинских документах Linux и OSS уже признается как серьезная угроза бизнесу MS. Открытые протоколы, эффективная архитектура ОС, работа с сетью, расширяемость, масштабируемость и многое другое в линуксах было сделано изначально лучше. Например, такая выдержка:

Linux Operating System

The Next Java VM?

The Linux OS is the highest visibility product of the Open Source Software (OSS) process. Linux represents a best-of-breed UNIX, that is trusted in mission critical applications, and — due to it’s open source code — has a long term credibility which exceeds many other competitive OS’s.

Linux poses a significant near-term revenue threat to Windows NT Server in the commodity file, print and network services businesses. Linux’s emphasis on serving the hacker and UNIX community alleviates the near-medium term potential for damage to the Windows client desktop.

In the worst case, Linux provides a mechanism for server OEMs to provide integrated, task-specific products and completely bypassing Microsoft revenues in this space.

Через 15 лет Java-программисты действительно "захватят" мир. И Linux действительно станет платформой для многих программных решений. Кроме жавы, станут очень популярными разные питоны, руби и прочие, которые, конечно же, в серверном варианте тоже работают на линуксах. Многое из хеллоуинских доков реализовалось и произошло это по фундаментальным причинам и архитектурным преимуществам линуксов. Майкрософт практически потерял рынок серверных ОС и во многом интернета.

Архитектура критически повлияла и на развитие смартфонов, о чём в доках ни слова, тогда об этом "не мечтали". Apple свои айфоны делала под iOS, который потомок BSD. Google выбрал в качестве платформы Linux и получился Android. Обе компании сделали свои экосистемы на этих решениях. Майкрософт пыталась сделать свою ОС под смартфоны и она не получила развития, даже покупка Нокии не помогла.

С позиции более чем 25-летней давности произошедшее уже далёкая история. Но так и произошло! Главный вывод: Архитектура на долгосроке определяет развитие.

Инфраструктура и образование

Развитие экономики страны критично зависит от доступа инфраструктуре. Недорогая электроэнергия, доступ к пресной воде, качественное топливо и газ, цена недвижимости и земли определяют будет реальный бизнес рентабельным или нет. Неявно к инфраструктуре относится также транспортная доступность, ясность и прозранчность законов и возможность защиты прав, стоимость труда, а косвенно стоимость проживания. Еще менее явно, но тоже — доступность людей к образованию

Америка начала и середины прошлого века выигрывала в этих показателях, поэтому и считалась до последних лет самой повёрнутой к предпринимательству страной. В конце прошлого века государство стало перекладывать на бизнес и людей расходы и производство в Америке стало не выгодным. Вернуть его туда сейчас очень сложная задача, политикам-популистам не справиться.

Россия нулевых годов тоже непродолжительное время стала меккой предпринимательства. Бандиты из 90-х уже присели, а инфраструктура была ещё недорогой и рынок ненасыщенным. Бизнес рос как на дрожжах, он прощал многие ошибки, фатальные для развитой экономики. Сейчас, к сожалению, инфраструктура дорожает, государство рассматривает людей как "новую нефть" и мы идём по пути Америки.

Показателен также пример Индии, Китая. Китай ещё 40 лет был на задворках мировой фабрикой и продавал дешевый труд. Но они вкладывались в образование, строили инфраструктуру. Сейчас по факту это первая экономика мира с высокомаржинальными продуктами, захватившими мир.

Индия ещё менее века назад была колонией и при этом в крупных городах там уже тогда серьёзно относились к образованию и оно было доступней(!), чем в Англии. Сейчас Индия имеет огромные перспективы развития. Большинство иностранных студентов в развитых странах на STEM-специальностях это Китай и Индия.

Сломанный "рынок" труда

Рынок труда в России сломался, в простом экономическом смысле: предложение не дотягивает до спроса. Средний человек всё чаще не желает работать за предлагаемое вознаграждение, а средняя компания не может предложить более высокую оплату.

Этот эффект очень сильно проявился в России в последние пару лет, только называют его почему-то "перегретым" рынком, а не сломанным. По факту сейчас в России 2 выраженных рынка. Первый: востребованных и высокооплачиваемых сотрудников, а также "старых денег". Второй: людей, которые работают по низкому рынку, кого ещё полвека назад гордо называли пролетариатом. А среднего класса осталось очень мало и он продолжает истощаться.

То же происходит и в "первом" мире, там процесс начался намного раньше и происходит медленно. За последние 30 лет реальная стоимость действительно ценных вещей и услуг (дом, образование, качественная медицина, хороший автомобиль) растёт, за это время оплата растёт только номинально и сильно не поспевает за ценными вещами.

К чему это приводит? Демография в условиях недоступного жилья снижается и будет снижаться дальше. Работают больше, в том числе и домохозяйки. Работают на несколько компаний сразу, сильно расширяется формат гибридной и удалённой работы. Возрастает доля разного рода фриланса и проектной работы, при этом превратить это в микробизнес становится значительно сложнее.

Меняется и подход компаний. Становится нормой удалёнки и гибрида и с их стороны. Действительно многим компаниям не нужен работник на полный рабочий день и им приходится не "закрывать вакансии", а искать способы менее затратно решать возникающие проблемы. Есть надежда на ИИ, но он скорее изменит формат занятости, но не сам дефицит ресурсов.

Как исправить дефицит: снижать расходы государственного бюджета, снижать регулирование и распускать бюрократию. Как когда-то 45 лет назад делал старик Рейган. И существенно снижать уровень жизни бумеров. Пойдут ли на это демократии? Определённо нет, потребуются очень непопулярные среди стариков-избирателей реформы.

Преимущество электромобиля

В чём главное преимущество электромобиля? Экология? Нет. Его система управления.

Система трансмиссии полностью электрическая, а значит можно избавиться от коробки передач. Кроме этого, колёсами можно управлять отдельно, а значит не нужно никаких раздаток, дифференциалов и их блокировок. Всё это вместе облегчает электромобиль на сотни килограмм и при этом ещё повышает управляемость. А управляется всё электроникой с достаточно сложным софтом. Именно по этой причине электричка была невозможна 100 лет назад и возможна теперь.

Аналогичное произошло ранее с железнодорожной тягой. Были паровозы, стали строить железные дороги. Далее Рудольф Дизель разработал двигатель и у него была мечта перевести ж/д-тягу на дизель, которую он не успел осуществить. Паровой двигатель развивает мощность с нулевых оборотов, а дизель работает минимум от 1500 rpm. В автомобиле это решается с помощью трансмиссии с коробкой передач, а для ж/д-аналога вся трансмиссия будет слишком массивной. Решение нашли в переходе на электрическую трансмиссию: тепловоз по сути это дизель-генератор и электродвигатели с достаточно простой системой управления. Потом перешли на полностью электрическую тягу, что позволило сцеплять несколько электровозов (опять система управления!) и тягать намного более тяжёлые составы.

Теперь стали доступны компактные компьютеры с хорошим ПО, что позволяет избавиться от механической трансмиссии в автомобиле. И заодно повышает управляемость и дает возможность сделать качественный автопилот.

Экология? Батарейки — их производство весьма грязное, утилизация тоже. Электронные компоненты тоже грязные. В целом на весь цикл использования электромобиля не экологичнее бензиновых и дизеля. И энергия "в розетку" поступает в большой степени с тепловых электростанций с углеродных следом.

Безопасность? Электрички прекрасно горят и взрываются, зачастую в самый неподходящий момент.

Отказоустойчивость? Сомнительно, это хорошее решение для крупных городов с умеренным климатом. Вдали от цивилизации с экстремальными температурами электричка это дорогая и опасная игрушка.

Самым живучий транспорт сейчас это вероятно гибридный мобиль: с маломощным и лёгким ДВС и небольшой батареей (наверное не литиевой) для компенсации низкой мощности ДВС. Без массивных литиевых батарей и без сказок про "экологию".

Взлет и падение проекта FreeBSD

В далёких нулевых годах, когда я только начинал работать с серверными системами, мейнстримом было использование FreeBSD. Более половины серверов под *nix в то время было FreeBSD и другмими BSD. Линукс в качестве серверной системы тогда встречался редко и на него смотрели с опаской. Даже на десктопах линукс считался выбором гиков. Адепты BSD считали только её варианты настощим unix и достойной серверной системой и на "пингвинятников" часто смотрели с большим презрением.

Всё изменилось в последующие годы — доля BSD на серверах уже в 2010-е неуклонно падала и сейчас её почти и не осталось, а если встретишь, то под разные специфичные/legacy задачи. Молодое поколение не всегда и знает об это операционке, для них это архаика сродни MS DOS или OS/2.

Почему так получилось, что хорошая ОС уступила лидерство?

Одна из ключивых причин отказа от этой операционной системы — система распространения софта в ней, она же система портов. По задумке проекта FreeBSD весь софт поставляется в исходниках, который необходимо собирать на каждой машине. Процесс установки происходит как скачивание необходимых портов, настройка make-конфигов для сборки, компиляция пакетов со всеми зависимостями и потом уже донастройка конфигурации установленного софта. Да, там уже была неплохо работающая система зависимостей, подтягивающая все нужные пакеты. Но компиляция на каждой машине занимала много времени: десятки минут, можно было её запускать и идти пить чай в прямом смысле. И так на каждой машине.

Даже потеря времени на компиляции не главное. Основной недостаток такого подхода — практическое отсутствие воспроизводимости системы. Скачиваемые исходники меняются и поставленная сегодня система с софтом могла отличаться от такой же, поставленной несколько дней назад. Также компиляция могла учитывать особенности железа и скомпилированные бинарники софта могли отличаться на разных машинах даже при установке в одно время. Компиляцией под конкретное железо очень гордились сторонники FreeBSD, мол это выигрывало несколько процентов в производительности. И это "преимущество" автоматически закладывало возможность возникновения трудноуловимых багов на разном железе и вообще отстутствие гарантии, что скомпилированное здесь можно перенести на другую машину.

Отдельной историей был buildworld и buildkernel, т.е. обновление самого самого "мира" и ядра. "Пересборка мира" занимала огромное количество времени и в результате можно было получить нерабочую систему. Или рабочую систему, в которой что-то не работает из прикладного софта и требует "доработки напильником", причём это не всегда можно было определить сразу после пересборки, иногда проблема всплывала потом. Поскольку результат такого обновления в общем случаем не предсказуем, было разумно из RAID-зеркала (если такая возможность была) вынуть один из дисков в качестве бэкапа, обновиться и вернуть в случае успеха.

И так на каждом сервере! Если в небольших проектах такое можно было делать относительно безболезненно, то на больших проектах или high-availability процесс обновления представлял собой уже нетривиальную задачу. А если серверов не несколько штук, а хотя бы десятки — поддержка превращалалась в проблему.

Линуксы с их пакетными менеджерами и уже скомпилированными и протестированными(!) ядром, библиотеками и софтом имели огромное преимущество, их обновление происходило предсказуемо, а саму систему со всем софтом и окружением можно было несложно воспроизвести из пакетов.

Только по этой причине многие компании отказались от freebsd в пользу систем с более предсказуемой поддержкой. Та же участь постигла и линуксы без пакетных менеджеров, вроде того же gentoo.

Вывод: воспроизводимость и предсказуемость системы имеют ключевое значение, какой бы хорошей система ни была в других аспектах. Если этих качеств нет, поддержка системы через некоторое время становится сложной или вообще невозможной.

Казалось бы, история могла многому нас научить. Но и сейчас можно встретить много коммерческих и открытых решений, которые повторяют старые паттерны и их ошибки. Где-то даже такие паттерны преподносятся как благо.