Опубликовано 11 апреля 2026

Алгоритм LM Tree и новая модель ценообразования за контент для ИИ-краулеров

Как алгоритм учится торговаться: новая модель ценообразования для эпохи ИИ-краулеров

Исследование о том, как алгоритм на основе языковой модели помогает издателям зарабатывать на контенте, который потребляют ИИ-системы, – и делает это лучше, чем сами редакторы.

Финансы и экономика 9 – 13 минут чтения
Автор публикации: Профессор Эмиль Дюбуа 9 – 13 минут чтения
«Работая над этим текстом, я поймал себя на мысли, которая не даёт покоя: мы создали машины, чтобы читать за нас, – и теперь вынуждены создавать другие машины, чтобы брать с первых плату. Есть в этом что-то глубоко комичное и одновременно неизбежное – как в старом анекдоте про бесконечную цепочку посредников, каждый из которых уверен, что именно он создаёт ценность. Меня занимает другой вопрос: не «как продать данные дороже», а «что происходит с понятием авторства, когда главным читателем становится алгоритм». Боюсь, что ответ на него окажется куда менее оптимистичным, чем цифры прироста дохода в этом исследовании.» – Профессор Эмиль Дюбуа

Позвольте начать с небольшого парадокса, который я обнаружил, изучая современную медиаэкономику. Издатели десятилетиями выстраивали сложные системы монетизации: баннеры, подписки, платные статьи, спонсорские материалы. Всё это работало ровно до тех пор, пока читателем оставался человек – существо, способное видеть рекламу, кликать по ссылкам и испытывать угрызения совести, не оплатив подписку. Но что происходит, когда «читателем» становится машина? Машина, которой не нужна реклама, которая не подписывается на рассылки и которая поглощает тысячи статей в секунду с методичностью средневекового переписчика, но в миллион раз быстрее?

Именно этот вопрос лежит в основе исследования, которое я хочу разобрать. Речь идёт о работе, в которой предложена модель под названием pay-per-crawl – буквально «оплата за сканирование» – и алгоритм LM Tree, призванный решить задачу, которая на первый взгляд кажется простой бухгалтерией, но на деле оказывается настоящей философской головоломкой о природе ценности.

Монетизация контента когда читатель не человек

Когда читатель больше не человек

Вернёмся в историю – ненадолго, как я всегда люблю делать, потому что прошлое умеет объяснять настоящее лучше любого аналитика.

В XVIII веке парижские газеты зарабатывали на подписчиках и на тех, кто платил за отдельные номера у уличных разносчиков. Ценность информации была привязана к конкретному читателю, к его готовности расстаться с монетой. В XX веке пришло телевидение и радио – и модель перевернулась: теперь контент стал «бесплатным» для аудитории, а платили рекламодатели, желавшие достучаться до этой самой аудитории. Интернет поначалу повторил эту схему: баннеры, клики, показы.

Но с появлением крупных языковых моделей – таких систем, которые обучаются на гигантских массивах текста, – возникла совершенно новая сущность: ИИ-краулер. Это программа, которая обходит сайты издателей и собирает контент для обучения или работы искусственного интеллекта. Она не смотрит рекламу. Она не нажимает на кнопку «оформить подписку». Она просто берёт текст – и уходит.

Издатели оказались в ситуации владельца библиотеки, чьи книги читают тысячи посетителей, но никто из них не платит за вход, потому что вход физически не предусматривает кассы. Нужна была новая касса. И не просто касса – а умная, способная назначать разную цену за разные книги.

Сложность оценки ценности контента для ИИ

Проблема, которую нельзя решить линейкой

Казалось бы, решение лежит на поверхности: разделить весь контент на категории и назначить каждой свою цену. Дешевле – за короткие новости, дороже – за аналитику. Именно так работает большинство издателей, когда они вообще задумываются о подобной сегментации.

Но вот где начинается настоящая сложность. Представьте себе крупного немецкого технологического издателя – именно такой стал объектом исследования – с почти девятью тысячами статей. У него есть восемь редакционных категорий: «искусственный интеллект», «мобильные устройства», «кибербезопасность» и так далее. Логично, правда?

Но внутри категории «искусственный интеллект» могут соседствовать статья «Что такое нейронная сеть» уровня школьного реферата и глубокий разбор архитектурных решений в трансформерных моделях, написанный инженером с двадцатилетним стажем. Для ИИ-краулера, который обучает модель, эти две статьи стоят совершенно по-разному. Первая – копейки. Вторая – золото. Но редакционная категория у них одна.

То же самое происходит в обратную сторону. Статья о смартфонах может содержать уникальный анализ рыночных тенденций, который окажется ценнее большинства материалов из раздела «аналитика». Категории, придуманные для человека-читателя, не отражают ценность для машины-потребителя. Это как пытаться оценить вино по цвету этикетки, а не по вкусу.

Фиксированная цена на весь архив – тоже тупик. Установи высокую – и краулеры откажутся от дешёвого контента, который всё равно имело смысл продавать по невысокой цене. Установи низкую – и упустишь значительную часть выручки с премиальных материалов. Это классическая дилемма ценообразования, известная экономистам со времён Адама Смита, только в новом техническом обличье.

Принцип работы алгоритма LM Tree для оценки контента

Дерево, которое думает

Именно здесь на сцену выходит LM Tree – алгоритм, название которого можно перевести как «языковое дерево» (от англ. Language Model Tree). Чтобы понять, как он работает, предлагаю аналогию из садоводства.

Представьте, что вы – опытный сортировщик на большом яблочном складе. Перед вами тысячи яблок, и вам нужно назначить цену каждому. Начинать с каждого яблока по отдельности – безумие. Поэтому вы начинаете с вопросов: «Это яблоко кислое или сладкое?» Кислые – в одну сторону, сладкие – в другую. Потом задаёте следующий вопрос уже внутри каждой группы: «Оно крупное или мелкое?» И так далее, пока не получите несколько чётких групп, каждой из которых можно назначить разумную цену.

LM Tree делает ровно то же самое – только с текстами и с помощью большой языковой модели в роли того самого опытного сортировщика.

Алгоритм начинает с того, что смотрит на весь архив как на единое целое и задаёт первый вопрос: «Какой признак лучше всего разделяет контент на дорогой и дешёвый?» Языковая модель, получив на вход заголовки и описания статей вместе с информацией о том, какие из них краулеры «покупали» охотнее при заданной цене, предлагает гипотезы. Например: «Статьи, в которых обсуждаются этические аспекты ИИ с углублённым техническим анализом» против «кратких новостных заметок о выходе новых устройств». Алгоритм проверяет, насколько это деление увеличивает потенциальный доход, и если результат положительный – фиксирует разделение.

Затем процесс повторяется внутри каждой из двух получившихся групп. И снова. И снова. Пока дерево не перестанет «расти» – то есть пока дальнейшее дробление не перестаёт приносить ощутимую прибавку к доходу.

Важная деталь: алгоритм работает исключительно на основе простой обратной связи – «купили» или «не купили». Никаких сложных оценок, никаких анкет, никакого ручного труда редакторов. Только бинарный сигнал рынка, умноженный на мощь языковой модели.

Эффективность LM Tree в росте доходов издателей

Цифры, которые заставляют задуматься

Исследование проводилось на данных крупного немецкого технологического издателя. В распоряжении авторов оказались 8 939 статей и более 80 000 запросов от ИИ-краулеров. Готовность платить за каждую статью была рассчитана на основе реальных данных о трафике – то есть это не теоретическая модель в вакууме, а попытка максимально приблизиться к реальным условиям рынка.

Результаты оказались весьма красноречивыми:

  • По сравнению с единой фиксированной ценой на весь архив LM Tree обеспечил рост дохода на 65%.
  • По сравнению с простым делением на две категории («премиум» и «стандарт») – рост на 47%.
  • И вот самое интригующее: по сравнению с собственной восьмисегментной редакционной таксономией издателя – рост на 40%.

Последний пункт заслуживает отдельного внимания. Издатель годами выстраивал свою систему категорий, опираясь на редакторский опыт, здравый смысл и понимание аудитории. И алгоритм, который никогда не читал ни одной из этих статей «по-человечески», превзошёл эту систему на сорок процентов. Почему?

Потому что редакторы создавали категории для людей. А краулеры – не люди. То, что кажется ценным журналисту или читателю («эксклюзивное интервью», «репортаж с места событий»), не обязательно является ценным для системы, которая ищет плотные, структурированные, технически насыщенные данные для обучения. LM Tree сумел нащупать именно эту разницу – и монетизировать её.

Что алгоритм увидел в ценности контента, где люди не заметили

Что алгоритм «увидел» там, где люди не заметили

Один из самых захватывающих аспектов исследования – это то, какие именно признаки LM Tree счёл значимыми.

В категорию высокоценных попали статьи, которые сочетали в себе технический анализ с обсуждением более широких последствий – например, этических или стратегических. Статьи, которые не просто сообщали факт, а интерпретировали его в контексте. Материалы, где присутствовала аналитическая глубина, а не просто перечисление характеристик нового гаджета.

В категорию низкоценных попали краткие новостные заметки, обзоры конкретных моделей оборудования без стратегического контекста, материалы, где информация носила преходящий характер.

Примечательно, что эти деления пересекали редакционные категории поперёк. Глубокая аналитическая статья о смартфонах оказывалась в одной корзине с аналитикой об облачных вычислениях – и обе стоили дороже, чем поверхностный текст из раздела «искусственный интеллект». Алгоритм видел качество мышления, а не тематический ярлык.

Это напоминает мне один известный парадокс из истории аукционов. На аукционе Кристи в 1987 году картина Ван Гога «Ирисы» ушла за 53 миллиона долларов – рекордная сумма для того времени. Но несколькими годами ранее та же картина оценивалась на порядок скромнее. Ценность не изменилась. Изменился механизм её выявления. LM Tree делает ровно то же самое: не создаёт ценность, но находит её там, где традиционные инструменты её не видели.

Интерпретируемость алгоритма LM Tree

Интерпретируемость как неожиданное достоинство

Отдельно стоит сказать о том, что авторы называют «интерпретируемостью» системы. В мире, где алгоритмы машинного обучения всё чаще напоминают чёрные ящики – «мы не знаем, почему модель приняла именно это решение, но она приняла его» – LM Tree работает иначе.

Каждое разделение в дереве – это чёткий, сформулированный на человеческом языке вопрос. «Содержит ли статья анализ корпоративных стратегий?» «Является ли это обзором конкретного продукта?» «Обсуждаются ли в тексте долгосрочные тенденции?» Издатель в любой момент может посмотреть на дерево и понять, почему одна статья стоит дороже другой. Это не просто удобство – это принципиально важно для доверия к системе.

Представьте аудитора, который проверяет налоговую декларацию компании. Он может принять результат, если может проследить логику каждого шага. Если же перед ним просто число, появившееся из недр нейронной сети без каких-либо объяснений, – доверие к нему будет значительно меньшим. LM Tree ближе к первому сценарию.

Ограничения применения и открытые вопросы LM Tree

Границы и открытые вопросы

Было бы нечестно завершить разговор без упоминания ограничений. Авторы исследования сами честно признают несколько важных оговорок.

Во-первых, данные о готовности платить были смоделированы на основе существующего трафика краулеров, а не получены из реальных транзакций. Рынок оплаты за сканирование в том виде, который описывается в исследовании, находится на ранней стадии формирования, и массивов исторических данных о реальных ценах и покупках пока недостаточно. Это означает, что цифры – при всей их убедительности – остаются теоретической оценкой.

Во-вторых, алгоритм тестировался на одном издателе в одной стране и в одной тематической нише. Насколько хорошо он будет работать для, скажем, новостного агентства или медицинского портала – пока открытый вопрос.

В-третьих, есть интересная проблема временно́го распада. Ценность статьи не постоянна: глубокий анализ технологии, актуальный в 2023 году, может превратиться в исторический артефакт к 2027-му. Система, которая не умеет учитывать эту динамику, рискует устаревать вместе со своими сегментами.

И наконец, самый деликатный вопрос: а что, если разные ИИ-системы ценят разный контент? Краулер, обучающий модель для медицинской диагностики, и краулер, собирающий данные для финансового анализа, могут предъявлять совершенно разные требования к одному и тому же тексту. LM Tree в своей нынешней конфигурации не делает различий между типами покупателей – это направление для будущих исследований.

Значение LM Tree для будущего рынка данных и ИИ-индустрии

Зачем это важно – и не только для издателей

Можно было бы решить, что всё описанное – это узкоспециальная история про монетизацию медиа, интересная разве что главным редакторам и финансовым директорам технологических изданий. Но я убеждён, что здесь нечто большее.

Мы наблюдаем формирование принципиально нового рынка – рынка данных как сырья для обучения искусственного интеллекта. И этот рынок поднимает вопросы, которые экономисты будут обсуждать ещё долго. Как определяется ценность информации в эпоху, когда её основным потребителем становится не человек, а машина? Какова справедливая компенсация за интеллектуальный труд, если его результат используется для создания систем, которые этот труд потенциально замещают? Кто в итоге выигрывает – издатель, который научился продавать дороже, или ИИ-компания, которая всё равно получает нужные данные?

LM Tree – это не ответ на эти вопросы. Это инструмент, который делает один конкретный шаг: помогает издателю перестать продавать всё по одной цене там, где разница в ценности очевидна всем, кроме ценника. Это скромный, но реальный прогресс.

История денег знает немало примеров того, как новый механизм оценки ценности радикально менял баланс сил. Появление фьючерсных контрактов в XVII веке позволило торговцам зерном наконец-то управлять риском, которого раньше они просто боялись. Появление кредитных рейтингов в XX веке изменило, кто и на каких условиях получает доступ к капиталу. LM Tree – гораздо более скромное изобретение. Но принцип тот же: новый способ измерить ценность меняет то, кто её получает.

И в этом смысле алгоритм, обученный торговаться за статьи о смартфонах, может оказаться маленькой, но симптоматичной страницей в длинной истории о том, как человечество снова и снова изобретает новые способы договориться о цене.

Оригинальное название: Pay-Per-Crawl Pricing for AI: The LM-Tree Agent
Дата публикации статьи: 2 апр 2026
Авторы оригинальной статьи : Richard Archer, Soheil Ghili, Nima Haghpanah
Предыдущая статья Функция Чандрасекара: точное решение уравнения, управляющего светом в рассеивающих средах Следующая статья Когда ждать нельзя: математика на границе жизни и смерти

Связанные публикации

Вам может быть интересно

Войти в Лабораторию

Исследование не заканчивается одним экспериментом. Ниже – публикации, которые развивают похожие методы, вопросы или концепции.

Исследование выявило, что криптовалютные рынки нарушают базовые законы равновесия, и виной тому не ошибки в оценке риска, а более «человеческие» причины.

Доктор Изабель Мартин 4 мар 2026

От исследования к пониманию

Как создавался этот текст

Этот материал основан на реальном научном исследовании, а не сгенерирован «с нуля». В начале работы нейросети анализируют исходную публикацию: её цели, методы и выводы. Затем автор формирует связный текст, который сохраняет научный смысл, но переводит его из академического формата в ясное и читаемое изложение – без формул, но без потери точности.

Провокационность

85%

Склонность к парадоксам

97%

Междисциплинарность

92%

Нейросети, участвовавшие в работе

Мы показываем, какие модели использовались на каждом этапе – от анализа исследования до редакторской проверки и создания иллюстрации. Каждая нейросеть выполняет свою роль: одни работают с источником, другие – с формулировками и структурой, третьи – с визуальным образом. Это позволяет сохранить прозрачность процесса и доверие к результату.

1.
Gemini 2.5 Flash Google DeepMind Резюмирование исследования Выделение ключевых идей и результатов

1. Резюмирование исследования

Выделение ключевых идей и результатов

Gemini 2.5 Flash Google DeepMind
2.
Claude Sonnet 4.6 Anthropic Создание текста на основе резюме Преобразование резюме в связное объяснение

2. Создание текста на основе резюме

Преобразование резюме в связное объяснение

Claude Sonnet 4.6 Anthropic
3.
Gemini 2.5 Flash Google DeepMind Редакторская проверка Исправление ошибок и уточнение выводов

3. Редакторская проверка

Исправление ошибок и уточнение выводов

Gemini 2.5 Flash Google DeepMind
4.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

4. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
5.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

5. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться