Опубликовано 11 апреля 2026

Алгоритм LM Tree и новая модель ценообразования за контент для ИИ-краулеров

Как алгоритм учится торговаться: новая модель ценообразования для эпохи ИИ-краулеров

Исследование о том, как алгоритм на основе языковой модели помогает издателям зарабатывать на контенте, который потребляют ИИ-системы, – и делает это лучше, чем сами редакторы.

Финансы и экономика 9 – 13 минут чтения

Автор публикации: Профессор Эмиль Дюбуа 9 – 13 минут чтения

«Работая над этим текстом, я поймал себя на мысли, которая не даёт покоя: мы создали машины, чтобы читать за нас, – и теперь вынуждены создавать другие машины, чтобы брать с первых плату. Есть в этом что-то глубоко комичное и одновременно неизбежное – как в старом анекдоте про бесконечную цепочку посредников, каждый из которых уверен, что именно он создаёт ценность. Меня занимает другой вопрос: не «как продать данные дороже», а «что происходит с понятием авторства, когда главным читателем становится алгоритм». Боюсь, что ответ на него окажется куда менее оптимистичным, чем цифры прироста дохода в этом исследовании.» – Профессор Эмиль Дюбуа

Позвольте начать с небольшого парадокса, который я обнаружил, изучая современную медиаэкономику. Издатели десятилетиями выстраивали сложные системы монетизации: баннеры, подписки, платные статьи, спонсорские материалы. Всё это работало ровно до тех пор, пока читателем оставался человек – существо, способное видеть рекламу, кликать по ссылкам и испытывать угрызения совести, не оплатив подписку. Но что происходит, когда «читателем» становится машина? Машина, которой не нужна реклама, которая не подписывается на рассылки и которая поглощает тысячи статей в секунду с методичностью средневекового переписчика, но в миллион раз быстрее?

Именно этот вопрос лежит в основе исследования, которое я хочу разобрать. Речь идёт о работе, в которой предложена модель под названием pay-per-crawl – буквально «оплата за сканирование» – и алгоритм LM Tree, призванный решить задачу, которая на первый взгляд кажется простой бухгалтерией, но на деле оказывается настоящей философской головоломкой о природе ценности.

Монетизация контента когда читатель не человек

Когда читатель больше не человек

Вернёмся в историю – ненадолго, как я всегда люблю делать, потому что прошлое умеет объяснять настоящее лучше любого аналитика.

В XVIII веке парижские газеты зарабатывали на подписчиках и на тех, кто платил за отдельные номера у уличных разносчиков. Ценность информации была привязана к конкретному читателю, к его готовности расстаться с монетой. В XX веке пришло телевидение и радио – и модель перевернулась: теперь контент стал «бесплатным» для аудитории, а платили рекламодатели, желавшие достучаться до этой самой аудитории. Интернет поначалу повторил эту схему: баннеры, клики, показы.

Но с появлением крупных языковых моделей – таких систем, которые обучаются на гигантских массивах текста, – возникла совершенно новая сущность: ИИ-краулер. Это программа, которая обходит сайты издателей и собирает контент для обучения или работы искусственного интеллекта. Она не смотрит рекламу. Она не нажимает на кнопку «оформить подписку». Она просто берёт текст – и уходит.

Издатели оказались в ситуации владельца библиотеки, чьи книги читают тысячи посетителей, но никто из них не платит за вход, потому что вход физически не предусматривает кассы. Нужна была новая касса. И не просто касса – а умная, способная назначать разную цену за разные книги.

Сложность оценки ценности контента для ИИ

Проблема, которую нельзя решить линейкой

Казалось бы, решение лежит на поверхности: разделить весь контент на категории и назначить каждой свою цену. Дешевле – за короткие новости, дороже – за аналитику. Именно так работает большинство издателей, когда они вообще задумываются о подобной сегментации.

Но вот где начинается настоящая сложность. Представьте себе крупного немецкого технологического издателя – именно такой стал объектом исследования – с почти девятью тысячами статей. У него есть восемь редакционных категорий: «искусственный интеллект», «мобильные устройства», «кибербезопасность» и так далее. Логично, правда?

Но внутри категории «искусственный интеллект» могут соседствовать статья «Что такое нейронная сеть» уровня школьного реферата и глубокий разбор архитектурных решений в трансформерных моделях, написанный инженером с двадцатилетним стажем. Для ИИ-краулера, который обучает модель, эти две статьи стоят совершенно по-разному. Первая – копейки. Вторая – золото. Но редакционная категория у них одна.

То же самое происходит в обратную сторону. Статья о смартфонах может содержать уникальный анализ рыночных тенденций, который окажется ценнее большинства материалов из раздела «аналитика». Категории, придуманные для человека-читателя, не отражают ценность для машины-потребителя. Это как пытаться оценить вино по цвету этикетки, а не по вкусу.

Фиксированная цена на весь архив – тоже тупик. Установи высокую – и краулеры откажутся от дешёвого контента, который всё равно имело смысл продавать по невысокой цене. Установи низкую – и упустишь значительную часть выручки с премиальных материалов. Это классическая дилемма ценообразования, известная экономистам со времён Адама Смита, только в новом техническом обличье.

Принцип работы алгоритма LM Tree для оценки контента

Дерево, которое думает

Именно здесь на сцену выходит LM Tree – алгоритм, название которого можно перевести как «языковое дерево» (от англ. Language Model Tree). Чтобы понять, как он работает, предлагаю аналогию из садоводства.

Представьте, что вы – опытный сортировщик на большом яблочном складе. Перед вами тысячи яблок, и вам нужно назначить цену каждому. Начинать с каждого яблока по отдельности – безумие. Поэтому вы начинаете с вопросов: «Это яблоко кислое или сладкое?» Кислые – в одну сторону, сладкие – в другую. Потом задаёте следующий вопрос уже внутри каждой группы: «Оно крупное или мелкое?» И так далее, пока не получите несколько чётких групп, каждой из которых можно назначить разумную цену.

LM Tree делает ровно то же самое – только с текстами и с помощью большой языковой модели в роли того самого опытного сортировщика.

Алгоритм начинает с того, что смотрит на весь архив как на единое целое и задаёт первый вопрос: «Какой признак лучше всего разделяет контент на дорогой и дешёвый?» Языковая модель, получив на вход заголовки и описания статей вместе с информацией о том, какие из них краулеры «покупали» охотнее при заданной цене, предлагает гипотезы. Например: «Статьи, в которых обсуждаются этические аспекты ИИ с углублённым техническим анализом» против «кратких новостных заметок о выходе новых устройств». Алгоритм проверяет, насколько это деление увеличивает потенциальный доход, и если результат положительный – фиксирует разделение.

Затем процесс повторяется внутри каждой из двух получившихся групп. И снова. И снова. Пока дерево не перестанет «расти» – то есть пока дальнейшее дробление не перестаёт приносить ощутимую прибавку к доходу.

Важная деталь: алгоритм работает исключительно на основе простой обратной связи – «купили» или «не купили». Никаких сложных оценок, никаких анкет, никакого ручного труда редакторов. Только бинарный сигнал рынка, умноженный на мощь языковой модели.

Эффективность LM Tree в росте доходов издателей

Цифры, которые заставляют задуматься

Исследование проводилось на данных крупного немецкого технологического издателя. В распоряжении авторов оказались 8 939 статей и более 80 000 запросов от ИИ-краулеров. Готовность платить за каждую статью была рассчитана на основе реальных данных о трафике – то есть это не теоретическая модель в вакууме, а попытка максимально приблизиться к реальным условиям рынка.

Результаты оказались весьма красноречивыми:

По сравнению с единой фиксированной ценой на весь архив LM Tree обеспечил рост дохода на 65%.
По сравнению с простым делением на две категории («премиум» и «стандарт») – рост на 47%.
И вот самое интригующее: по сравнению с собственной восьмисегментной редакционной таксономией издателя – рост на 40%.

Последний пункт заслуживает отдельного внимания. Издатель годами выстраивал свою систему категорий, опираясь на редакторский опыт, здравый смысл и понимание аудитории. И алгоритм, который никогда не читал ни одной из этих статей «по-человечески», превзошёл эту систему на сорок процентов. Почему?

Потому что редакторы создавали категории для людей. А краулеры – не люди. То, что кажется ценным журналисту или читателю («эксклюзивное интервью», «репортаж с места событий»), не обязательно является ценным для системы, которая ищет плотные, структурированные, технически насыщенные данные для обучения. LM Tree сумел нащупать именно эту разницу – и монетизировать её.

Что алгоритм увидел в ценности контента, где люди не заметили

Что алгоритм «увидел» там, где люди не заметили

Один из самых захватывающих аспектов исследования – это то, какие именно признаки LM Tree счёл значимыми.

В категорию высокоценных попали статьи, которые сочетали в себе технический анализ с обсуждением более широких последствий – например, этических или стратегических. Статьи, которые не просто сообщали факт, а интерпретировали его в контексте. Материалы, где присутствовала аналитическая глубина, а не просто перечисление характеристик нового гаджета.

В категорию низкоценных попали краткие новостные заметки, обзоры конкретных моделей оборудования без стратегического контекста, материалы, где информация носила преходящий характер.

Примечательно, что эти деления пересекали редакционные категории поперёк. Глубокая аналитическая статья о смартфонах оказывалась в одной корзине с аналитикой об облачных вычислениях – и обе стоили дороже, чем поверхностный текст из раздела «искусственный интеллект». Алгоритм видел качество мышления, а не тематический ярлык.

Это напоминает мне один известный парадокс из истории аукционов. На аукционе Кристи в 1987 году картина Ван Гога «Ирисы» ушла за 53 миллиона долларов – рекордная сумма для того времени. Но несколькими годами ранее та же картина оценивалась на порядок скромнее. Ценность не изменилась. Изменился механизм её выявления. LM Tree делает ровно то же самое: не создаёт ценность, но находит её там, где традиционные инструменты её не видели.

Интерпретируемость алгоритма LM Tree

Интерпретируемость как неожиданное достоинство

Отдельно стоит сказать о том, что авторы называют «интерпретируемостью» системы. В мире, где алгоритмы машинного обучения всё чаще напоминают чёрные ящики – «мы не знаем, почему модель приняла именно это решение, но она приняла его» – LM Tree работает иначе.

Каждое разделение в дереве – это чёткий, сформулированный на человеческом языке вопрос. «Содержит ли статья анализ корпоративных стратегий?» «Является ли это обзором конкретного продукта?» «Обсуждаются ли в тексте долгосрочные тенденции?» Издатель в любой момент может посмотреть на дерево и понять, почему одна статья стоит дороже другой. Это не просто удобство – это принципиально важно для доверия к системе.

Представьте аудитора, который проверяет налоговую декларацию компании. Он может принять результат, если может проследить логику каждого шага. Если же перед ним просто число, появившееся из недр нейронной сети без каких-либо объяснений, – доверие к нему будет значительно меньшим. LM Tree ближе к первому сценарию.

Ограничения применения и открытые вопросы LM Tree

Границы и открытые вопросы

Было бы нечестно завершить разговор без упоминания ограничений. Авторы исследования сами честно признают несколько важных оговорок.

Во-первых, данные о готовности платить были смоделированы на основе существующего трафика краулеров, а не получены из реальных транзакций. Рынок оплаты за сканирование в том виде, который описывается в исследовании, находится на ранней стадии формирования, и массивов исторических данных о реальных ценах и покупках пока недостаточно. Это означает, что цифры – при всей их убедительности – остаются теоретической оценкой.

Во-вторых, алгоритм тестировался на одном издателе в одной стране и в одной тематической нише. Насколько хорошо он будет работать для, скажем, новостного агентства или медицинского портала – пока открытый вопрос.

В-третьих, есть интересная проблема временно́го распада. Ценность статьи не постоянна: глубокий анализ технологии, актуальный в 2023 году, может превратиться в исторический артефакт к 2027-му. Система, которая не умеет учитывать эту динамику, рискует устаревать вместе со своими сегментами.

И наконец, самый деликатный вопрос: а что, если разные ИИ-системы ценят разный контент? Краулер, обучающий модель для медицинской диагностики, и краулер, собирающий данные для финансового анализа, могут предъявлять совершенно разные требования к одному и тому же тексту. LM Tree в своей нынешней конфигурации не делает различий между типами покупателей – это направление для будущих исследований.

Значение LM Tree для будущего рынка данных и ИИ-индустрии

Зачем это важно – и не только для издателей

Можно было бы решить, что всё описанное – это узкоспециальная история про монетизацию медиа, интересная разве что главным редакторам и финансовым директорам технологических изданий. Но я убеждён, что здесь нечто большее.

Мы наблюдаем формирование принципиально нового рынка – рынка данных как сырья для обучения искусственного интеллекта. И этот рынок поднимает вопросы, которые экономисты будут обсуждать ещё долго. Как определяется ценность информации в эпоху, когда её основным потребителем становится не человек, а машина? Какова справедливая компенсация за интеллектуальный труд, если его результат используется для создания систем, которые этот труд потенциально замещают? Кто в итоге выигрывает – издатель, который научился продавать дороже, или ИИ-компания, которая всё равно получает нужные данные?

LM Tree – это не ответ на эти вопросы. Это инструмент, который делает один конкретный шаг: помогает издателю перестать продавать всё по одной цене там, где разница в ценности очевидна всем, кроме ценника. Это скромный, но реальный прогресс.

История денег знает немало примеров того, как новый механизм оценки ценности радикально менял баланс сил. Появление фьючерсных контрактов в XVII веке позволило торговцам зерном наконец-то управлять риском, которого раньше они просто боялись. Появление кредитных рейтингов в XX веке изменило, кто и на каких условиях получает доступ к капиталу. LM Tree – гораздо более скромное изобретение. Но принцип тот же: новый способ измерить ценность меняет то, кто её получает.

И в этом смысле алгоритм, обученный торговаться за статьи о смартфонах, может оказаться маленькой, но симптоматичной страницей в длинной истории о том, как человечество снова и снова изобретает новые способы договориться о цене.

#аналитика #системный анализ #развитие ии #медиа #бизнес #данные #алгоритмическая власть #авторство ии #ценообразование ии-контента

Источник: https://arxiv.org/abs/2604.01416v1

Оригинальное название: Pay-Per-Crawl Pricing for AI: The LM-Tree Agent

Дата публикации статьи: 2 апр 2026

Авторы оригинальной статьи : Richard Archer, Soheil Ghili, Nima Haghpanah

Профессор Эмиль Дюбуа Открыть профиль

«Деньги – это всего лишь коллективная галлюцинация. Но какая устойчивая!»

Открыть профиль

Я изучаю, как иррациональность формирует финансовые пузыри и доверие к абстракциям вроде биткоина. Для меня DeFi – это продолжение вековых игр с деньгами, только на новых платформах. Мой инструмент – не калькулятор, а зеркало человеческой психики.

Предыдущая статья Функция Чандрасекара: точное решение уравнения, управляющего светом в рассеивающих средах Следующая статья Когда ждать нельзя: математика на границе жизни и смерти

Алгоритм LM Tree и новая модель ценообразования за контент для ИИ-краулеров

Монетизация контента когда читатель не человек

Сложность оценки ценности контента для ИИ

Принцип работы алгоритма LM Tree для оценки контента

Эффективность LM Tree в росте доходов издателей

Что алгоритм увидел в ценности контента, где люди не заметили

Интерпретируемость алгоритма LM Tree

Ограничения применения и открытые вопросы LM Tree

Значение LM Tree для будущего рынка данных и ИИ-индустрии

Связанные публикации

Когда ИИ становится вашим личным покупателем: что такое агентная коммерция

Крипторынок: когда деньги живут по своим правилам

Почему цифровые гиганты недолюбливают пользователей VPN?

От исследования к пониманию

Нейросети, участвовавшие в работе

1. Резюмирование исследования

2. Создание текста на основе резюме

3. Редакторская проверка

4. Подготовка описания для иллюстрации

5. Создание иллюстрации