Тематическая контентогенерация в интернете. Взгляд в будущее

Фундаментальный конфликт

Борьба интернет-ресурсов за пользователей (за авторов контента и аудиторию читателей) приводит к тому, что авторский контент не попадает в поле внимания максимального объема своей целевой аудитории. Авторы не могут быть активными сразу на всех площадках и вынуждены фокусироваться на определенных.

Отделение контента от сервисов

Шагом в сторону решения конфликта может быть создание “интернета контента”. Его основой является не веб-страница, которая представляет собой контейнер для контента, а сами единицы контента. Каждой такой единице присваиваем уникальный адрес и снабжаем некими метаданными — время создания, автор(ы), тематические теги, наверно что-то еще.
Это в русле идей Semantic Web, за исключением того что последний задумывался ориентированным на машины, на удобную обработку контента машинами, более точное извлечение смыслов, тогда как предлагаемый подход акцентируется на людях, их восприятии, удобстве и возможности строить сервисы на этой основе.
Интернет контента не отменяет сайты, его можно строить внутри интернета сайтов. Нужны просто дополнительные сервисы. Допустим, находясь на определенном сайте, выделяете фрагмент текста, заполняете метаданные (или они заполняются автоматически, вы только редактируете) и далее сторонний сервис присваивает адрес этой контентной единице (и может быть сохраняет её в своей базе вместе с ссылкой на ресурс). Я не специалист в технической части, возможно, это реализуемо на уровне браузера?

Позиционирование контента

Одна из идей, которую я провожу и считаю важной, если мы ориентируемся на людей, — это позиционирование упомянутых единиц контента. Так сказать разметка текста по позиционированию: делим его на составляющие — “тезис”, “аргумент”, “мнение”, “гипотеза”, “вопрос” и т. п. Каждую составляющую (даже такие вот малые формы) оформляем самостоятельной единицей и её позиционирование явно декларируем в метаданных.
Во-первых, это помогает правильно настроить восприятие читателя, тем самым облегчая понимание и коммуникацию. Мы даже придаем разный вес различным позиционированиям, например “аргумент” в дискуссии важнее “мнения”. К тому же это отражает реальность — одно лишь тематическое деление не исчерпывает речь, позиционирование там явно или неявно тоже присутствует.

Внимание малым формам

Во-первых, людям легче генерировать контент в малых формах. Во-вторых, такие формы имеют больше шансов в борьбе за внимание аудитории. В третьих, они меньше подвержены изменениям — это важно в связи с тем что в процессе развития любой темы её структура меняется. Можно например написать статью и в конце понять, с чего надо было начинать. Когда имеются готовые оформленные и осмысленные “кирпичи” и блоки связанных соображений, легче их выстраивать в различные более крупные логические структуры.

Обсуждение + структурирование

Людям также легче генерировать контент в процессе общения, обсуждений, дискуссий. А хорошее структурирование темы практически равносильно ее хорошему осмыслению. Желательно, чтобы эти две вещи были гармонично взаимосвязаны. Иначе гора производимого контента будет драматически расти, но мало добавлять в глобальное понимание темы, провоцировать дублирование топиков и хождения по кругу.
Вопрос — как связать обсуждение и структурирование на уровне интерфейсной реализации. Например проект Rizzoma (наследник Google Wave) пытается это сделать. В этом гуглодоке я сформулировал некоторую критику в адрес Риззомы.

Топ медийный и поисковый: принцип неопределенности?

Максимальный объем аудитории может достигаться по-разному: если речь о новостном ресурсе, формате ленты, то она обеспечивает кратковременное синхронное внимание большой аудитории; а если читатель идет от поискового запроса, то здесь имеем асинхронное внимание аудитории, которая в каждый момент не велика, но сумма за весь (неопределенный) период времени может быть большой.
Вопрос — возможно ли и как совместить эти два подхода в одном ресурсе.

Отделение ранжирования от сервисов

В ситуации большого объема контента его ранжирование является важным фактором, определяющим внимание аудитории. Если контент можно отделить от сервисов, то и ранжирование тоже. Для “интернета контента” такая функция выглядит естественным аналогом поисковиков, ранжирующих сайты в обычном интернете. Отделенный от сайтов сервис ранжирования контента использовал бы не только информацию, полученную из того сайта, на котором контент был произведен. В частности за счет обработки данных об активности автора на других сайтах.
Klout уже реализовал идею отделения ранжирования авторов от сервисов и даже отображает авторский контент, но не делает из этого сервиса для контента. А мог бы — ранжирование авторов и контента — вещи сильно связанные. Отношение к автору зависит от того что он производит и делает, и это отношение затем уже перекидывается на его контент — у автора с высокой репутацией контент изначально получает больше внимания.

Сумма

Как предлагается выше, пользователь произвольного интрнет-ресурса выделяет текст и снабжает его метаданными, эти метаданные служат “адресом” по которому текст попадает в нужный тематический раздел “интернета контента” и правильно там позиционируется. (Собственно, присвоение еще отдельного идентификатора — URI — может быть и не нужно тогда).

Здесь надо зафиксировать важный момент — обычно люди не любят производить лишние действия; снабжение текста тегами — как раз пример таких действий, поскольку оно не очень нужно самому пользователю, ведь целевое действие — публикация контента — произойдет и без этого. Попадание в правильный раздел, как на Хабре, или к своей целевой аудитории, как в блогах, происходит за счет других вещей.
Однако если вы создаете контент-объект вне контекста определенного сервиса, просто как вещь из интернета контента, которая может быть использована в разных сервисах, то снабжение подробной метаинформацией является единственным способом достичь своей целевой аудитории. Автор кровно заинтересован в этом.

Пока получается, что “интернет контента” — всё-таки какой-то конкретный сервис, минимальная функция которого заключается в хранении данных и метаданных, которые он может передавать другим сервисам через API.

Далее этот же или другой сервис ранжирует авторов и контент (у меня есть мысли насчет механизма ранжирования, если кратко, это использование алгоритма PageRank в сети разнородных объектов — контента и людей в данном случае; что при этом считать голосующей ссылкой — отдельная история, за подробностями см. текст по ссылке).

В таком варианте получается что-то похожее на поисковики или Википедию, т.к. у такого ресурса нет конкретного тематического позиционирования. Но выдача на поисковый запрос — она по-моему должна быть совсем другой. Не только не такой как у поисковиков, но даже не как у Википедии. Точнее, похожесть на Википедию есть — наверное обзорная статья для знакомства с темой должна присутствовать, но нужно еще более-менее стандартное описание других важных ресурсов — топ авторов, наиболее компетентных в этой теме, список организаций, профилю деятельности которых данный запрос наиболее соответствует, список сайтов. А топа контента нет, т.к. обзорная статья сама явлется топовым контентом — и здесь видится важное отличие от Википедии — контент попадает в топ в результате ранжирования по всей активности всех пользователей в интернете, а не отдельных безымянных авторов статей для вики-энциклопедии. Думаю ранжированный список литературы тоже нужен.

Вообще какой должна быть выдача — отдельный нетривиальный вопрос. Насколько разные темы могут стандартизироваться одним форматом выдачи и прочее. Например история предмета и сейчас является типичным разделом статей из Википедии (т.е. некая стандартизация там уже существует), а человек Павел Захаров утверждает, что знает единственно правильный способ рассказать об эволюции любого предмета (в смысле алгоритмически это как-то представить). Сюда же вспоминаем упомянутую выше проблему совмещения новостного и поискового топов — вероятно в выдаче должна быть и новостная составляющая, какая-нибудь ранжированная лента новых публикаций (разделенных по позиционированиям).
В целом кажется правильной “пирамидальная структура”, где верхушка пирамиды — обзорная статья по теме, а нижние уровни (доступные по опции) охватывают всё больший объем разнообразного релевантного контента.

Конечно мысль создать “более лучшую Википедию” может показаться смешной, но подумайте — Википедия появилась на заре эпохи Веб 2.0; в нынешнюю эпоху зрелости можно создать продукт посовременней, с учетом накопленного опыта из смежных областей и просматривающихся тенденций будущего. Сейчас быть автором Википедии стремятся в основном только избранные фанатики-альтруисты, но в модернизированном ее варианте туда ломанулись бы все — ради большого объема релевантной аудитории.

Осталось понять как в эту схему вписывается концепция объединения в одном пространстве структурирования и обсуждений. Стоит ли стимулировать обсуждения прямо в “нью-википедии”? И где в этой картине мира место для других контентных сервисов в интернете. Фундаментальная проблема, о которой говорилось в самом начале, — только с одной стороны проблема, а с другой — стимул к развитию и улучшению контентных сервисов.
Понятно только, что самих “нью-вики” поначалу может быть несколько конкурирующих, хотя в итоге сильно доминировать станет одна — та что предложит лучшее ранжирование и формат выдачи. Как сейчас Гугл доминирует в области поиска, а Фейсбук в области соцсетей (нынешняя Википедия не в счет — сейчас она просто дополняет поиск). Вероятно, в случае доминирования одной из нью-вики, другие ресурсы начнут подстраиваться и нацеливаться на интеграцию с ней (т.е. начнут напоминать теперешние приложения к соцсетям). Кто лучше сумеет реализовать совмещение структурирования с обсуждениями, тот лучше и взаимовыгодно сможет интегрироваться с гигантом.

Возможен также вариант, когда Гугл или кто-то из нынешних гигантов частично проэволюционирует в эту сторону.

P.S. Почти обо всём этом я уже писал на Хабре, но в разных статьях и, кроме того, сейчас я понял одну свою ошибку, которая раньше мешала более-менее последовательно изложить тему.

Related Posts