Основные принципы работы алгоритмов TikTok/Basic principles of TikTok algorithms

Алехин Василий Константинович

Санкт-Петербургский государственный университет

Alekhin Vasilii Konstantinovich

SPBU

TikTok как социальная сеть конкурентно отличается от других платформ широким использованием алгоритмов машинного обучения. ByteDance для формирования ленты рекомендаций (for you page) использует два основных механизма. Первый механизм обеспечивает кластеризацию контента в зависимости от содержания, аудиодорожки, надписей на видео и хэштегов. Второй механизм анализирует поведенческие паттерны пользователя на основе его действий в приложении. После этого, наступает этап формирования пользовательских сценариев взаимодействия с контентом. Анализируется разница между прогнозируемым поведением и реальным. Если она равна нулю, то лента рекомендаций сформирована корректно. Пользователь смотрит все больше и больше интересных ему видео, просто пролистывая ролик за роликом.

Social network TikTok has strong competitive differentiator in comparing with other platforms. ByteDance exploits machine learning algorithms to generate a recommendation feed (for you page).  The algorithm bases on two main mechanisms. The first mechanism provides content database clustering depending on the type, audio track, video captions, and hashtags. The second mechanism analyzes the user’s behavioral patterns based on their actions in the application. The next step is the formation of user interaction scenarios. The difference between the predicted behavior and the real one is the object of analysis. If it equals zero, then the recommendations feed is formed correctly. The user is watching more and more interesting videos, just scrolling through video after video.

 

  1. Avery, Jill. «Glossier: Co-Creating a Cult Brand with a Digital Community.» Harvard Business School Case 519-022, January 2019.
  2. Boerman, S., van Reijmersdal, E., & Neijens, P. (2014). Effects of sponsorship disclosure timing on the processing of sponsored content: A study on the effectiveness of european disclosure regulations. Psychology and Marketing, 31, 214–224. https://doi. org/10.1002/mar.20688.
  3. Esther Shaulova-Lodovica Biagi — https://www.statista.com/study/12393/social-networks- statista-dossier/
  4. Goodrich, K., deMooij, M. (2014). How “social” are social media? A cross-cultural comparison of online and offline purchase decision influences, Journal of Marketing Communications, 20(1-2), 10301116. Doi: 10.1080/13527266.2013.797773
  5. Grimes, M. (2015, September 4). Global Consumers’ Trust in ‘Earned’ Advertising Grows in Importance. Retrieved March 15, 2020, from http://www.nielsen. com/us/en/press-room/2015/nielsen-global-consumers-trust-in-earned- advertising- grows.html
  6. Hennig-Thurau, T., Gwinner, K. P., Walsh, G., & Gremler, D. D. (2004). Electronic word-of-mouth via consumer-opinion platforms: What motivates consumers to articulate themselves on the Internet? Journal of Interactive Marketing, 18(1), 38–52. doi: 10.1002/dir.10073
  7. Holliman, G., & Rowley, J. (2014). Business to business digital content marketing: Marketers’ perceptions of best practice. The Journal of Research in Indian Medicine, 8, 269–293. https://doi.org/10.1108/JRIM-02-2014-0013.
  8. Kaplan AM, Haenlein M (2010) Users of the world, unite! The challenges and opportunities of social media. Bus Horiz 53(1):59–68
  9. Müllerb, J.; Christandl, F. Content is king—But who is the king of kings? The effect of content marketing, sponsored content & user-generated content on brand responses. Hum. Behav. 2019, 96, 46–55.
  10. Paintsil, A. (2019). Consumer engagement with modern luxury direct-to-consumer brands on social media: A study of glossier (Order No. 22619475). Available from ProQuest Dissertations & Theses Global. (2307785008). Retrieved from https://search.proquest.com/docview/2307785008?accountid=12492
  11. Vinerean, I.Cetina, L.Dumitrescu, and M. Tichindelean, The effects of social media marketing on online consumer behavior. International Jornal of Business and Management, 8(14), 66, 2013. https://doi.org/10.1177/0270467610380012
  12. Smith, A., & Anderson, M. (2018, March 1). Social media usage in 2018: A majority of Americans use Facebook and YouTube, but young adults are especially heavy users of Snapchat and Instagram.
  13. Sunnucks, Jack (2016) “Woman Made: Emily Weiss,” Violet Grey, https://www.violetgrey.com/violet-files /cov e r-story/emily-weis s, accesse d 12/01/ 2017.
  14. van Reijmersdal, E., Neijens, P., & Smit, E. (2007). Effects of television brand placement on brand image. Psychology and Marketing, 24, 403–420. https://doi.org/10.1002/ mar.20166.
  15. Wu, M. Y. (2018, July). Exploring Organizational Use of Social Media Marketing: From a Global Perspective. Paper presented at 2018 International Association for Intercultural Communication Studies (IAICS) Annual Conference, Chicago, IL.

 

 

  1. Avery, Jill. «Glossier: Co-Creating a Cult Brand with a Digital Community.» Harvard Business School Case 519-022, January 2019.
  2. Boerman, S., van Reijmersdal, E., & Neijens, P. (2014). Effects of sponsorship disclosure timing on the processing of sponsored content: A study on the effectiveness of european disclosure regulations. Psychology and Marketing, 31, 214–224. https://doi. org/10.1002/mar.20688.
  3. Esther Shaulova-Lodovica Biagi — https://www.statista.com/study/12393/social-networks- statista-dossier/
  4. Goodrich, K., deMooij, M. (2014). How “social” are social media? A cross-cultural comparison of online and offline purchase decision influences, Journal of Marketing Communications, 20(1-2), 10301116. Doi: 10.1080/13527266.2013.797773
  5. Grimes, M. (2015, September 4). Global Consumers’ Trust in ‘Earned’ Advertising Grows in Importance. Retrieved March 15, 2020, from http://www.nielsen. com/us/en/press-room/2015/nielsen-global-consumers-trust-in-earned- advertising- grows.html
  6. Hennig-Thurau, T., Gwinner, K. P., Walsh, G., & Gremler, D. D. (2004). Electronic word-of-mouth via consumer-opinion platforms: What motivates consumers to articulate themselves on the Internet? Journal of Interactive Marketing, 18(1), 38–52. doi: 10.1002/dir.10073
  7. Holliman, G., & Rowley, J. (2014). Business to business digital content marketing: Marketers’ perceptions of best practice. The Journal of Research in Indian Medicine, 8, 269–293. https://doi.org/10.1108/JRIM-02-2014-0013.
  8. Kaplan AM, Haenlein M (2010) Users of the world, unite! The challenges and opportunities of social media. Bus Horiz 53(1):59–68
  9. Müllerb, J.; Christandl, F. Content is king—But who is the king of kings? The effect of content marketing, sponsored content & user-generated content on brand responses. Hum. Behav. 2019, 96, 46–55.
  10. Paintsil, A. (2019). Consumer engagement with modern luxury direct-to-consumer brands on social media: A study of glossier (Order No. 22619475). Available from ProQuest Dissertations & Theses Global. (2307785008). Retrieved from https://search.proquest.com/docview/2307785008?accountid=12492
  11. Vinerean, I.Cetina, L.Dumitrescu, and M. Tichindelean, The effects of social media marketing on online consumer behavior. International Jornal of Business and Management, 8(14), 66, 2013. https://doi.org/10.1177/0270467610380012
  12. Smith, A., & Anderson, M. (2018, March 1). Social media usage in 2018: A majority of Americans use Facebook and YouTube, but young adults are especially heavy users of Snapchat and Instagram.
  13. Sunnucks, Jack (2016) “Woman Made: Emily Weiss,” Violet Grey, https://www.violetgrey.com/violet-files /cov e r-story/emily-weis s, accesse d 12/01/ 2017.
  14. van Reijmersdal, E., Neijens, P., & Smit, E. (2007). Effects of television brand placement on brand image. Psychology and Marketing, 24, 403–420. https://doi.org/10.1002/ mar.20166.
  15. Wu, M. Y. (2018, July). Exploring Organizational Use of Social Media Marketing: From a Global Perspective. Paper presented at 2018 International Association for Intercultural Communication Studies (IAICS) Annual Conference, Chicago, IL.

 

 

Рецензия на статью «Основные принципы работы алгоритмов TikTok/Basic principles of TikTok algorithms» Алехина Василия Константиновича

 Рецензент, так же, как и «Некоторые критики платформы небезосновательно называют TikTok «черной дырой времени». Приложение является уникальным «убийцей времени», так как отвлекает внимание людей и мешает им сосредоточиться». В то же время феномен TIKTOK должен изучаться. Имеет ли это отношение к СМИ? Это вопрос, требующий разрешения. Но то, что это средство коммуникации, бесспорно.  Описывая исследуемую платформу автор указывает: «Кажется, будто пользователь попадает в водоворот развлечений, который вызывает с каждым новым видео все более сильный дофаминовый всплеск. В ответ на обвинения в зависимости потребителей от платформы, в 2018 году Douyin внедрил в платформу уведомление о слишком длинной сессии просмотра. После 120 минут непрерывного использования система автоматически блокирует мобильное устройство». Статья актуальна и может быть рекомендована к печати.

Великосельский Михаил Юрьевич, Доцент СПбГУ, кандидат политических наук

 

TikTok, алгоритмы, машинное обучение, потребительское поведение, кластеризация контента

TikTok, algorithms, machine learning, consumer behavior, content clustering

 

Алехин В.К. Основные принципы работы алгоритмов TikTok // Век информации (Сетевое издание), 2021, Т.5 №2(15) Maй 2021  https://doi.org/10.33941/age-info.com52(15)7

Alekhin V.K.Basic principles of TikTok algorithms//The Age of Information (Network edition), 2021, Vol.5 No. 2 (14) May 2021 https://doi.org/10.33941/age-info.com52(15)7

По мере того, как технологический прогресс движется к эре мобильного Web 3.0, человеческое восприятие информации меняется вместе с ним. Сегодня у нас есть доступ к большому количеству данных по различным каналам, поэтому фактологические знания становятся менее ценными, а время и внимание каждого пользователя все более и более фрагментированными. В результате, сформированная модель восприятия тяготеет к краткой и запоминающейся информацией. Этим поведенческим сдвигом пользуются маркетинговые кампании, основанные на таком виде контента. В этой статье будет идти речь о том, как работает алгоритм TikTok и объясняется причины его притягательности.

TikTok — так же, как и конкурент Instagram – стали популярными платформами по причине легкого, веселого, интерактивного, модного, а главное короткого видеоконтента. Такие социальные сети стали набирать популярность в 2019 году, а достигли пика во втором квартале 2020 года во время пандемии Covid-19.

Становясь все более популярной платформой и приобретая большую социальную значимость, площадка постоянно модернизирует и улучшает внутренний регламент, в основе которого лежат универсальные ценности. Основной миссией TikTok на странице Принципов сообщества (Community Guidelines)[1] выделяется вдохновение на творчество и принесение радости. «Мы строим глобальное сообщество, в котором люди могут творить и делиться, открывать для себя мир вокруг себя и общаться с другими людьми по всему миру» [2].

Для модерации видео, которые не соответствуют правилам сообщества, применяется три основных направления. Машинные алгоритмы изучают внутреннюю составляющую видеороликов. Главной целью данного механизма является поиск спама и шокирующего контента. Исключения составляют такие категории контента как: образовательный, документальный научный, художественный, сатирический, контент с использованием вымышленных образов, а также контент, представляющий «общественный интерес».

Правилами TikTok запрещается загрузка роликов на следующие тематики:

  1. Насильственный экстремизм и вообще любые формы насилия. Для того, чтобы показать подобные сцены в юмористическом или художественном формате пользователи прибегают к надписям наподобие *fake blood* (искусственная кровь), чтобы не попадать под строгую модерацию. В эту же категорию попадают и организации, основанные на принципе ненависти и террора.
  2. Хейт-контент или ненавистническое поведение. Основываясь на принципах равенства, правилами площадки прописана нетерпимость к любого рода дискриминации. Оскорбления меньшинств по расовому, этническому, национальному, религиозному, классовому, половому, гендерному, сексуальному, иммиграционному признаку, а также по причине серьезной болезни или инвалидности, запрещены.
  3. Преступная деятельность. В эту категорию запрета попадает оружие, наркотики, алкоголь и табак, мошенничество, азартные игры. Также TikTok тесно сотрудничает с внутренним законодательством каждой страны, чтобы оперативно блокировать недопустимый в той или иной стране контент. Например, платформа удалила все ролики по требованию Роскомнадзора, призывающие к участию в несогласованных митингах и незаконных акциях[3].
  4. Самоубийство и призывы к нему. Площадка заботится о благополучии своих пользователей, в том числе продвигая ролики, направленные на осведомленность по проблеме суицида, тем самым, возможно, давая поддержку в трудных жизненных ситуациях.
  5. Контент 18+ и сексуальные акты.
  6. Спам или ложная информация. Особенно активно этот фильтр работает в условиях Covid-19. Ролики с непроверенной или противоречивой информацией помечаются плашкой с уведомлением о недостоверности, ведущей на официальную информацию сайта Всемирной организации здравоохранения.

Нейронные сети умеют распознавать надписи на видео, чтобы более глубоко понимать суть контента. Во избежание пессимизации видео на запретные или полузапретные темы (наркотики, секс и прочее), пользователи научились изменять один или несколько символов в ключевом слове. Так, например, слово секс в надписи меняют на $ek$ или синоним, а в аудиодорожке используют слова, схожие по смыслу. Если контенту все же удалось пробить первичный искусственный нейронный фильтр, то в ход вступает настоящий. Модераторы TikTok смотрят за соблюдением правил сообщества там, где машинное обучение может давать сбои. На площадке также предусмотрен механизм саморегуляции за счет пользовательского ресурса. Для этих целей была создана обучающая страница, рассказывающая о всех возможностях. Например, можно пожаловаться на трансляцию в прямом эфире, комментарий, видео, сообщение, пользователя, а также сообщить о нарушении в звуке, хэштеге.

Основной страницей TikTok является лента «Рекомендации» или «For you». На нее попадают видеоролики, которые либо находятся в тренде, либо соответствуют интересам пользователя. Попасть на нее значит автоматически превратить ролик в вирусный.

Наиболее конкурентно ценной чертой платформы является использование управляемого алгоритма машинного обучения. TikTok обладает патентом на изобретенный ими алгоритм, принципы работы которого остаются в тайне. Тем не менее, TikTok сам периодически открывает тайны функционирования своего механизма, чтобы помочь пользователям улучшить взаимодействие с платформой, а создателям подсказать как правильно создавать хороший контент. 

Социальная сеть с помощью алгоритмической выдачи продвигает в рекомендации новых и активных пользователей.  Блогер-миллионник и новый аккаунт имеют равные шансы на то, чтобы быть увиденными.

Принцип работы TikTok с контентом после загрузки выглядит следующим образом (Рис.1). Платформа делит пользователей на несколько больших кластерных групп на основе случайного совпадения (например, совпадающие последние 3 цифры в ID пользователя). Когда создатель публикует новый контент, нейронная сеть тестирует его на небольшой группе из случайного кластера (на рисунке — Small Batch Bucket). На данном этапе собирается информация о лайках, комментариях, репостах (суммарно — вовлеченности) и досматриваемости ролика. Каждая из этих метрик имеет разный практический вес. Когда общая оценка ролика достигает определенного значения, алгоритм принимает решение о продвижении ролика на новый уровень (Medium Batch Bucket). На этом этапе происходит новая итерация алгоритма, где все повторяется заново. Таким образом, ролик тестируется на способность стать глобально популярным (Large Batch Bucket). Такой способ сортировки данных называется многослойным скринингом[4].

Рис.1. Иллюстрация принципа маркетинга пула данных

Вовлеченность в TikTok различна для пользователей в зависимости от величины аккаунта. Сервис Influence Marketing Factory дает следующую формулу для расчёта вовлеченности. Суммарное число лайков, комментариев и репостов за последние 10 роликов делятся на количество просмотров последних 10 видео[5]. Ниже приведена таблица среднего уровня вовлеченности в зависимости от количества подписчиков в аккаунте (Табл.1)

Количество подписчиков

Средний уровень вовлеченности (%)

100-500 тысяч

17,93

500 тысяч – 1 миллион

22,79

1-5 миллионов

20,57

5-10 миллионов

21,97

10+ миллионов

21,72

Таблица 1. Средний уровень вовлеченности в зависимости от количества подписчиков аккаунта.

На основе статистики вовлеченности аудитории от первых 100 просмотров, алгоритм продвигает видео на бОльшие аудитории, более не привязываясь к кластеру. В силу вступают тематика ролика, целевые хэштеги. Видео показывается пользователям со совпадающими или схожими интересами. На этому этапе также алгоритм высчитывает вовлеченность ролика и анализирует его способность выхода на самую широкую аудиторию. Когда все этапы отбора пройдены, ролик попадает в «глобальные рекомендации» (в приложении это сокращенно называют «реки»). Попасть в «реки» – ключевая задача любого создателя контента в TikTok.

По показателю вовлеченности на январь 2021 года (Приложение 14) российский рынок TikTok возглавила Анохина Лиза (@anokhinalz)[6] с более 100 миллионами взаимодействий. Далее по этому показателю в порядке очередности занимаемого места идут INSTASAMKA(@samkamusic), Юлька Шпулька(@gavrilinaa), ШМЕКССС (@shmeksss), i_am_doshik (@i_am_doshik1). Все авторы младше 30 лет, 4 девушки и 1 парень.

Как известно из практики ведения аккаунтов, новые или чистые аккаунты имеют высокие просмотры на первых трех роликах, потом что машина тестирует всех на возможность стать популярнейшим автором. Вовлекая в дальнейшем все более и более широкие аудитории, искусственный интеллект TikTok проверяет видео на потенциал к росту. Данный механизм похож на принцип снежного кома, где большее количество реакций ведет к большему количеству показов.  

Важным фактором является параметр досматриваемости видео, который также символизирует заинтересованность в видеоролике. На этом принципе активно продвигаются ролики, где сохраняется интрига до конца видео. Множество подобных роликов заканчивается призывом к переходу на страницу создателя для того, чтобы увидеть вторую часть видео. Это неплохой способ для вызова определенной реакции, однако он может сыграть и в обратную сторону, так как большинство таких роликов раздражают пользователей. Также хорошим способом увеличить досматриваемость является создание зацикленного видео с идеальной склейкой, когда пользователь не понимает, где заканчивается и где начинается ролик. В попытках найти конечный кадр пользователь смотрит видео по нескольку раз, увеличивая статистику ролика.

Выше был рассмотрен алгоритм нейронной сети относительно продвижения ролика. Далее будет рассмотрен механизм формирования выдачи видеороликов для пользователей, которые первый раз скачали TikTok.

В течение первых трех дней взаимодействия с социальной сетью алгоритм будет изучать предпочтения пользователя, предлагая ему контент на самые различные тематики. В это время нейронная сеть будет изучать заинтересованность пользователя на ту или иную сферу интересов на основе реакции (лайки, комментарии, репосты) и по факту досматриваемости. В дальнейшем, по рекомендации алгоритма каждый пользователь получает персонализированную видеовыдачу, основанную на особенных чертах личности, форм контента и особенностей среды.  Каждый аккаунт пассивно принимает персонализированное содержание рекомендаций системы без какого-либо выбора. Единственным способом отказаться от просмотра ролика является простой пропуск его в видеоленте, либо же пометка ролика тегом «Мне не интересно» в контекстном меню видео.

Подход к данным в TikTok является инновационным, так как он являет собой абсолютно новый опыт поиска информации в интернете. Если ранее люди для нахождения интересующего контента должны были переворачивать несколько страниц поисковой выдачи, то в случае с TikTok контент находит людей самостоятельно. Получается, пользователям не надо тратить драгоценное время, что снижает затраты этого ресурса в разы.

Согласно отчету IDC (компания, специализирующаяся на исследовании изменения больших данных), количество информации будет только неуклонно расти[7] (Рис.2). Человек просто физически не способен перебрать такое количество информации. Поэтому использование машинного обучения для обработки информации — это один из немногих способов сохранить скорость распространения информации на уровне скорости ее производства.

Рис.2. Прогноз по объемам пользовательских данных в интернете. Объемы информации представлены в зетабайтах (1 ЗБ = 1 млрд ТБ)

Основная цель работы алгоритма заключается в том, чтобы дать пользователю возможность получать персонализированный контент, который ему интересен, без необходимости дополнительного поиска. В первую очередь, принцип направлен на улучшение пользовательского опыта (UX – user experience). Для достижения этой цели принцип машинного обучения фокусируется на:

  1. Соответствие ожиданиям пользователя. В исследовании Цао Хуанхуана, главного архитектора алгоритмов ByteDance (компания-создатель Douyin и TikTok), утверждается, что есть четкая корреляция между удовлетворенностью пользователя и его намерением продолжить взаимодействие[8]. Его работа также демонстрирует, что именно удовлетворенность является наиболее важной среди всех других метрик, влияющих на решение о дальнейшем использовании. Таким образом, перед выстроенным в компании алгоритмом первую очередь ставится задача по удовлетворению запросов потребителя.

В TikTok есть различные видеоматериалы, которые покрывают практически все области интересов: юмор, текущие новости, видеоблоги, образование, лайфхаки и прочие. Для грамотной и точной выдачи в платформу встроен сложнейших метод классификации ярлыков, который можно сравнить с облаком тегов. В 2017 году ByteDance подала патент на изобретение под названием «Метод и устройство рекомендации по обнаружению глобального интереса[9]». Описание этого патента помогло понять примерную схему кластеризации контента. Согласно тексту, метод включает создание глобального алгоритма для построения иерархической метки интересов. Реализуется этот метод на основе нейронной сети, которая анализирует тематику содержимого ролика и сопоставляет тематику на основе иерархического дерева (Рис.3).  Древовидная диаграмма – это самый наглядный пример того, как работает включение тематики ролика во взаимодействие с другими данными.

Рис. 3. Схематический пример кластеризации ролика на футбольную тематику.

В этом иерархическом древе интересов корневой узел (синий круг All) – это данные всего содержимого TikTok. Мета-классификаторы первого уровня представляют собой общие категории, такие как технологии, спорт, развлечения. От родительского узла «Спорт» отходят более узкие подкатегории, которые разбивают на еще более узкие темы (в данном примере – виды спорта). Каждая из этих ветвей может быть разделена на еще более точечные области.

Для согласования типа контента и интересов пользователя алгоритм должен глубоко изучить и хорошо понимать пользователя. Это предполагает сортировку пользовательских данных для точных рекомендаций. Согласно принципам работы ByteDance, для маркировки пользователя используются сфера интересов, характеристика идентичности и особенности потребительского поведения[10].

Когда пользователь впервые выполняет вход в аккаунт TikTok, ему на выбор предлагается вход через аккаунты социальных сетей Google, Facebook или профиль Apple (в случае с китайским рынком – через WeChat). Такой способ аутентификации позволяет алгоритму использовать собранные другими платформами потребительские данные для более быстрого анализа поведенческих особенностей. Однако, далеко не все используют такой способ входа.

Основная отличительная информация, такая как пол, возраст, локация, род деятельности, собирается на основе прогностических моделей. Например, постоянное местоположение определяется на основе доступа к службам геолокации мобильного устройства. На основе полученных данных определяется резидентная точка пользователя. Комбинируя одну точку местоположения с другими местами входа и иной информацией, можно сделать вывод о местах работы, командировки и путешествий пользователя. Полученные данные заносятся в геолокационный кластер, на основе которого пользователи также выделяются в группы.

Характеристики интересов пользователя собираются на основе взаимодействия с различными видами контента. На этом этапе также происходит кластеризация на основе ярлыков и маркеров. Пользователи со схожими интересами формируют группу на основе общей потребности. Поскольку TikTok в большинстве своем тяготеет к UGC-контенту, выявление интересов создателя ролика происходит на основе его собственного контента. То есть, создателю видео в рекомендации будут попадаться ролики со схожими его каналу тематиками.

Изучаемые поведенческие паттерны формируются из данных о точном времени взаимодействия с платформой и его длительности. Например, если пользователь использует TikTok несколько раз за день, но очень быстро и на ходу, алгоритм будет рекомендовать более короткие по продолжительности видео.

Обновление алгоритма происходит в режиме реального времени. После того, как пользователь примет решение о том, нравится ему видео или нет и перейдет к следующему, нейронная сеть обновляет портрет пользователя и выдает ему новый сценарий взаимодействия.

Самым главным принципом работы алгоритма TikTok является сопоставление тематик видео и интересов пользователя. Модель рекомендаций использует несколько  алгоритмов машинного обучения  в сочетании для достижения наилучшего результата. Ключ ко всем алгоритмам содержится в изучении пользовательского взаимодействия.

Рис 4. Типовая архитектура рекомендации[11]

Рекомендации с точки зрения структуры построения выглядят следующим образом (Рис.4): в точках X и Y происходит процесс получения данных от контента и от пользователя. Поскольку входящий объем информации огромен, он сжимается для скорости обработки. После этого классификаторы контента и пользователя разбиваются по рубрикам отдельно друг от друга (блоки Interactions). Окончательный результат рекомендаций выдается по окончании процесса объединения результатов нескольких обучающих моделей, покрывающих все возможные сценарии взаимодействия пользователя и контента.

Постоянно растущий в объеме набор данных платформы можно разделить на две основные группы: обучающие данные и тестовые данные. Обучающий набор данных формируется из внешних данных пользователя других социальных сетей и данных, собираемых при последующей обратной связи. В основе работы машинного обучения лежит сопоставление прогнозируемого сценария взаимодействия и реального результата. Соответственно, чем меньше разница между ожидаемым результатом и прогнозируемым, тем точнее модель. Если разница слишком большая, то в этом случае алгоритм предлагает новые сценарии с целью найти наиболее подходящий подход в каждом конкретном случае. Суть машинного обучения состоит в том, чтобы сделать эту разницу минимальной или равной нулю с помощью миллионов обучающих примеров. Модель поведения обновляется шаг за шагом, чтобы соответствовать правильному и необходимому результату. Таким образом, грамотно функционирующая модель будет предлагать на каждой новой итерации все более релевантные сценарии. После формирования точной модели поведения, она отправляется в тестовый набор данных, чтобы рекомендовать контент другим пользователям.

Поведенческая модель улучшается всегда, даже если она уже используется. В итоге, алгоритм гарантирует своевременно вносить корректировки в процесс выдачи рекомендаций даже при малейшем изменении потребительских запросов. 

В результате, чем дольше человек использует TikTok, тем лучше алгоритм поймет человека. Этот процесс требует больших мощностных затрат в области пакетного вычисления, однако это дает свои плоды. Необходимо признать, что при долгом использовании TikTok знает своего пользователя лучше, чем кто-либо другой.  

  1. Полноценный захват внимания пользователя. Существует когнитивная теория американских психологов Д. Лифта и Х. Инхама под названием “Окно Джохари” (рис.5)[12]. Согласно их работе, познание человека состоит из четырех областей: открытая — то, что мы знаем о себе и то, что другие знают о нас (квадрат 1); слепая — то, что мы не знаем о себе, но знают другие (квадрат 2); спрятанная — то, что мы знаем о себе, но не знают другие (квадрат 3); неизвестная — то, что неведомо ни нам, ни остальным (квадрат 4).

Рис.5. Окно Джохари

Алгоритм совместной фильтрации TikTok может помочь пользователям случайно обнаружить свои скрытые интересы из квадрата 4 в ленте рекомендаций. Это может стать ловушкой, заставляя проводить уйму свободного времени в TikTok в поиске себя.

В основе алгоритма лежит принцип выявления сходства портретов пользователей и меток контента.  Последующий нейронный анализ выявляет кратчайший путь между метками и интересами. В результате получается диаграмма связей и корреляций (Рис.6).

Рис.6. Пример диаграммы тематических связей пользователя

Принцип совместной фильтрации пользователей схож с принципом совместной фильтрации контента. Различие лишь в том, что объектом анализа является не контент, а общие интересы пользователей. Согласно работе американского исследователя П. Резника, в основе фильтрации по пользователям лежит стремление “помочь людям сделать выбор на основе мнения других людей”[13].  Люди со схожими характеристиками каким-либо образом могут разделять схожие вкусы, поэтому алгоритм помогает найти похожих пользователей и определить их в одну группу. Это помогает однородным пользователям расширить область своих интересов за счет кругозора единомышленников. 

Алгоритм совместной фильтрации уже долгое время используется в средствах массовой информации для новостной выдачи по политической идентификации. Однако, его критикуют за то, что он усиливает сегрегацию, так как люди не получают альтернативных мнений[14]. В случае с TikTok этот алгоритм используется не для фильтрации данных для конкретного пользователя, а для расширения диапазона контента, к которому пользователь может получить доступ.

Одной из ключевых особенностей платформы TikTok является децентрализация. В отличие от централизованных социальных сетей, где пользователи в основном потребляют контент от узкого круга своих знакомых или мировых знаменитостей, в TikTok пользователь может сфокусироваться на том, что ему интересно. К тому же, у двух отдельно взятых людей не может быть идентичной ленты рекомендаций, что отличается от свойственной централизованным соцсетям унификации дизайна.

Общество все больше и больше апеллирует к праву на самовыражение. Рядовые потребители контента стремятся перейти в категорию его производителей. Именно поэтому высокая степень децентрализации TikTok удовлетворяет желание прославиться.   Пользователи загружают ролики в аккаунт, не боясь общественного порицания и осуждения. Вместо того, чтобы подталкивать своих пользователей на потребление сплетен о жизни знаменитостей или бесконечных новостных сюжетов, TikTok побуждает пользователей создавать свой контент. В подтверждение этого тезиса можно привести два факта: в во-первых, в приложение встроен высокофункциональный видеоредактор. с помощью которого удобно создавать контент;  во-вторых, изначальная философия платформы провозглашает приоритетной миссией вдохновение на творчество (см. главу 2.1 пункт правила TikTok). Таким образом, именно качество контента, а не личность, пол, возраст и статус создателя, является наиболее важным фактором для принятия решения алгоритмом о продвижении ролика. Поэтому платформа дает отличную возможность стать популярным в одночасье.   

Короткие видео в TikTok длятся в среднем от 15 до 60 секунд. Тем не менее, пользователь редко ограничивается только одним роликом. Для перехода на следующее видео нужно лишь провести пальцем снизу экрана вверх (свайпнуть – от английского to swipe – смахнуть). Это очень простое движение является основной функцией, доступной пользователю. Поэтому единственной возможной опцией взаимодействия является продолжение просмотра. Обилие интересного и персонализированного контента заставляет пользователя «залипать» в TikTok все больше и больше времени.

Некоторые критики платформы небезосновательно называют TikTok «черной дырой времени»[15]. Приложение является уникальным «убийцей времени», так как отвлекает внимание людей и мешает им сосредоточиться. Кажется, будто пользователь попадает в водоворот развлечений, который вызывает с каждым новым видео все более сильный дофаминовый всплеск. В ответ на обвинения в зависимости потребителей от платформы, в 2018 году Douyin внедрил в платформу уведомление о слишком длинной сессии просмотра[16]. После 120 минут непрерывного использования система автоматически блокирует мобильное устройство. Для того, чтобы возобновить просмотр, пользователю необходимо заново ввести пароль. Феномен «залипания» стал настолько всеобъемлющ, что для него был введен термин «Douyin-мания»[17]. К слову, внедренная функция по ограничению времени касается только китайской версии платформы, а на его общемировой версии TikTok такой функции нет.

Еще один когнитивный феномен, использующийся в TikTok для удержания пользователей, называется синдром упущенной выгоды (на английском fear of missing out — сокращенно FOMO). Он является формой социальной тревожности, которая характеризуется навязчивой тревожностью о том, что можно упустить возможность социального взаимодействия, нового опыта или какого-либо другого приятного события, часто вызываемого сообщениями и уведомлениями из социальных сетей[18]. Пользователи TikTok довольны рекомендациям в выдаче, им интересно, будет ли следующее видео более привлекательным. Они боятся упустить что-то важное и интересное, по этой причине продолжают смотреть бесконечную ленту и в итоге становятся зависимыми от платформы.

В результате, запатентованный ByteDance алгоритм решает две основные задачи: соответствие ожиданиям пользователя и полноценный захват его внимания. Используя тщательно продуманную кластеризацию контента, всеобъемлющее исследование интересов пользователей и  высокоточно спрогнозированный сценарий взаимодействия, алгоритм гарантирует пользователям чувство когнитивной удовлетворенности. TikTok всегда готов выдать ленту, чтобы пользователь часами листал вниз бесконечные ролики. Так как бОльшая часть контента может покрыть все потребительские запросы, свойственное человеческой природе любопытство и постоянно растущее ожидание подогревает интерес пользователя, вынуждая его проводить в приложении огромное количество времени. Изначальная цель алгоритма — сокращение времени на поиски интересной информации — была выполнена. Теперь, сэкономленное на поиск время люди проводят за пассивным просмотром видео.

Неизвестность следующего видео, как ящик Пандоры или загадка Энигмы, продолжает привлекать пользователей, не оставляя иного выбора, кроме как продолжить потребление контента. Можно с уверенностью сказать, что алгоритм рекомендаций делает пользователей все более и более зависимыми от TikTok.

[1] Community Guidelines. TikTok. URL: https://www.tiktok.com/community-guidelines?lang=en

[2] Community Guidelines. TikTok. URL: https://www.tiktok.com/community-guidelines?lang=en

[3] Дульнева Марина. Forbes. URL https://www.forbes.ru/newsroom/obshchestvo/419063-roskomnadzor-potreboval-ot-tiktok-udalit-video-s-prizyvami-k-uchastiyu-v

[4] F. Yang. Data Pool. 2018-4. 2020-03-13.

[5] How To Calculate TikTok Engagement Rate // The Influence Marketing Factory URL: https://theinfluencermarketingfactory.com/how-to-calculate-tiktok-engagement-rate/#What_Is_The_Engagement_Rate (дата обращения: 23.04.2021).

[6] Аnokhina Liza // TikTok account URL: https://www.tiktok.com/@anokhinalz?lang=ru-RU (дата обращения: 23.04.2021).

[7] D. Reinsel, J. Gantz, J. Rydning. The Digitization of the World From Edge to Core. 2018-11. 2020-03-13. https://www.seagate.com/files/www-content/ourstory/trends/files/idc-seagate-dataage-whitepaper.pdf

[8] H. Cao, J. Jiang, L. Oh ,H. Li, X. Liao, Z. Chen. (2013). A Maslow’s hierarchy of needs analysis of social networking services continuance. Journal of Service Management, 2013, vol. 24, no. 2, pp. 170– 190.

[9] D. Liang. See how today’s headlines play with precision marketing. Modern Business Industry. 2017, vol. 19, pp. 59-60.

[10] H. Cao. Today’s headline algorithm principle. 2018- 01-16. 2020-03-13 https://baijiahao.baidu.com/s?id=158971482281854 0008&wfr=spider&for=pc

[11] H. Li. Framework and Principles of Matching Technologies, Keynote Speech at the WSDM 2019 Workshop on Deep Matching in Practical Applications, Melbourne, February 2019. http://hanglihl.com/uploads/3/4/4/6/34465961/wsdm_2019_work shop.pdf.

[12] J. Luft, H. Ingham,.“The Johari window, a graphic model of interpersonal awareness”. Proceedings of the Western Training Laboratory in Group Development. Los Angeles: University of California, Los Angeles. 1995.

[13] P. Resnick, N. Iacovou, M. Suchak, P. Bergstrom, J. Riedl. GroupLens: an open architecture for collaborative filtering of netnews. Publication: CSCW ’94: Proceedings of the 1994 ACM conference on Computer supported cooperative work, October 1994, pp. 175–186. https://doi.org/10.1145/192844.192905

[14] S. Flaxman, S. Goel, J. M. Rao. Filter Bubbles, Echo Chambers, and Online News Consumption. Public Opinion Quarterly, 2016, vol. 80, no. S1, pp. 298–320.

[15] Analysis on the “Douyin (Tiktok) Mania” Phenomenon Based on Recommendation Algorithms Zhengwei Zhao E3S Web Conf., 235 (2021) 03029 DOI: https://doi.org/10.1051/e3sconf/202123503029

[16] URL: https://technode.com/2018/05/10/how-douyin-became-the-most-popular-app-in-the-world/

[17] Analysis on the “Douyin (Tiktok) Mania” Phenomenon Based on Recommendation Algorithms Zhengwei Zhao E3S Web Conf., 235 (2021) 03029 DOI: https://doi.org/10.1051/e3sconf/202123503029

[18] L. Dossey, L. FOMO, Digital Dementia, and Our Dangerous Experiment. EXPLORE: The Journal of Science and Healing, 2014, vol. 10, no. 2, pp. 69–73.