Адрес (или «учётная запись») — это самая близкая вещь к понятию физического лица в публичном блокчейне. Он похож на банковский счёт: на нём хранятся криптоактивы, он может принадлежать одному или нескольким людям, и люди могут владеть несколькими из них. В криптотранзакции несколько адресов взаимодействуют друг с другом, переводя средства между собой.
Поначалу базовая аналитика, такая как подсчёт количества адресов, активных за один день, или количество уникальных адресов, на которых находятся криптоактивы, были наилучшими доступными показателями для оценки использования сети. Но недостатки этого простого метода были быстро замечены: он переоценивает активность, исходящую от крупных сервисов, таких как биржи, сервисы азартных игр и других крупных пользователей публичных блокчейнов. Это особенно видно на блокчейне Биткойна и других биткойноподобных активов, которые не стимулируют пользователей повторно использовать один и тот же адрес: одна биржа может использовать миллионы адресов.
Эвристика была разработана для того, чтобы попытаться сгруппировать адреса, принадлежащие одному и тому же субъекту сети, вместе. Адреса, принадлежащие одному и тому же субъекту сети, образуют так называемый «кошелёк». Физические лица всё ещё могут владеть несколькими кошельками, но это гораздо менее вероятно, чем владение несколькими адресами.
Самая мощная эвристика кластеризации адресов для Биткойна называется эвристикой с общими входами. Это было известно Сатоши Накамото, поскольку он упоминает об этом в Белой книге Биткойна: «Некоторые связи по-прежнему неизбежны при транзакциях с несколькими входами, которые обязательно показывают, что их входы принадлежали одному и тому же владельцу». Эту эвристику также иногда называют эвристикой на основании общих входов или совместного расходования.
Биткойн-транзакция создаёт выходы и тратит предыдущие выходы (также называемые входами):
В этом примере транзакции расходуются 2 входа и создаются 2 выхода. Эвристика с общими входами говорит нам о том, что все адреса, которые используются в качестве входов одной транзакции, контролируются одним и тем же субъектом сети и принадлежат одному и тому же кошельку. В случае этой транзакции адреса 3MgkQfN… и 3FqqSuB…, вероятно, принадлежат одному и тому же кошельку (или, другими словами, принадлежат одному и тому же физическому лицу или субъекту сети).
Есть много других эвристик, которые были изобретены за эти годы, но эвристика с общими входами остаётся самой сильной. Как и в случае любой эвристики, снижающей конфиденциальность, было изобретено множество методов, чтобы обойти этот вид анализа. Наиболее известным из них является CoinJoin, где несколько пользователей создают транзакцию с входами, принадлежащими каждому из них (подробнее об ограничениях метрик кошелька ниже).
Техники кластеризации кошельков также создают новый набор проблем для вычисления метрик сетевых данных. Одно из правил, которые мы применяем к нашим метрикам, заключается в том, что ни одна метрика не должна включать знания, которые были известны после того дня, для которого она была рассчитана.
Это особенно проблематично для кошельков, особенно в BTC, поскольку информация о том, что несколько адресов принадлежат одному кошельку, обычно раскрывается, когда с адресов снимаются средства, спустя долгое время после того, как они были зачислены в первый раз.
Поэтому, когда мы вычисляем количество кошельков на определённый день, мы используем только ту информацию, которая была бы известна в то время. Это приводит к завышению фактического количества кошельков, но со временем делает подсчёт более понятным и предсказуемым.
Этот эффект отражён на приведённом ниже графике. Подсчёт количества кошельков с будущими знаниями для прошлых данных даёт точные цифры в прошлом, но также даёт идентичные данные в качестве нашей методологии при повседневных вычислениях.
Используя знания с середины марта 2014 года, стало ясно, что многие адреса из ранней истории Vertcoin принадлежали ограниченному кругу пользователей, однако в то время это было невозможно узнать, поэтому наша метрика не учитывает это.
Альтернативой было бы пересчитывать все метрики кошелька каждый день, чтобы включить все доступные знания. Однако в связи с требуемым объёмом вычислений это пока не вариант.
Этот эффект наиболее заметен для метрик, учитывающих баланс (например, кошельки, содержащие >= 100 BTC), но на метрики активных кошельков он влияет меньше.
Изучение метрик кошелька для того, чтобы лучше понимать использование и владение BTC
Как обсуждалось выше, активные адреса будут иметь тенденцию к превышению числа уникальных пользователей Биткойна, поскольку физические лица, как правило, контролируют несколько адресов. На приведённой ниже диаграмме представлены ежедневные активные адреса в сравнении с ежедневными активными кошельками. Как и ожидалось, количество активных адресов, как правило, превышает количество ежедневных активных кошельков примерно в 2 раза. На прошлой неделе в среднем ежедневно насчитывалось примерно полмиллиона активных кошельков по сравнению с примерно миллионом активных адресов каждый день.
Метрики кошелька обеспечивают лучшее представление о количестве уникальных пользователей Биткойнов, но не обязательно должны интерпретироваться как уникальные пользователи. Кластеры адресов по-прежнему могут принадлежать таким субъектам сети, как биржи, которые ежедневно облегчают работу множеству разных пользователей.
Метрики кошелька также предоставляют ещё один объект для изучения распределения владения BTC, которое мы недавно уже обсуждали. На приведённых ниже графиках показана доля от общего объёма предложения Биткойна, принадлежащего кошелькам и адресам различных размеров.
Соотношение между размером адреса и размером кошелька аналогично, но крупные кошельки, удерживающие более 10 тыс. BTC, контролируют несколько большую долю предложения по сравнению с адресами с более 10 тыс. BTC. Вероятно, это отражает то, что адреса крупных субъектов сети, таких как биржи, объединены в кошельки. Важно отметить, что эвристика кластеризации может быть подвержена свёртыванию в так называемые «суперкластеры», возникающие в результате слияния нескольких крупных кошельков. Это одна из причин, по которой крайне важно понимать ограничения метрик кошелька.
Ограничения и дальнейшее изучение
Эвристика с общими входами является хорошо зарекомендовавшим себя методом кластеризации адресов, и прошлые исследования этой методологии показывают её крайне высокую эффективность (PDF, англ.). Но, как и в любой эвристике, существует определённая степень неопределённости, которую необходимо понимать.
Для начала, существует вероятность ложных срабатываний, возникающих в результате микширования монет. Как описано ранее, транзакции CoinJoin позволяют отдельным сторонам проводить транзакции вместе, используя общие входы. Для стороннего наблюдателя невозможно определить принадлежность микшированных монет нескольким сторонам. В результате блокчейн-обозреватели, такие как Coin Metrics, обманываются, думая, что все эти пользователи образуют единый кошелёк. Тем не менее принятие мер по борьбе с кластеризацией кошельков, таких как CoinJoin, остаётся незначительным, и по некоторым оценкам составляет около 5% ежедневных транзакций.
Микширование монет — это единственный способ, в котором ложные срабатывания используют эвристику с общими входами, однако вызывают беспокойство ложноотрицательные результаты, т. е. кластеры адресов, которые методология не может идентифицировать. На самом базовом уровне пользователи, которые просто избегают совместного расходования с более чем одним адресом, которым они управляют, не будут группировать свои адреса в кошельке из-за отсутствия ончейн-информации.
На метрики кошелька также может повлиять относительная распространённость повторного использования адресов. В Белой книге Биткойна Сатоши не рекомендует повторно использовать адреса, советуя, что “в качестве дополнительного брандмауэра для каждой транзакции следует использовать новую пару ключей, чтобы они не были связаны с общим владельцем”. Несмотря на это, ончейн-данные показывают, что многие пользователи Биткойна в настоящее время часто повторно используют адреса, причём, по недавним оценкам, до 35% уникальных биткойн-адресов в день использовались ранее. Повторное использование адресов повышает эффективность эвристики общих входов за счёт сохранения информации о кошельке по мере возникновения новых транзакций.
Но даже если новые адреса будут использоваться чаще, использование дополнительной эвристики может привести к постепенному улучшению метрик биткойн-кошелька. Некоторые исследователи предложили группировать вновь сгенерированные адреса изменений (PDF, англ.) с входным адресом (адресами). Эта эвристика предполагает, что новый адрес связан с группой входов как адресом одноразового изменения. Однако выгоды следует сопоставлять с затратами, поскольку это может привести к появлению ещё одного вектора ложных срабатываний. Если ложноположительный показатель будет слишком высоким, со временем все кошельки сольются друг с другом. Внедрение эвристики с более высокими показателями ложных срабатываний также требует внедрения новых эвристик для противодействия этим случайным слияниям, что значительно увеличивает сложность методологии.
Наконец, метрики кошелька могут быть расширены до блокчейнов на основе учётных записей с использованием альтернативных эвристик (эвристика с общими входами имеет смысл только блокчейна на основе UTXO). В недавнем исследовании о кластеризации адресов Эфириума (PDF, англ.) предлагалась эвристика, основанная на биржевых адресах депозитов и эйрдропах токенов.
Когда пользователи хотят завести токены ETH или ERC-20 на биржу, биржа часто просит пользователя отправить свои средства на “адрес депозита”, который она контролирует. Адреса депозитов обычно создаются для каждого клиента, поэтому несколько адресов, отправленных на один и тот же адрес депозита, скорее всего, контролируются одним и тем же пользователем. Это показано на рисунке ниже:
Другая эвристика может быть основана на эйрдропах токенов. Эвристика предполагает, что пользователи, которые контролируют несколько подходящих адресов, будут объединять свои эйрдроп-токены в один адрес для удобства управления.
Однако это активные области исследований с разной степенью эффективности.
В конечном счёте, метрики кошелька используют мощную эвристику, чтобы обеспечить более чёткое представление о реальном количестве субъектов сети, использующих блокчейн. Однако важно понимать структуру этих метрик и их ограничения. Метрики кошелька могут иметь важные экономические и социальные последствия, поскольку могут быть использованы для лучшего понимания распределения предложения монет. Но любые результаты должны учитывать нюансы ончейн-данных, особенно по мере того, как пользователи динамически адаптируются к методам кластеризации.