Особенности рядов данных, получаемых в результате непрерывных длительных наблюдений

Отсутствие стационарности

Аппарат классической статистики содержит огромное количество инструментов, предназначенных для анализа результатов наблюдений. Однако большинство наиболее известных методов и критериев опираются на понятие «случайной величины», которая может измеряться неоднократно. При этом принципиально важно, что мы каждый раз наблюдаем одну и ту же случайную величину, то есть ее свойства не меняются от измерения к измерению. Именно это позволяет нам более точно оценивать различные характеристики изучаемой переменной путем обработки массива из нескольких измерений. Например, чтобы рассчитать математическое ожидание контролируемой величины, можно выполнить серию наблюдений, а затем найти среднее.

При геофизическом мониторинге исследователь имеет дело не со случайной величиной, а со случайным процессом – то есть гораздо более сложным объектом с точки зрения формальной статистики. Это до крайности осложняет теоретическое обоснование любых статистических методов, используемых при обработке таких сигналов. Ведь согласно определению, случайный процесс – это параметризированное семейство случайных величин, индексированных, например, временем t. В общем случае все эти случайные величины могут иметь неодинаковые средние значения, дисперсии и другие свойства. Поэтому мы не вправе не только выполнять какую-то сложную обработку, но даже просто рассчитать среднее для нескольких измерений. Ведь если процесс не стационарен, то нет никаких гарантий, что мы всякий раз измеряем одно и то же.

Практика показывает, что ряды данных, получаемые при геофизическом, биологическом, медицинском и ином мониторинге, почти никогда не удовлетворяют парадигме стационарности. Причем, мы не можем просто отфильтровать нестационарные эффекты перед началом расчетов, так как именно эти эффекты часто и являются целью исследований. Поэтому такая фильтрация неизбежно чревата риском «выплеснуть вместе с водой ребенка».

При обработке подобных рядов всегда приходится исходить из какого-то компромисса. Иногда априори вводится некоторая модель, позволяющая разделить сигнал на стационарную и нестационарную компоненту. Однако кто может гарантировать, что модель выбрана правильно, что она вполне адекватна изучаемому процессу? В других случаях для обработки применяются обычные корреляционные, регрессионные, спектральные и иные методы, предназначенные для анализа стационарных процессов, а фактор нестационарности как-то учитывается уже при интерпретации результатов. Единственного «правильного» решения в такой ситуации не существует, ведь для этого необходимо точно знать статистические характеристики изучаемого процесса. А это практически невозможно, если в нашем распоряжении имеется всего лишь одна реализация такого процесса, к тому же ограниченной длительности.

Непредсказуемые помехи

Наряду с нестационарным полезным сигналом, в рядах данных долговременных наблюдений обычно присутствуют и непредсказуемо изменяющиеся помехи. В данных это может проявляться в виде скачков среднего уровня и дисперсии, наложения паразитного гармонического или полигармонического сигнала, появления «переходных процессов» различного рода. Ясно, что никакие формальные процедуры в принципе не способны самостоятельно обнаруживать и купировать те помехи, свойства которых заранее неизвестны. Для этого в обязательном порядке необходим вклад исследователя, который должен заметить проблему и построить модель помехи. Лишь после этого можно автоматизировать инструменты для ее устранения.

Технические проблемы

При длительных полевых наблюдениях всегда очень остро стоит вопрос качества данных. Опыт показывает, что в таких рядах часто встречаются выбросы и скачки, может присутствовать дрейф нуля или тренды, связанные с нестабильностью параметров аппаратуры. Лишь в исключительных случаях эти сигналы не содержат перерывов и пропусков в наблюдениях, а также различных ошибок. Причем, далеко не всегда такие ошибки очевидны «с первого взгляда» – часто для их обнаружения и фильтрации необходимо провести специальный анализ.

Разумеется, выявление технического брака – это не задача статистики. Однако при обработке реальных данных исследователь неизбежно сталкивается с этой проблемой, и должен располагать инструментами, помогающими ее разрешить.

 

Что же со всем этим делать?

Особые свойства экспериментальных рядов, получаемых в результате непрерывных длительных наблюдений, требуют применения специальных приемов и методов при накоплении и анализе данных. Предварительная подготовка данных, их контроль и очистка от брака из рутинных вспомогательных процедур превращаются в важнейшие элементы технологии, от успешной реализации которых зависит сама возможность получения корректного результата.

По-другому надо подходить и к выбору методов обработки сигнала. Если статистические характеристики данных неизвестны, то невозможен и строгий выбор наилучшего алгоритма. Больше того, в такой ситуации нельзя слепо верить никаким критериям значимости, поскольку всегда есть опасность, что условия применимости критерия не вполне соблюдаются. Фактически все результаты должны критически реинтерпретироваться экспертом, вполне осознающим условность любых формальных оценок. А вместо единственного метода, который представляется оптимальным, лучше параллельно опробовать несколько алгоритмов, обращая особое внимание на устойчивость метода, его терпимость к различным дефектам данных.

Ключ к решению – визуально-ориентированная среда анализа данных

Универсальные статистические пакеты не всегда в должной мере приспособлены для практической работы с неидеальными данными, получаемыми при долговременных полевых наблюдениях. Стандартная схема вычислений в таких пакетах включает три шага: выбор метода – выбор данных – презентация результата. При этом данные обычно хранятся в виде таблиц или массивов чисел, и только итоговое заключение оформляется в виде графиков и критериев, иллюстрирующих достижение цели. Детали вычислительного процесса при этом скрыты от пользователя, который тем самым лишается возможности контролировать ход расчетов. Впрочем, при обработке результатов лабораторных экспериментов, когда все статистические характеристики обрабатываемого сигнала прекрасно известны, в этом и нет особой необходимости.

Однако ситуация резко меняется, если в данных имеются какие-то непредвиденные особенности. В такой ситуации оценка достоверности результатов с помощью одних только формальных критериев часто дает лишь иллюзию значимости. Для аккуратной, взвешенной интерпретации необходимо не только видеть итоговый результат, но и понимать, как именно он получен, какие допущения принимались на каждом шаге расчетов, и, главное, в какой степени соответствует этим допущениям изучаемый ряд.

Чтобы обеспечить всестороннее участие исследователя-эксперта на всех этапах обработки сигнала, необходима специальная среда анализа данных. Основу такой среды составляют процедуры визуализации временных рядов и их основных свойств (спектральных, корреляционных статистик и др.). Наиболее естественное построение каждого шага «цикла обработки данных» начинается с анализа графика и выбора оптимальных параметров алгоритма. После применения любого метода данные вновь выводятся на график, и исследователь оценивает, правильно ли были выбраны все настройки, или их надо подкорректировать и повторить процедуру. Формальные статистики, характеризующие результат выполнения операции, также, конечно, полезны, однако не следует переоценивать их значение при работе с рядами, статистические характеристики которых доподлинно не известны.

Разумеется, визуально-ориентированная среда анализа данных – это далеко не единственное требование к программе, предназначенной для работы с данными режимных геофизических наблюдений. В следующем разделе перечислены те особенности WinABD, которые помогают успешно справляться со всеми задачами, возникающими при анализе подобных рядов.