Анализ данных

Проведение долговременных наблюдений за геофизическими полями открывает пути к решению целого комплекса научных задач. Прежде всего, необходимо описать свойства изучаемого процесса. Следующий шаг – это обнаружение взаимосвязей между разными переменными, установление законов влияния одной величины на другую. Такие связи вначале могут быть обнаружены статистически, а затем получить содержательную интерпретацию, что способствует пониманию физической сути происходящих процессов. Отслеживая изменения, происходящие в контролируемой системе, и располагая моделью процесса, можно прогнозировать те события, которые ожидаются в будущем – например, извержения вулканов или землетрясения.

Опыт показывает, что универсальные пакеты статистического анализа недостаточно приспособлены для работы с рядами геофизического мониторинга из-за специфических особенностей таких данных. Эти ряды почти всегда нестационарны, содержат самые разные квазипериодические и иррегулярные компоненты. Наряду с полезным сигналом, в данных присутствуют и непредсказуемо изменяющиеся помехи, встречаются выбросы и скачки, и почти неизбежно наличие брака и многочисленных пропусков измерений. Обычно каждый вид наблюдений имеет свою собственную временную шкалу. При работе с такими сигналами полезность любых инструментов и методов определяется не их теоретическим совершенством, а тем, в какой степени они помогают исследователю-эксперту манипулировать данными, искать ответы на поставленные вопросы, проверять возникающие идеи.

В отличие от многих других программ, предназначенных для статистической обработки результатов экспериментов, основу WinABD составляют методы визуализации данных. Исследователь получает полный контроль и возможность активно участвовать в процессинге данных на всех этапах работы – начиная от контроля качества наблюдений и кончая оценкой свойств различных моделей. Такая технология имеет ряд неоспоримых преимуществ при обработке сигналов, получаемых при долговременных полевых наблюдениях. Ниже рассмотрены основные задачи, решаемые в среде WinABD.

 

Предварительная обработка данных

Практика показывает, что предварительная обработка и подготовка данных, получаемых при полевых наблюдениях, зачастую требуют не меньших, а больших усилий, чем собственно статистический анализ рядов. Однако без такой предобработки содержательный анализ невозможен или неэффективен. Поэтому инструменты, предназначенные для контроля и подготовки данных, не должны рассматриваться, как вспомогательные. Напротив, такие инструменты являются если не основой, то во всяком случае важнейшей частью любого пакета, предназначенного для работы с сигналами экспериментального мониторинга. WinABD содержит целый комплекс методов предварительного контроля данных, нацеленных на выявление помех и дефектов различного рода, коррекцию выбросов и скачков (в том числе визуальную), ввод поправок за дефекты, связанные с известными внешними причинами. Заранее неизвестно, какие проблемы могут возникнуть при наблюдениях. Поэтому для выявления и устранения этих проблем нужны не просто готовые процедуры, а именно среда, позволяющая автоматически искать сомнительные особенности данных и привлекать к ним внимание эксперта, который затем уже сам выполняет различные проверки и строит алгоритмы выбраковки дефектных значений в зависимости от замеченных неполадок.

 

Разведочный анализ

На следующем шаге обычно выполняется разведочный анализ: строится формальная "базовая" статистическая модель, описывающая поведение сигнала в наиболее общем виде (например: тренд +сезонная компонента + фликкер-шум), выполняется оценивание параметров такой модели. Для выполнения этой работы в WinABD имеются инструменты для выделения и устранения трендов различного вида (включая, например, квантильные и «диффузионные»), периодических и квазипериодических составляющих, в том числе сложной формы (таких, как, например, сезонные вариации), других компонент сигнала с предсказуемым поведением. Можно изучать корреляционные, спектральные и фрактальные свойства рядов, отслеживать изменения этих характеристик во времени и т.д. Эти же инструменты часто позволяют выделять полезный сигнал на фоне шумов, если только свойства сигнала и шума известны, или поддаются оценке из наблюдений.

 

Поиск зависимостей

Конечная цель анализа наблюдений – это построение формально-статистических моделей процесса и их физическая интерпретация. Задача оценки параметров связи между сигналами – это стандартная задача статистики, для решения которой существует множество самых разных инструментов и методов, имеющих строгое теоретическое обоснование и доказанные оптимальные свойства. Однако почти все наиболее употребительные методы статистики предполагают, что анализируемые процессы стационарны. В дополнение к этому, обычно накладываются ограничения на свойства шумов, вид функций распределения и т.д. Лишь очень небольшое число реальных природных процессов хоть в какой-то степени соответствует этим требованиям. Для подавляющего большинства сигналов, получаемых при непрерывных долговременных наблюдениях, условия применимости этих методов нарушаются. В такой ситуации формальное, некритическое применение стандартных методов и моделей крайне опасно, поскольку оно создает иллюзию математи­ческой точности и строгости результатов, которые на самом деле недостоверны [Урбах, 1963].

 

При анализе экспериментальных рядов данных, описывающих реальные природные явления, и имеющих нетривиальные статистические характеристики, любая попытка использования сложных многофакторных моделей, устроенных по принципу «черного ящика», смерти подобна, поскольку исследователь не может ни проконтролировать работу внутренних механизмов модели, ни проверить модель с использованием независимого набора реальных (а не сгенерированных) данных. Вместо этого необходимо отдать приоритет максимально простым, проверяемым моделям и механизмам, имеющим ясный физический смысл. Затем из таких «элементарных» моделей, работоспособность которых не вызывает сомнений, как из кирпичиков, могут складываться более сложные и комплексные конструкции.

 

WinABD обеспечивает исследователя как средствами для построения подобных «элементарных моделей» и контроля их работоспособности, так и инструментами для построения комбинированных моделей, представляющих собой суперпозицию нескольких более простых элементов. Часто схема такого исследования состоит из последовательности этапов выделения главных особенностей сигнала. Это может быть построение статистической модели, описывающей эту особенность, и ее удаление из сигнала. Затем анализируется остаточная (отфильтрованная) компонента ряда. Например, при визуальном анализе ряда, прошедшего предварительную обработку, может быть обнаружено наличие тренда. На следующем шаге строится модель тренда (линейного, параметрического или оцененного сглаживанием в скользящем окне и т.д.), оцениваются ее параметры и тренд вычитается. На следующем шаге в сигнале может быть обнаружена сезонная компонента, для которой также строится модель, оцениваются ее параметры и т.д. Такой процесс выглядит как конвейер, причем на каждом шаге уточняются параметры одного элемента модели, а все остальные параметры обработки подгоняются именно под оценку параметров этого элемента. Архитектура WinABD не просто позволяет реализовать такую конвейерную технологию анализа данных, но и способствует максимально полному и эффективному контролю всех промежуточных результатов. Для этого применяются инструменты визуализации данных, включая оценки различных описательных статистик (спектров, корреляционных функций, функций распределения, анализ остатков и др.), что позволяет немедленно проверять соответствие свойств выделяемых компонент сигнала теоретически ожидаемым.

 

Задача построения статистической, а затем и физической модели связи между природными процессами – это типичная исследовательская задача: алгоритм ее решения заранее неизвестен. Такая модель строится и совершенствуется итеративно, по мере накопления новых данных и знаний, усовершенствования базовых статистических моделей, разработки новых методов и технологий процессинга данных, наиболее адекватных целям исследователя. Каждое новое решение апробируется на имеющихся наблюдениях и проверяется по вновь поступающей информации. Именно такая философия заложена в архитектуру WinABD, в отличие от большинства других пакетов статистического анализа, предназначенных прежде всего для рутинной обработки массивов данных, получаемых в лабораторных условиях.

 

Контроль состояния объекта и выявление изменений

При геофизическом и ином мониторинге наблюдаемые явления и процессы обычно не рассматриваются, как стационарные. Наоборот, считается, что их свойства меняются во времени в зависимости от различных условий и действия внешних факторов. Поэтому важнейшей задачей становится не только оценка статистической структуры процесса, но и отслеживание ее изменений во времени.

Для отслеживания таких изменений наиболее эффективна технология обработки данных в скользящем окне. Это позволяет изучать динамику развития процессов и их взаимосвязей во времени и выявлять изменения, связанные с какими-либо событиями, а также прогнозировать поведение ряда (контролируемой системы) в будущем.

В WinABD имеется более 20 методов скользящего окна. Многие из этих процедур разработаны авторами пакета и не имеют аналогов.

 

Оценка значимости

Проблема корректной оценки значимости результатов является критически важной при обработке экспериментальных реализаций с нетривиальными свойствами, однако ей зачастую уделяется совершенно недостаточное внимание даже в серьезных исследованиях. Особую остроту эта проблема приобретает при обработке рядов долговременных наблюдений. Если исходный сигнал не вполне отвечает требованиям той статистической модели, на которой основан метод, то любые результаты, полученные этим методом, должны подвергаться сомнению и проверяться всеми доступными способами, поскольку критерии, основанные на внутренней сходимости метода в такой ситуации почти всегда излишне оптимистичны. В WinABD имеются средства, помогающие исследователю организовать независимый «внешний контроль» получаемых результатов. Различные инструменты численного моделирования позволяют критически оценить устойчивость получаемых результатов, их зависимость от характеристик сигнала, а значит более обоснованно интерпретировать наблюдаемые эффекты. Так, перемешивание значений ряда позволяет разрушить все корреляционные связи, не меняя функцию распределения, а замена значений их рангами – сохранить упорядоченность значений, но преобразовать любую функцию распределения в равномерную. Однако не стоит надеяться, что какие-то автоматические проверки способны спасти от ошибочных выводов и интерпретаций. Логика и здравый смысл исследователя гораздо важнее.