Жизненный цикл научного эксперимента в коллаборации ATLAS

Коллаборация ATLAS включает исследовательские группы (Physics Groups), каждая из которых занимается определенным типом деятельности. Группы подразделяются на 4 категории (Group Category) – detector, performance, processing, physics (таблица 1).

Таблица 1 – Категории и группы проектов в ATLAS  (DatasetDataType)

Категория

Название группы

Описание группы

detector


IDET

Inner Detector System

LARG

Liquid Argon Calorimeter System

MDET

Muon Detector System

TCAL

Tile Calorimeter System

TDAQ

Trigger-DAQ

THLT

trigger HLT

TRIG

Trigger

performance


EGAM

e/gamma CP

FTAG

Flavour tag CP

IDTR

Inner Detector Tracking CP

JETM

Jet/Etmiss CP

MUON

Muon CP

TAUP

Tau CP

physics


BPHY

B physics WG

EXOT

Exotics WG

HIGG

Higgs WG

STDM

Standard Model WG

SUSY

SUSY WG

TOPQ

Top WG

processing


COSM

cosmics

DAPR

Data Preparation

HION

Heavy Ions WG

MCGN

MC Generators WG

SIMU

MC Simulation

PHYS

physics

REPR

reprocessing

VALI

validation

UPGR

Upgrade


Любая исследовательская деятельность требует данных для анализа. В случае ATLAS – данных с БАК. Стандартный профиль работы БАК составляет 7-8 месяцев в году в режиме 24/7 и 50% времени на каждую экспозицию (т. н. Fill). Набор данных с детектора ATLAS осуществляется указанные периоды работы БАК с эффективностью 92/94%. Периоды набора данных (Data Taking Periods) коррелированы с периодами работы БАК (как по годам, так и в течении одного года). Периоды могут различаются по светимости (Luminosity) и энергии (Energy), а также другим параметрам БАК, а также по параметрам системы сбора данных (фильтрация событий, количество событий для отдельных физических каналов и т. д.), но как правило период набора соответствует режиму работы БАК, а другие изменения учитываются по организации данных внутри одной экспозиции, для этого вводится понятие Run. Периоды уникально идентифицируются по номеру года и латинской букве A..Z. A Run имеют возрастающее числовое значение (за все время работы эксперимента). Каждый период содержит набор из Run. Такова организация данных в эксперименте АТЛАС.

НЕ нашли? Не то? Что вы ищете?

Для моделируемых событий методом Monte-Carlo, вводится понятие "кампания" (Campaign). В этом случае различие проводится по энергии БАК в системе центра масс, геометрии детектора и версии программного обеспечения (ПО). Основные кампании соответствуют календарному году и/или его частям. Причем, как правило, (под)кампании (Subcampaign) связаны с изменениями в базовом ПО (например, программе симуляции и/или реконструкции событий).

Дополнительно введено понятие проекта (Project), чтобы разделить данные с детектора (data), моделируемые события (mc), специальные наборы для проверки физической достоверности ПО и данных (valid) и т. д. Проекты “data” и “mc” содержат также год (соответствующей версии ПО) и энергию ускорителя (Эти соглашения подробно описаны в документе, определяющем номенклатуру и основные соглашения по организации данных. Это "живой документ" и периодически (раз в 2/3 года) происходит его обновление).

Взаимосвязи между сущностями Run Number, Year, Data Taking Period, Project – Campaign приведены на рисунке 1.

Рисунок 1 – Взаимосвязь между этапами сбора данных (Run), годом и периодами сбора данных, и существующими кампаниями и проектами

Важной «инструментальной» характеристикой коллайдера является его светимость (Luminosity): чем она больше, тем чаще происходят столкновения частиц из встречных пучков. Светимость зависит от количества частиц в каждом пучке и от того, насколько плотно частицы собраны, то есть насколько хорошо пучок сфокусирован в точке столкновений. Светимость L выражается в см–2·с–1. Для того чтобы узнать, как часто будет происходить какой-то процесс на данном коллайдере, надо умножить сечение процесса на светимость коллайдера. Например, при проектной светимости LHC, равной 1034 см–2·с–1, процесс рождения хиггсовского бозона с массой 200 ГэВ, имеющий сечение 20 pb (= 2·10–35 см2), будет происходить со средней частотой один раз в пять секунд.

Энергии элементарных частиц (Energy) измеряют в электронвольтах (эВ) и кратных единицах. По определению, 1 эВ — это энергия, которую приобретет электрон в электрическом поле при прохождении разности потенциалов в 1 вольт; 1 эВ примерно равен 1,6·10–19 Дж. Явления, происходящие внутри ядер и элементарных частиц, сопровождаются гораздо большими изменениями энергии. Здесь уже используются мегаэлектронвольты (МэВ, 106 эВ), гигаэлектронвольты (ГэВ, 109 эВ) и даже тераэлектронвольты (ТэВ, 1012 эВ). Например, протоны и нейтроны движутся внутри ядер с кинетической энергией в несколько десятков МэВ. Энергия протон-протонных или электрон-протонных столкновений, при которых становится заметна внутренняя структура протона, составляет несколько ГэВ. Для того чтобы получить самые тяжелые из известных на сегодня частиц, топ-кварки, требуется сталкивать протоны с энергией около 1 ТэВ.

Для запуска цикла обработки данных, который представляет собой конвейер задач по трансформации и анализу данных, менеджер группы (Group Manager) формирует запрос (Request) к производственной системе (Production System). Запрос преобразуется в набор задач (Task) и заданий (Jobs), которые распределяются системой управления загрузкой PanDA на ресурсах GRID. Каждая задача сопровождается входным набором данных (Datasets), организованных в контейнеры (Containers) – коллекция файлов, полученных или обработанных при одних и тех же условиях (версия ПО, стадия трансформации, конфигурация детектора и т. д.). Задаче или группе задач в цепочке преобразования соответствует определенная стадия (Production Step) – генерация событий (evgen), симуляция (simul), реконструкция (recon), слияние данных (merge).

Хранение и обработка данных эксперимента ATLAS осуществляется в распределенной системе Грид (GRID). Центральным узлом сети является вычислительный центр Tier-0, расположенный в ЦЕРНе. Следующими в иерархии являются 11 узлов Tier-1, находящихся в крупных институтах по всему миру. Имеются более мелкие узлы следующих уровней, Tier-2 и Tier-3.

Экспериментальные данные ATLAS имеют несколько основных форматов хранения (Data Formats), между которыми осуществляется последовательное преобразование, начиная с «сырых» данных с детектора, и заканчивая компактными форматами, удобными для конечного физического анализа. Цикл обработки данных ATLAS можно представить следующим образом, как показано на рисунке 2: обработка реальных данных с детектора (data) и смоделированных данных (mc).

Рисунок 2 – Цикл обработки данных в ATLAS (Catmore)

При обработке «сырых» данных с детектора осуществляется их начальная фильтрация. Для предварительного отбора «интересных» столкновений используется трехуровневая система триггеров (Trigger). Триггер эксперимента ATLAS имеет трёхуровневую структуру. Триггер первого уровня (Level-1, L1) выполнен на аппаратном уровне, а последующие триггер второго уровня (Level - 2, L2) и фильтр событий (Event Filter, EF) представляют собой программные алгоритмы, выполняемые на вычислительных фермах. Каждый более высокий уровень триггера пересматривает решение предыдущего и использует дополнительные критерии отбора, если это необходимо. Конфигурация триггера ATLAS задаётся с помощью триггерного меню — набора т. н. триггерных цепочек, содержащие определения физических объектов на каждом уровне триггера. Эти определения включают пороги и критерии отбора объектов. Полное триггерное меню, используемое при наборе данных ATLAS в сеансе Run 1 включало более 500 различных цепочек. В качестве объектов триггера выделяются треки заряженных частиц, сигналы калориметра, ф-лептоны, электроны и фотоны, мюоны и струи, в том числе от b-кварков. Отобранные триггером события записываются в систему постоянного хранения для последующего их анализа (Детектор ATLAS). Эти данные поступают в систему хранения и обработки данных Tier-0. Основной задачей Tier-0 является их первичная реконструкция. После этого выходные данные сохраняются в форматах ESD (Event Summary Data) или AOD (Analysis Object Data) и рассылаются на узлы более низкого уровня. На узлах Tier-1 осуществляется повторная реконструкция событий (Reconstruction). После этого осуществляется деривация результатов реконструкции (Derivation), т. е. их преобразование к формату, пригодному для конечного физического анализа. Эти форматы специфичны для отдельных областей физических исследований.

Практически во всех задачах физического анализа используется моделирование событий методом Монте-Карло. Первым этапом моделирования является генерация событий (Generation) - моделирование ����-соударений. Для различных физических задач используются генераторы, моделирующие физические процессы, например:

    AcerMC: Zbb~, tt~, single top, tt~bb~, Wbb~ Alpgen (+ MLM matching): W+jets, Z+jets, QCD multijets Charbydis: Исследование черных дыр. CompHep: Мультиструи. HERWIG: Мультиструи QCD, Drell-Yan, SUSY (ISAWIG). Hijing: Тяжелые ионы, Beam-gas.. MadEvent: струи Z/W+... MC@NLO: tt~, Drell-Yan, рождение пары бозона (boson pair production) Pythia: QCD multijets, B-physics, рождение бозона Хиггса (Higgs production). Sherpa: W+jets/Z+jets. (Kersevan, 2007)

  и другие (Моделирование событий).

Генератор события создает набор частиц, который направляется в программу моделирования (Simulation) прохождения родившихся стабильных частиц через детектор. На этапе оцифровки (Digitization) моделируется отклик электроники детектора, а затем работа триггера. Получаемые в результате данные имеют формат RDO (Raw Data Objects), который может быть также преобразован в «сырой» поток байтов RAW, т. е. в нём содержится информация, идентичная поступающей с детектора, а также информация о частицах, родившихся на этапе моделирования ����-соударения и взаимодействия с веществом детектора. Далее такие данные реконструируются (Reconstruction) с помощью того же ПО, что используется для экспериментальных данных, и сохраняется в тех же форматах ESD, AOD и DPD (Михайлович, 2015).

Определены следующие типы данных:

    RAW – так называемые «сырые» данные, полученные в эксперименте или с помощью моделирования. Эти данные не подлежат изменениям. Объем ~1.6 Мб на событие. ESD (Event Summary Data) – скомпрессированные реконструированные данные. Объем ~1500 Кб на событие. AOD (Analysis Object Data) – данные для конечного физического анализа. Объем ~130 Кб на событие. TAG – скомпрессированные данные-признаки для классификации событий, позволяющие осуществлять единичные выборки данных. Объем ~0,3 Кб на событие. dESD, dAOD (Derived formats) – данные, полученные из форматов ESD и AOD, преобразованные определенным образом для физических групп, по сути – некоторое подмножество событий, отобранных по заданным критериям.

ПО для анализа и обработки данных в ATLAS постоянно совершенствуется и подвергается изменениям, которые отражаются в различных релизах (hightly releases, developer releases, production releases, Patches). Каждый релиз фиксируется в AMI (ATLAS Metadata Interface) с присвоением ему определенного тэга (Production Tag). Фрагмент таблицы с описанием тэгов приведены на рисунке 3. 

Рисунок 3 – Фрагмент описания Production Tags в системе ATLAS Production Team Pages

Формулирование гипотезы, определение параметров трансформации и анализа данных, выбор сэмплов с экспериментальными данными, и другая информация, связанная с проведением научного исследования, регистрируется в системе коллективного документирования Twiki, системе управления рабочими совещаниями и конференциями Indico. Промежуточные результаты исследований публикуются в качестве тезисов конференций (Conference Notes). Финальным этапом проведения научного исследования является публикация (Publication) в научном журнале.