Жизненный цикл научного эксперимента в коллаборации ATLAS
Коллаборация ATLAS включает исследовательские группы (Physics Groups), каждая из которых занимается определенным типом деятельности. Группы подразделяются на 4 категории (Group Category) – detector, performance, processing, physics (таблица 1).
Таблица 1 – Категории и группы проектов в ATLAS (DatasetDataType)
Категория | Название группы | Описание группы |
detector | IDET | Inner Detector System |
LARG | Liquid Argon Calorimeter System | |
MDET | Muon Detector System | |
TCAL | Tile Calorimeter System | |
TDAQ | Trigger-DAQ | |
THLT | trigger HLT | |
TRIG | Trigger | |
performance | EGAM | e/gamma CP |
FTAG | Flavour tag CP | |
IDTR | Inner Detector Tracking CP | |
JETM | Jet/Etmiss CP | |
MUON | Muon CP | |
TAUP | Tau CP | |
physics | BPHY | B physics WG |
EXOT | Exotics WG | |
HIGG | Higgs WG | |
STDM | Standard Model WG | |
SUSY | SUSY WG | |
TOPQ | Top WG | |
processing | COSM | cosmics |
DAPR | Data Preparation | |
HION | Heavy Ions WG | |
MCGN | MC Generators WG | |
SIMU | MC Simulation | |
PHYS | physics | |
REPR | reprocessing | |
VALI | validation | |
UPGR | Upgrade |
Любая исследовательская деятельность требует данных для анализа. В случае ATLAS – данных с БАК. Стандартный профиль работы БАК составляет 7-8 месяцев в году в режиме 24/7 и 50% времени на каждую экспозицию (т. н. Fill). Набор данных с детектора ATLAS осуществляется указанные периоды работы БАК с эффективностью 92/94%. Периоды набора данных (Data Taking Periods) коррелированы с периодами работы БАК (как по годам, так и в течении одного года). Периоды могут различаются по светимости (Luminosity) и энергии (Energy), а также другим параметрам БАК, а также по параметрам системы сбора данных (фильтрация событий, количество событий для отдельных физических каналов и т. д.), но как правило период набора соответствует режиму работы БАК, а другие изменения учитываются по организации данных внутри одной экспозиции, для этого вводится понятие Run. Периоды уникально идентифицируются по номеру года и латинской букве A..Z. A Run имеют возрастающее числовое значение (за все время работы эксперимента). Каждый период содержит набор из Run. Такова организация данных в эксперименте АТЛАС.
Для моделируемых событий методом Monte-Carlo, вводится понятие "кампания" (Campaign). В этом случае различие проводится по энергии БАК в системе центра масс, геометрии детектора и версии программного обеспечения (ПО). Основные кампании соответствуют календарному году и/или его частям. Причем, как правило, (под)кампании (Subcampaign) связаны с изменениями в базовом ПО (например, программе симуляции и/или реконструкции событий).
Дополнительно введено понятие проекта (Project), чтобы разделить данные с детектора (data), моделируемые события (mc), специальные наборы для проверки физической достоверности ПО и данных (valid) и т. д. Проекты “data” и “mc” содержат также год (соответствующей версии ПО) и энергию ускорителя (Эти соглашения подробно описаны в документе, определяющем номенклатуру и основные соглашения по организации данных. Это "живой документ" и периодически (раз в 2/3 года) происходит его обновление).
Взаимосвязи между сущностями Run Number, Year, Data Taking Period, Project – Campaign приведены на рисунке 1.

Рисунок 1 – Взаимосвязь между этапами сбора данных (Run), годом и периодами сбора данных, и существующими кампаниями и проектами
Важной «инструментальной» характеристикой коллайдера является его светимость (Luminosity): чем она больше, тем чаще происходят столкновения частиц из встречных пучков. Светимость зависит от количества частиц в каждом пучке и от того, насколько плотно частицы собраны, то есть насколько хорошо пучок сфокусирован в точке столкновений. Светимость L выражается в см–2·с–1. Для того чтобы узнать, как часто будет происходить какой-то процесс на данном коллайдере, надо умножить сечение процесса на светимость коллайдера. Например, при проектной светимости LHC, равной 1034 см–2·с–1, процесс рождения хиггсовского бозона с массой 200 ГэВ, имеющий сечение 20 pb (= 2·10–35 см2), будет происходить со средней частотой один раз в пять секунд.
Энергии элементарных частиц (Energy) измеряют в электронвольтах (эВ) и кратных единицах. По определению, 1 эВ — это энергия, которую приобретет электрон в электрическом поле при прохождении разности потенциалов в 1 вольт; 1 эВ примерно равен 1,6·10–19 Дж. Явления, происходящие внутри ядер и элементарных частиц, сопровождаются гораздо большими изменениями энергии. Здесь уже используются мегаэлектронвольты (МэВ, 106 эВ), гигаэлектронвольты (ГэВ, 109 эВ) и даже тераэлектронвольты (ТэВ, 1012 эВ). Например, протоны и нейтроны движутся внутри ядер с кинетической энергией в несколько десятков МэВ. Энергия протон-протонных или электрон-протонных столкновений, при которых становится заметна внутренняя структура протона, составляет несколько ГэВ. Для того чтобы получить самые тяжелые из известных на сегодня частиц, топ-кварки, требуется сталкивать протоны с энергией около 1 ТэВ.
Для запуска цикла обработки данных, который представляет собой конвейер задач по трансформации и анализу данных, менеджер группы (Group Manager) формирует запрос (Request) к производственной системе (Production System). Запрос преобразуется в набор задач (Task) и заданий (Jobs), которые распределяются системой управления загрузкой PanDA на ресурсах GRID. Каждая задача сопровождается входным набором данных (Datasets), организованных в контейнеры (Containers) – коллекция файлов, полученных или обработанных при одних и тех же условиях (версия ПО, стадия трансформации, конфигурация детектора и т. д.). Задаче или группе задач в цепочке преобразования соответствует определенная стадия (Production Step) – генерация событий (evgen), симуляция (simul), реконструкция (recon), слияние данных (merge).
Хранение и обработка данных эксперимента ATLAS осуществляется в распределенной системе Грид (GRID). Центральным узлом сети является вычислительный центр Tier-0, расположенный в ЦЕРНе. Следующими в иерархии являются 11 узлов Tier-1, находящихся в крупных институтах по всему миру. Имеются более мелкие узлы следующих уровней, Tier-2 и Tier-3.
Экспериментальные данные ATLAS имеют несколько основных форматов хранения (Data Formats), между которыми осуществляется последовательное преобразование, начиная с «сырых» данных с детектора, и заканчивая компактными форматами, удобными для конечного физического анализа. Цикл обработки данных ATLAS можно представить следующим образом, как показано на рисунке 2: обработка реальных данных с детектора (data) и смоделированных данных (mc).

Рисунок 2 – Цикл обработки данных в ATLAS (Catmore)
При обработке «сырых» данных с детектора осуществляется их начальная фильтрация. Для предварительного отбора «интересных» столкновений используется трехуровневая система триггеров (Trigger). Триггер эксперимента ATLAS имеет трёхуровневую структуру. Триггер первого уровня (Level-1, L1) выполнен на аппаратном уровне, а последующие триггер второго уровня (Level - 2, L2) и фильтр событий (Event Filter, EF) представляют собой программные алгоритмы, выполняемые на вычислительных фермах. Каждый более высокий уровень триггера пересматривает решение предыдущего и использует дополнительные критерии отбора, если это необходимо. Конфигурация триггера ATLAS задаётся с помощью триггерного меню — набора т. н. триггерных цепочек, содержащие определения физических объектов на каждом уровне триггера. Эти определения включают пороги и критерии отбора объектов. Полное триггерное меню, используемое при наборе данных ATLAS в сеансе Run 1 включало более 500 различных цепочек. В качестве объектов триггера выделяются треки заряженных частиц, сигналы калориметра, ф-лептоны, электроны и фотоны, мюоны и струи, в том числе от b-кварков. Отобранные триггером события записываются в систему постоянного хранения для последующего их анализа (Детектор ATLAS). Эти данные поступают в систему хранения и обработки данных Tier-0. Основной задачей Tier-0 является их первичная реконструкция. После этого выходные данные сохраняются в форматах ESD (Event Summary Data) или AOD (Analysis Object Data) и рассылаются на узлы более низкого уровня. На узлах Tier-1 осуществляется повторная реконструкция событий (Reconstruction). После этого осуществляется деривация результатов реконструкции (Derivation), т. е. их преобразование к формату, пригодному для конечного физического анализа. Эти форматы специфичны для отдельных областей физических исследований.
Практически во всех задачах физического анализа используется моделирование событий методом Монте-Карло. Первым этапом моделирования является генерация событий (Generation) - моделирование -соударений. Для различных физических задач используются генераторы, моделирующие физические процессы, например:
- AcerMC: Zbb~, tt~, single top, tt~bb~, Wbb~ Alpgen (+ MLM matching): W+jets, Z+jets, QCD multijets Charbydis: Исследование черных дыр. CompHep: Мультиструи. HERWIG: Мультиструи QCD, Drell-Yan, SUSY (ISAWIG). Hijing: Тяжелые ионы, Beam-gas.. MadEvent: струи Z/W+... MC@NLO: tt~, Drell-Yan, рождение пары бозона (boson pair production) Pythia: QCD multijets, B-physics, рождение бозона Хиггса (Higgs production). Sherpa: W+jets/Z+jets. (Kersevan, 2007)
и другие (Моделирование событий).
Генератор события создает набор частиц, который направляется в программу моделирования (Simulation) прохождения родившихся стабильных частиц через детектор. На этапе оцифровки (Digitization) моделируется отклик электроники детектора, а затем работа триггера. Получаемые в результате данные имеют формат RDO (Raw Data Objects), который может быть также преобразован в «сырой» поток байтов RAW, т. е. в нём содержится информация, идентичная поступающей с детектора, а также информация о частицах, родившихся на этапе моделирования -соударения и взаимодействия с веществом детектора. Далее такие данные реконструируются (Reconstruction) с помощью того же ПО, что используется для экспериментальных данных, и сохраняется в тех же форматах ESD, AOD и DPD (Михайлович, 2015).
Определены следующие типы данных:
- RAW – так называемые «сырые» данные, полученные в эксперименте или с помощью моделирования. Эти данные не подлежат изменениям. Объем ~1.6 Мб на событие. ESD (Event Summary Data) – скомпрессированные реконструированные данные. Объем ~1500 Кб на событие. AOD (Analysis Object Data) – данные для конечного физического анализа. Объем ~130 Кб на событие. TAG – скомпрессированные данные-признаки для классификации событий, позволяющие осуществлять единичные выборки данных. Объем ~0,3 Кб на событие. dESD, dAOD (Derived formats) – данные, полученные из форматов ESD и AOD, преобразованные определенным образом для физических групп, по сути – некоторое подмножество событий, отобранных по заданным критериям.
ПО для анализа и обработки данных в ATLAS постоянно совершенствуется и подвергается изменениям, которые отражаются в различных релизах (hightly releases, developer releases, production releases, Patches). Каждый релиз фиксируется в AMI (ATLAS Metadata Interface) с присвоением ему определенного тэга (Production Tag). Фрагмент таблицы с описанием тэгов приведены на рисунке 3.

Рисунок 3 – Фрагмент описания Production Tags в системе ATLAS Production Team Pages
Формулирование гипотезы, определение параметров трансформации и анализа данных, выбор сэмплов с экспериментальными данными, и другая информация, связанная с проведением научного исследования, регистрируется в системе коллективного документирования Twiki, системе управления рабочими совещаниями и конференциями Indico. Промежуточные результаты исследований публикуются в качестве тезисов конференций (Conference Notes). Финальным этапом проведения научного исследования является публикация (Publication) в научном журнале.


