ТЕМЫ ДИПЛОМНЫХ РАБОТ ( учебный год)

Профессор

1.  Новый критерий независимости, основанный на ранговой корреляции.

Проверка независимости признаков – одна из важнейших задач статистики. Здесь разработано множество критериев, среди которых выделяются критерии, основанные на коэффициентах ранговой корреляции – Спирмена, Кендалла, Блеста и ряда других. Недавно новый критерий такого типа был предложен Боррони, который, однако не сумел вычислить его асимптотическую эффективность. Это предлагается сделать в дипломной работе, возможные подходы будут изложены при встрече.

Литература.

1. Ранговые корреляции. М., Статистика, 1975 г.

2.G. Borroni. A new rank correlation measure. Statistical papers, 2013, v.54, N2

2.  Критерии многомерной симметрии, основанные на ядерных оценках плотности, и их эффективность.

Под ядерной оценкой плотности p(x) по выборке X_1,...,X_n

понимается оценка

p_n(x)= (nh_n)^{-1} \sum_{i=1}^n K( h_n^{-1}(x - X_i)),

где h_n \to 0,\ nh_n \to \infty, а K - произвольная плотность (ядро).

Такие оценки предложили Парзен и Розенблатт примерно 50 лет

назад, они хорошо изучены и используются во многих задачах статистики.

Летназад научились вычислять асимптотику больших

уклонений функционалов от этих оценок, что открыло путь к

изучению их эффективности.

Недавно в работе Берраху и Луани изучался критерий симметрии

распределения, основанный на статистике

T_n = \int_{R^1} |p_n(x)- p_n(-x)| dx.

Авторы вычислили асимптотику больших уклонений этой статистики, и

НЕ нашли? Не то? Что вы ищете?

как следствие - ее асимптотическую эффективность, изучили условия

локальной оптимальности.

В многомерном случае симметрия может определяться по разному, есть,

например, сферическая симметрия, угловая симметрия, аффинная

симметрия и ряд других понятий. Можно ли проверять их справедливость

на основе многомерных вариантов статистик (1) ? Этот вопрос пока

совершенно не изучен, и он может составить предмет дипломной работы.

Литература у руководителя.

Профессор

1.  Максимальная кратность вершин в случайных графах больших сетей

Целью работы является изучение математических моделей больших сетей экономической, биологической, и особенно социальной природы (Facebook, "Вконтакте", "Одноклассники" и др.) В работе предлагается изучить математические характеристики динамического графа сети, в частности, - максимальную кратность вершины такого графа.

Литература:

Adamic L. et al. Search in power law networks. Phys. Rev. E., v.64, 2001.

Aiello W. et al. A random graph model for massive graphs. Proc. ACM Symp.,NY, 2000.

Aiello W. et al. Random evolution of massive graphs. In: Handbook of Massive Data Sets. Kluwer, Dordrecht, 2002.

Dorogovtsev S. N. et al. Size-dependent degree distribution of a scale-free growing network, Phys. Rev. E., v.63, 2001.

Newman M. E.J. The structure and function of complex networks. SIAM Reviews, 2003, v.45, 167-256 (доступно в интернете)

2.  Случайные множества и поиск в массивах текстов.

Рассматривая фрагмент текста, его можно воспринимать как случайный набор (случайное множество) слов, удовлетворяющий определённым вероятностным законам. В дипломной работе необходимо изучить вероятностные свойства таких случайных множеств в плане анализа результатов случайного поискового запроса в случайной базе документов.

Литература:

http://en. wikipedia. org/wiki/Zipf's_law

http://en. wikipedia. org/wiki/Zipf-Mandelbrot_law

Профессор

1.  О характеризациях некоторых распределений свойствами порядковых статистик

Стандартный представитель семейства логистических распределений имеет функцию распределения

F(x)= 1/(1+exp(-x)), -∞<x<∞. (*)

Если рассмотреть порядковые статистики X1,3≤X2,3≤X3,3 , то соотношение

f2,3(t)= (1+t2)f(t),

где f2,3(t) - характеристическая функция X2,3, а f(t)- характеристическая функция исходных X-ов, характеризует логистическое распределение (*).

Взяв в качестве исходной приведенную характеризацию, надо продолжить исследования в данном направлении и попытаться ответить на следующие вопросы.

a). Какие распределения характеризуются, например, равенствами вида

f2,3(t)= (1+t2)k f(t), k=2,3,….?

b) Какие распределения могут характеризоваться, скажем, соотношениями для характеристических функций вида

(f1,3+f3,3(t))= 2(1+t2)f(t)?

c) Соответствующие характеризации распределений можно исследовать и в случае, когда рассматриваются порядковые статистики, построенные по большему числу наблюдений.

d) Можно также исследовать соотношение вида (*) , в котором вместо характеристической функции порядковой статистики X2,3 будет представлена характеристическая функция рекордной величины X(2).

Литература.

1) “Рекорды. Математическая теория”. Фазис, М., 2000

2) А. Берред, “О характеризациях семейств распределений, включающих

логистическое , свойствами порядковых статистик”. Записки научных семинаров ПОМИ, т.396, 2011, стр. 67-72.

2.  Рекорды с ограничением в случае дискретных распределний

Рассмотрим последовательность независимых одинаково распределенных случайных величин X1,X2,… . Мы говорим о рекордных величинах с ограничением X(1)=X1<X(2)<… , если очередная рекордная величина X(n+1) определяется, только если она удовлетворяет соотношению X(n)<X(n+1)≤X(n)+C, где X(n)- предыдущий рекорд, а C-некоторая константа. Такие рекорды были рассмотрены для непрерывных распределений. Нужно теперь разобраться с подобными рекордами в ситуации, когда исходные X1,X2,… имеют дискретное распределение.

Литература.

1) “Рекорды. Математическая теория”. Фазис, М., 2000

2) “Рекордные величины с ограничением”. Вестник СПбГУ, Сер.1 (2013), выпуск 3.

3.  О среднем числе рекордов в последовательностях неодинаково распределенных случайных величин

Рассмотрим последовательность X1, Y1,X2,Y2,…,Xn, Yn независимых случайных величин, в которой X имеют некоторую общую функцию распределения F, а H- функция распределения Y-ов. Пусть N(2n) – сумма верхних и нижних рекордов в этой последовательности. Нужно найти соотношения между F и H, при которых математическое ожидание EN(2n) будет наибольшим. Похожая проблема (но только для числа верхних рекордных величин) исследуется в работе [1].

Литература.

1)  , О среднем числе рекордов в последовательностях неодинаково

распределенных случайных величин. Вестник СПбГУ, т.45, вып, стр.28-32.

Профессор

1.  Обобщенный закон повторного логарифма.

Предлагается найти новые условия применимости обобщенного закона повторного

логарифма для последовательности независимых случайных величин при отсутствии предположений о существовании моментов и для произвольной последовательности нормирующих постоянных.
Литература.
1.. Предельные теоремы для сумм независимых
случайных величин. "Наука", М. 1987, глава 7, параграф 3.
2.. Записки научных семинаров ПОМИ, 2002, т. 294.

Профессор

1.  Сильные предельные теоремы для приращений процессов восстановления.

Случайный процесс N(t)=max{n: S(n) <= t}, t>0, S(n)- сумма n независимых одинаково распределенных положительных случайных величин, называется процессом восстановления. В [1] найдена формула нормирующей последовательности в предельных теоремах о п. н. сходимости приращений процессов восстановления. Это позволило объединить единой теорией закон больших чисел, закон повторного логарифма, закон Эрдеша-Реньи и закон Черге-Ревеса для процессов восстановления. В дипломной работе предлагается продолжить исследования по данной тематике. Возможны различные направления работы. Например, отказ от положительности слагаемых, рассмотрение не охваченных общей теорией ситуаций или рассмотрение вместо сумм каких-либо других случайных процессов (разумеется, с соответствующим изменением названия процесса N(t)). Собственные предложения приветствуются.

Литература.

1.. Сильные предельные теоремы для приращений процессов восстановления. 2003. Зап. научн. семин. ПОМИ, т. 298, с. 208-225. (доступна в Интернете).

2.  Оценки в комбинаторной центральной предельной теореме.

Пусть {X(i, j)} – n x n матрица независимых случайных величин, S(n)= X(1,p(1))+…+X(n, p(n)), (p(1),…,p(n)) – случайная перестановка 1,…,n, не зависящая от X’ов, выбираемая из всех возможных перестановок с вероятностью 1/(n!). Известно (см. лит. в [1]), что при определенных условиях распределения S(n) сходятся к стандартному нормальному распределению (при n->infty). Получены также аналоги неравенства Эссеена для S(n), дающие оценку скорости сходимости в комбинаторной ЦПТ. В дипломной работе предлагается продолжить исследования свойств S(n). Например, можно получать обобщения неравенства Эссеена, изучать большие уклонения или п. н. поведение S(n). Собственные предложения приветствуются.

Литература.

1. L. H.Y. Chen, X. Fang. On the error bound in a combinatorial central limit theorem. ArXiv:1111.3159v2. (доступна в Интернете).

Профессор

1.Распределение функционалов от броуновского движения, остановленного в случайные моменты времени.

Предлагается развить известные теоретические результаты о вычислении распределений функционалов от диффузий со скачками на случай, когда диффузии останавливаются в случайные моменты времени, полученные из классических моментов с помощью операций максимума и минимума.

Профессор

1. Точность сильной гауссовской аппроксимации для сумм независимых одинаково распределенных случайных векторов

Точность сильной гауссовской аппроксимации для сумм независимых одинаково распределенных случайных векторов обычно оценивается в двух следующих различных, но тесно связанных ситуациях. Оценивание точности сильной аппроксимации в принципе инвариантности может быть сведено к этим задачам.

(A) Требуется построить на одном вероятностном пространстве последовательность независимых одинаково распределенных случайных векторов X, X1, X2,… (с заданными распределениями, E|X|2 < ∞, EX=0) и последовательность независимых гауссовских случайных векторов Y, Y1, Y2,… таким образом, чтобы |Σj=1n Xj – Σj=1n Yj| = O(f(n)) или o(f(n)) почти наверное, для последовательности f(n), стремящейся к бесконечности как можно медленнее.

(B) Требуется построить на одном вероятностном пространстве последовательность независимых одинаково распределенных случайных векторов X, X1,… ,Xn (с заданными распределениями) и последовательность независимых гауссовских случайных векторов Y, Y1,… ,Yn таким образом, чтобы величина Dn(X, Y)=maxk Σj=1k Xj – Σj=1k Yj| была бы по возможности мала с достаточно большой вероятностью.

Существуют аналоги задач (A) и (B) для неодинаково распределенных случайных векторов.

В последние годы достигнут существенный прогресс в решении задач (A) и (B) в многомерном случае. Однако осталось некоторое количество нерешенных вопросов. В дипломной работе предлагается изучить эти вопросы и попробовать получить продвижение в их решении.

Литература

1. Зайцев точности сильной аппроксимации в многомерном принципе инвариантности. Записки научных семинаров ПОМИ, 2006, т. 339, с. 37-53.

2. Зайцев точности сильной гауссовской аппроксимации сумм независимых одинаково распределенных случайных векторов. Записки научных семинаров ПОМИ, 2007, т. 351, с. 141-157.

3. Götze F., Zaitsev A. Yu. Bounds for the rate of strong approximation in the multidimensional invariance principle. Теория вероятн. и ее примен., 2008, т. 53, 1, с 100-123.

4. Зайцев сильной гауссовской аппроксимации для сумм независимых одинаково распределенных случайных векторов. Записки научных семинаров ПОМИ, 2009, т. 364, с. 148–165.

5. Зайцев аппроксимации в многомерном принципе инвариантности для сумм независимых одинаково распределенных случайных векторов с конечными моментами. Записки научных семинаров ПОМИ, 2009, т. 368, с. 110–121.

Доцент

1. Различные задачи случайного размещения интервалов на отрезке

В данной теме предполагается изучать различные процессы случайного заполнения отрезка интервалами, провести описание этих процессов и их некоторых свойств.

Исходным процессом в данной теме послужил хорошо известный процесс “парковки”, описанный в работе Реньи 1958 года. Позже подобными задачами занимались Ней, Шепп, Роббинс и Дворецкий, Мэнион и другие математики.

Литература у руководителя.

Доцент

1.  Логарифмическое неравенство Соболева для новых классов марковских переходных операторов.

Так называемое логарифмическое неравенство Соболева, принадлежащее

на самом деле Л. Гроссу (опиравшемуся на предшествующую работу

Э. Нелсона), позволяет, в частности, установить достаточно тонкое

свойство гиперсжимаемости, описывающее сглаживание вероятности

перехода за большое время. С другой стороны, имеются примеры

генераторов марковских процессов, связанных с динамическими системами,

применимость к которым известных методов доказательства

логарифмического неравенства Соболева неочевидна. Предполагается,

что дипломант ознакомится с литературой по данному предмету и

установит это неравенство для упомянутых выше новых ситуаций.

Литературу можно запросить по электронной почте

*****@

Доцент

1.  Вероятности больших уклонений для L-статистик с разрывной весовой функцией.

Существует обширная литература по теории предельных теорем для вероятностей больших уклонений в случае сумм независимых случайных величин. Однако известно сравнительно немного работ, посвященных асимптотике вероятностей больших уклонений для L-статистик.

Пусть -- последовательность независимых одинаково распределенных случайных величин, , -- порядковые статистики, соответствующие первым n элементам последовательности. L-статистики – это сокращенное название линейных функций порядковых статистик: , где коэффициенты обычно определяют при помощи весовой функции J по одной из формул или i=1,…,n. В дипломной работе предполагается изучение литературы по вероятностям больших уклонений для L-статистик и получение новых результатов в ситуации, когда весовая функция J(u), u є (0,1), является разрывной

2.  Оценки точности нормальной аппроксимации для слабо усеченных сумм.

Пусть -- последовательность независимых одинаково распределенных случайных величин, , -- порядковые статистики, соответствующие первым n элементам последовательности. Слабо усеченной суммой называется статистика вида , где , , при . Необходимые и достаточные условия асимптотической нормальности распределения нормированной статистики. были найдены в работе [1]. В статье [2] получены оценки скорости сходимости к нормальному закону типа Берри – Эссена для широкого класса статистик вида , где – симметричная функция переменных.

В дипломной работе предлагается изучить статьи [1], [2] и применить метод из статьи [2] для получения оценок скорости сходимости к нормальному закону распределения .

ЛИТЕРАТУРА.

1. Csörgő. S, Haeusler E and Mason D. The asymptotic distribution of trimmed sums. – Annals of Probability, 1988, v. 16, p. 672-699.

2.Van Zwet, W. R. A Berry – Esseen bound for symmetric statistics. – Z. Wahrsch. Verw. Gebiete, 1984, v. 66, p. 425-440.

Доцент Малов С.В.

1.  Распределение максимума модуля компонент многомерного нормального распределения и задачи множественного тестирования.

Предполагаемое содержание работы: При поиске генетических последовательностей или мутаций, влияющих на восприимчивость организма к некоторой болезни («сигналов»), проводится огромное множество тестов, многие из которых показывают значимое отклонение от независимости по чисто случайным причинам. Для выявления «сигналов», ответственных за течение болезни, в случае небольшого их числа можно использовать так называемую поправку Бонферрони, гарантирующую, что вероятность выявления хотя бы одного ошибочного «сигнала» не превышает наперед заданного уровня. Также, иногда используют более слабую локальную вероятность ошибки (FDR-false discovery rate), которая ограничивает вероятность ошибки в каждом отдельном тесте. Для независимых тестов можно использовать поправку Данна–Шидака, но в случае малого числа «сигналов» она практически не отличается от поправки Бонферрони. Тем не менее, при наличии зависимых определенным образом тестов эффективность имеющихся методов может быть увеличена.

Критерии перестановок позволяют находить поправку в случае зависимых тестов наиболее точно, однако при большом количестве тестов реализация перестановочного критерия требует слишком много ресурсов. С другой стороны, аналитическое решение проблемы приводит к задаче оценивания максимумального модуля компонент нормального распределения с произвольной структурой зависимости. Распределение максимумального модуля компонент нормального распределения в общем случае не может быть представлено в простой форме, однако для некоторых специальных форм матрицы ковариации существуют относительно простые формулы. Предлагается изучить литературу по этой тематике и рассмотреть возможные варианты оценивания распределения максимального модуля компонент произвольного нормального вектора в общем случае.

Данная задача инициирована реальными исследованиями генома человека, проводимыми в Центре геномной биоинформатики им. при Биолого – Почвенном факультете СПбГУ.

Литература.

1.Benjamini, Y. & Hochberg, Y. (1995) Controlling the false discovery rate: a practical and powerful approach to multiple testing. J. R.Statist. Soc. B, 57,289–300.

2.Donoho, D. & Jin, J. (2004) Higher criticism for detecting sparse heterogeneous mixtures. The Annals of Statistics 32(3), 962 – 994.

3.Holm, S. (1979) A simple sequentially rejective multiple test procedure. Scand J. Statist 6, 65-70.

4.Storey, J. D. (2002) A direct approach to false discovery rates. J. R.Statist. Soc. B, 64, 479 – 498. 5.Soong, W. C. & Hsu, C. Using complex integration to compute multivariate normal probabilities. Journal of computational and graphical statistics 6(4), 397 – 415.

6.Moskvina M. & Schmidt K. M. On multiple testing correction in genome wide association study. Genetic epidemiology 32, 567 – 573.

Доцент

1.  Навигация на пуассоновском процессе.

Доцент

1.  Малые уклонения гауссовских процессов в L_2-норме.

Цель работы — нахождение для некоторых гауссовских процессов т. н. разложения Кархунена-Лоэва (разложения процесса в виде случайного ряда, сходящегося в среднем квадратическом) и получение с его помощью асимптотики вероятностей малых уклонений процесса в L_2-норме.

Литература у руководителя.

Доцент

1.  Разложение стационарных процессов с неотрицательной корреляцией и безгранично-делимым распределением сечений на независимые процессы типа Орнштейна-Уленбека.

Классический процесс Орнштейна-Уленбека имеет экспоненциально убывающую ковариацию. Ковариация любого процесса положительно определённая функция, следовательно, если ковариация сама неотрицательна, то может быть представлена в виде преобразования Лапласа некоторой меры. Такое представление при безгранично-делимом распределении стационарного процесса позволяет произвести разложение исходного стационарного процесса по независимым процессам типа Орнштейна-Уленбека с маргинальным распределением сечения также безгранично-делимого вида. Предполагается доказать теорему о сходимости в смысле конечномерных распределений и исследовать вопрос обращения (в смысле обращения преобразования Лапласа ) положительной (неотрицательной) ковариации стационарного процесса. Примечание: Потребуется определённая работа, связанная с компьютерным моделированием.

2.  Псевдо-пуассоновские неоднородные процессы со случайной функцией интенсивности и их применение.

Псевдо-пуассоновские процессы введены У. Феллером и описаны в главе X его знаменитой монографии. Эти процессы представляют собой пуассоновские субординаторы для марковских последовательностей. Предлагается рассмотреть и исследовать обобщение таких субординаторов на случай неоднородного пуассоновского процесса со случайной интенсивностью. Отдельно предполагается исследовать прикладное значение таких процессов в экономике и финансах.

Литература: по обеим темам – у научного руководителя

Доцент

1.  Оценивание плотности по неполным данным

Предположим что – бесконечная последовательность

независимых случайных величин с общей плотностью f. Функция f

неизвестна и подлежит оцениванию. Последовательность

прореживается по некоторому правилу. Например, мы оставляем толь-

ко те , для которых Здесь другая по-

следовательность независимых случайных величин, причем упомянутые

последовательности независимы. Прореженная последовательность обо-

значается а правило прореживания таково, что

– последовательность независимых случайных величин с общей плотно-

стью g вида

Здесь неотрицательная функция известна (без потери общности она

может предполагаться плотностью вероятностного распределения). Рас-

сматривается задача оценивания плотности f по наблюдениям

Обсуждение некоторых аспектов задачи можно найти в работе

Sam Efromovich, Density estimation for biased data, Ann. Statist. Volume

32, Number 3 (2004), .

Доцент Якубович Ю.В.

1.  Λ- и Ξ-коалесцент.

Предлагается разобрать вероятностную модель динамики на разбиениях множества натуральных чисел, которая, в частности, возникает при изучении задач математической генетики, и ответить на ряд вопросов.

Литература.

N. Berestycki. Recent progress in coalescent theory. Ensaios Matematicos, Vol. 16,

1—