Номинация конкурса :Инновации в программных продуктах
- Тип проекта: растущий проект (Startup-проект).
- Тема проекта: Технология «Тени»
-
-
-
-
- 
- Телефон+7 (48762) 3-73-63
- Компания
- Коммерческий директор
-
- E-mail: *****@***com
- Site: www.
-
Аннотация.
Технология «Тени» позволяет находить похожие аудиофайлы среди многих миллионов музыкальных треков. При этом степень сходства можно варьировать в широком диапазоне:
· музыка в одном стиле исполнения
· разница неотличима на слух
· файлы абсолютно идентичны
Процесс сравнения происходит таким образом: сначала мы создаем базу «слепков» эталонных файлов (аудио или видео), размер которых составляет, примерно, 2kb каждый, причем эталонный файл нам необходим только для того чтобы получить о нем информацию для дальнейшего сравнения, затем, после сбора необходимой информации мы производим сравнение всех файлов с нашей базой «слепков».
Следует сразу отметить принципиальное отличие данной технологии от других, имеющих сходное направление. «Тени», в отличие от обычного хеширования, работают не с идентичными, а с похожими аудиофайлами. Также следует понимать, что технология предназначена для сравнения файлов целиком, а не по фрагментам. И «похожесть», в большинстве случаев, означает неотличимую на слух разницу, хотя исходные (аудио, видео) файлы могут сильно отличаться по частоте, формату и качеству записи в целом.
Как и в технологии хеширования, работа по сравнению происходит не с самими файлами а с набором параметров музыкальных треков («слепками»).
«Тени» в отличии от технологии используемой компанией «Shazam» производит сравнение не в отдельном отрезке, а по файлу целиком; в отличии от «Shazam» для работы «Теней» достаточно даже планшетного ПК.
Области применения «Теней» достаточно широки: борьба с пиратством; удаление нежелательного контента; освобождение дискового пространства; получение мета информации по файлу; увеличение рынка продаж медиа.
Данная технология рассчитана в основном на корпоративного клиента и может быть продана как целиком, так и сдаваться в аренду.
- Информация о заявителе.
- ;
- возраст 30 лет;
- роль заявителя в реализации заявляемого проекта: коммерческий директор;
- основное место работы: , коммерческий директор;
- почтовый адрес: 301650, Россия, Тульская область, 3 а/я 8;
- номер телефона: +79056280068;
- адрес электронной почты: *****@***com;
.
Приводятся следующие данные об организации-заявителе (если заявка подается от организации) проекта:
- Название организации: .
- Адреса: Юр. адрес: 301657, Россия, Тульская обл., А; Фактический: 301650, Россия, Тульская обл., /11, офис 313
- Адрес электронной почты, страницы в Интернете: *****@***com; http:///shadows .
- Фамилия, имя, отчество руководителя организации: , генеральный директор,
- Номер телефона:+7(48762)3-73-63.
- Направления деятельности организации: Хостинг радио
-
Современное состояние исследований и разработок в области реализации проекта. Новизна предлагаемого подхода по сравнению с известными.
На данный момент в мире огромное количество программ, которые производят поиск по композициям, определяют названия треков по небольшому отрезку песни. Все эти программы условно можно разделить на 2 группы: shazam (высоконагруженная система, которая по отрезку песни пробует определить название) и остальные (работающие по одному схожему принципу – производят поиск по хешированию и названиям треков). Наша технология «тени» в отличии от «shazam» не требует больших мощностей для работы; может применятся по месту или дистанционно, в зависимости от задач; в процессе сравнения тени не предполагают название трека, а дают оценку насколько искомый трек похож с эталонный в процентном соотношении. Как и в технологии хеширования, работа по сравнению происходит не с самими файлами а с набором параметров музыкальных треков, с одной лишь разницей – «тени» производят более глубокий анализ и может находить не только одинаковые треки, а похожие, неотличимые на слух.
Важной особенностью нашей технологии является еще то, что основные принципы работы алгоритма могут, после некоторых изменений и усовершенствований, с той же лёгкостью применяться для обработки видеофайлов. В действительности, «тени» изначально именно для них и предназначались. По оценкам наших специалистов, разработка всего комплекса программ для работы с видео и его тестирование, займёт от шести до десяти месяцев.
Сущность предлагаемой разработки.
«Тени» как технология изначально была создана для экономии дискового пространства на радио хостинге «Волнорез». Представим себе ситуацию, когда у вас есть, скажем, 10 000 000 музыкальных треков. Итак, если каждый трек занимает в среднем 5 МБ, получим:
10 000 000 * 5 = 50 000 000 МБ = 50 ТБ
Но ведь мы знаем, что скорость интернета у пользователей может сильно отличаться, а это значит, что желательно хранить файлы хотя бы в трёх форматах, скажем: 320 кбит/с, 192 кбит/с, 64 кбит/с. А ведь это ведёт к увеличению занимаемого файлами пространства в 2-3 раза! То есть нам нужно уже не 50, а 125 терабайт. Не забываем про необходимость дублирования данных, чтобы обеспечить их сохранность. Даже при использовании хитрых алгоритмов, увеличения объёма на 50% вряд ли избежать. Получаем приблизительно 185 ТБ на каждые десять миллионов треков.
Даже по самым скромным подсчётам, для обслуживания такого объёма, вам понадобится 30 серверов общей стоимостью порядка 2 000 000 рублей. А ведь эти серверы ещё необходимо разместить и обслуживать. Если представить, что все затраты на обслуживание каждого сервера обойдутся в 10 000 рублей в месяц (колокация, интернет, амортизация, обслуживающий персонал), то получится, что за один год вы потратите 3 600 000 рублей на каждые 10 000 000 треков!!! А если их 100 000 000…
Наша технология позволяет сократить размер занимаемого файлами дискового пространства в 3-5 раз! При этом, чем больше у вас фалов, тем больше вероятность того, что есть дубликат того трека, который пользователь сейчас закачивает. Соответственно трудно даже предсказать экономию на 100 000 000 треках. Но на 10 000 000 она составит от 2 000 000 до 3 000 000 рублей в год. При этом не учитывается экономия при закупке и установке оборудования.
Наверно, сюда же следует добавить, что обслуживание 5-6 серверов принципиально отличается от обслуживания 20 или 30. Ведь для больших объёмов требуются как специальные программные решения, так и сведущий персонал.
В процессе работы мы выяснили, что «Тени» можно использовать не только для экономии дискового пространства, но идя удаления из результатов поиска одинаковых композиций:
Наверно, всем нам известна ситуация, когда при наборе в поиске имени интересующего нас автора(для примера мы рассматривали ), в ответ нам выдаётся список его композиций, при этом, сначала идёт два десятка одинаковых треков, потом десяток других, опять же одинаковых и так далее. Бывает и так, что содержимое файла вообще не соответствует нашему ожиданию и, например, носит чисто рекламный характер.
Всего этого можно избежать с использованием нашей технологии. С помощью неё можно определить одинаковые на слух треки и выводить в результатах поиска только один из них. Также можно повысить релевантность поиска, если учитывать количество одинаковых треков. И правда, чем больше пользователи загрузили один и тот же трек, тем, вероятно, он более популярен и, соответственно, более желанен в результатах поиска.
Занимаясь поиском мы были удивлены тем, что открылось перед нашим взором: - появилась новая возможность использования технологии – определение и удаление нежелательного контента:
Представим себе случай, когда правообладатель обратился к нам с просьбой удалить его произведение с ресурса. Ситуация вполне обычная. И в случае её возникновения, возникает вопрос: «А как это сделать!?». Ведь одни и те же композиции могут иметь разное название, качество записи и даже немного отличаться по содержанию вроде: «Группа любителей рока представляет…». Тем более, необходимо пресечь возможность закачивания или обмена между пользователями такими треками.
Опять же «тени» приходят на выручку в этом случае. Нужно просто указать один из «нежелательных» треков и степень похожести, чтобы отсечь закачку и обмен таких записей.
Такой подход сохраняет очень много нервных клеток!
В идеале, работа с удалением нежелательного контента из социальных сетей может происходить в автоматическом режиме: создается для правообладателя аккаунт в который он загружает все свои произведения, которые хочет защитить и наша технология автоматически будет определять похожие произведения и в зависимости от степени похожести или сразу удалять или предлагать удалить. За счет этого подходя время реакции сокращается многократно и сокращает убытки правообладателя многократно (явный пример – распространение фильма сразу после его премьеры).
Определение «правильного» названия музыкального трека:
Итак, у вас есть пара миллионов честных, лицензионных треков. Да-да, именно такое условие должно быть соблюдено для реализации этого пункта. Теперь для вас ничего не стоит определить, как называется трек, загружаемый сейчас пользователем.
Подробнее. Например, есть ресурс, который хранит миллионы оригинальных треков с оригинальными названиями, авторами и прочей мета информацией. Есть другой ресурс, скажем социальная сеть. И вот пользователь социальной сети захотел узнать, что же это у него за песня такая «Unknown-1». Он нажимает соответствующую кнопочку, и социальная сеть обратится к сайту с миллионами оригинальных треков, и выдаст правильную информацию относительно содержимого файла. С тем же успехом роль социальной сети может играть просто приложение на планшете или мобильном телефоне, а роль загруженного трека, просто файл из личной библиотеки пользователя, который он только что получил по блютусу.
Конечно, уже существуют технологии, которые позволяют определить название трека по напеву. Однако, они все закрыты и, при всей своей невероятности, не отличаются большой точностью, а также требуют огромных ресурсов для работы алгоритма.
В случае с «тенями» всё вообще может происходить на планшете пользователя без подключения к интернету
Отсутствие необходимости хранить композиции:
Примечательной особенностью нашей технологии является то, что для получения списка похожих композиций нет необходимости хранить их на компьютере, на котором происходит поиск и сравнение. В этом смысле есть некоторая схожесть со стандартным подходом хеширования, когда вместо файла хранится некоторая уникальная хеш-сумма и, возможно, некоторый набор дополнительной информации, между которыми и производятся все операции. Только в данном случае выбираются не идентичные аудиофайлы, а треки с любой желаемой степенью похожести.
Такое обстоятельство даёт некоторые преимущества:
· Независимость системы. Всё можно расположить на отдельном сервере. Это значительно уменьшает количество головной боли как программистам, так и системным администраторам.
Полная независимость. Система вообще, для некоторых целей, может быть отключена от интернета и обновляться «с флэшки» или при подключении. Это, например, может быть приложение для планшета или телефона.
Малый объём базы данных необходимой для работы алгоритма:
Как уже говорилось выше, для работы алгоритма необходима база данных, где хранится некоторая информация о каждом треке. Чаще всего, когда речь заходит о неточном сравнении, такие базы данных могут достигать нескольких терабайт! Ведь для каждого трека, порой, требуется избыточная информация во избежание слишком долгого процесса сравнения. В нашем случае, размеры базы настолько малы, что составляют всего порядка двух гигабайт на каждый 1 000 000 треков (~0.05% от размера, занимаемого аудио файлами). И это без какого-либо сжатия!
Таким образом, для повышения скорости работы алгоритма, всю базу можно располагать в оперативной памяти, что как вы сами понимаете, даёт огромные преимущества перед жёсткими накопителями.
Также такая база легко уместится на мобильном компьютере, ноутбуке, планшете или даже мобильном телефоне. Особенно, если учесть возможность применения разнообразных алгоритмов сжатия.
Не забываем, что когда мы говорим о 1 000 000 треках, то мы имеем в виду миллион совершенно уникальных файлов. А это уже не так мало.
Небольшие требования к оборудованию:
Для определения похожих аудио файлов вряд ли возникнет необходимость в закупке дополнительного оборудования. Для работы нашего алгоритма необходимо и достаточно одного ядра с частотой два гигагерца. То есть, со всеми ужасными вычислениями может справиться старенький Pentium 4, средний планшетник или даже мобильный телефон. Конечно, при учёте, что все файлы заранее проиндексированы и база теней уже закачана на устройство.
Конечно, для очень серьёзных нагрузок, для обработки десятков тысяч загрузок в день и миллионов сравнений потребуется отдельная машина с двумя процессорами и 16 гигабайтами оперативной памяти.
Согласитесь, что это совершенно несопоставимо с сотнями серверов, необходимыми для работы других алгоритмов.
Малое влияние разности частоты и формата записи на степень похожести
Те, кто в своей работе сталкивался с содержимым аудиофайлов, знают, насколько сильно отличается файл в формате. OGG с частотой дискретизации входящих данных 44100 Гц и битрейтом 128 кбит/с и стереозвуком от того же файла, но в формате. MP3 с 96000 Гц, битрейтом 256 кбит/с и звуком моно.
В случае данной технологии, схожесть файлов будет порядка 90-99 по шкале от 0 до 100.
Это может быть удобным, когда разные пользователи загружают треки в разном качестве, а впоследствии хранится только тот, который имеет лучшее качество звучания.
При этом заметим, что при схожести больше 95, треки будут отличаться только качеством, но не содержимым.
Интуитивно понятная шкала похожести:
Определение степени похожести двух композиций происходит по шкале от 0 до 100, что кажется естественным, понятным и наводит на мысли о процентах. При этом на шкале можно выделить несколько диапазонов:
0-40 - композиции абсолютно не похожи
41-90 - композиции различны, но, возможно, в одном стиле исполнения
91-95 - треки почти одинаковы, но имеют отличие в звучании или содержании
96-99 - треки почти неотличимы на слух
100 - файлы идентичны
Кроссплатформенность решения и простота внедрения
Реализация нашей технологии одинаково хорошо работает как на Linux, так и на Windows. Связано это прежде всего с тем, что при написании программ использовался С++. Более того, есть вариант решения, где используется только PHP+MySQL+ffmpeg. И решение, где для PHP написано соответствующее расширение, что значительно увеличивает скорость работы. Также возможны варианты: PHP+MemCache+ffmpeg, Си+MemCache+ffmpeg, Си+MySQL+ffmpeg.
Естественно, при желании, можно сделать практически полностью независимый комплекс программ.
И всё же, простейшим вариантом внедрения нашей технологии, является выделение ресурсов на одном из серверов, где установлены MySQL и PHP. На этом компьютере и будут происходить все расчёты, включая определение параметров загружаемых треков для последующих расчётов. Единственным недостатком такого подхода является то, что придётся передавать на эту машину все добавляемые треки.
Чтобы избежать лишней нагрузки на сеть, особенно при больших объёмах загружаемых файлов, существует возможность установки специального сервера (или демона) теней и ffmpeg непосредственно на те компьютеры, куда происходит загрузка файлов. Сам сервер занимает всего около пяти мегабайт оперативной памяти и потребляет минимум ресурсов процессора. Однако, ffmpeg, если не сделать специальных настроек, при перекодировке поступившего файла может полностью съедать ресурсы одного ядра процессора. В таком случае, все расчёты и вычисление параметров добавляемых файлов будут распределены по всем компьютерам, а на «главный» возлагается обязанность по хранению этих данных и непосредственному сравнению аудиотреков.
Наличие успешного примера внедрения
Немногие новые технологии могут похвастаться примером успешного внедрения и работы. «Тени» уже около полугода функционируют на радиохостинге Volnorez (http://). По результатам работы, нам известно, что сейчас на хостинге загружено порядка 3 000 000 файлов, при этом, на самом деле хранится всего около 1 000 000. Следует отметить, что приятным побочным эффектом работы технологии, является малое количество дубликатов в результатах поиска композиций.
Вы можете сами поэкспериментировать с «тенями» на специальной странице http:///shadows
Сразу опишем метод внедрения. На каждом сервере, отвечающем за загрузку файлов, установлена специальная служба/демон для расчёта комплекса параметров аудиофайла и передачи их на «главный» сервер теней. «Главный» сервер – есть не что иное, как небольшая часть ресурсов, выделенная на одном из компьютеров хостинга (одно ядро 2.6 гигагерца, 2.3 гигабайта оперативной памяти).
Надеемся, результаты работы примера Вас приятно удивят.
Разработка алгоритма для работы с видеофайлами
Важной особенностью нашей технологии является то, что основные принципы работы алгоритма могут, после некоторых изменений и усовершенствований, с той же лёгкостью применяться для обработки видеофайлов. В действительности, «тени» изначально именно для них и предназначались. Однако, у команды разработчиков нет в наличии большого объёма видеофайлов для тестирования и определения качества работы алгоритма; и, поскольку администрация Vолнореза любезно предоставила возможность для работы с музыкальными треками своих пользователей, технология была оптимизирована именно для работы с аудио.
По оценкам наших специалистов, разработка всего комплекса программ для работы с видео и его тестирование, займёт от шести до десяти месяцев.
Реализация возможности предоставления технологии в аренду (SaaS):
Из всего описанного выше видно, что сервис, предоставляющий услуги по хранению всех параметров композиций и нахождению степени их схожести, можно расположить на совершенно отдельном сервере или даже комплексе серверов, и предлагать в качестве услуги по подписке или по цене, зависящей от количества файлов и их сравнений.
Также, при наличии большой базы контента, предоставляемого звукозаписывающими компаниями, можно предлагать услуги по определению содержимого файлов, их названия и авторов. Такой сервис может быть полезен как социальным сетям и аудиохостингам, так и частным лицам в виде приложения на мобильном устройстве.
Права на интеллектуальную собственность.
К сожалению, на данный момент, мы не имеем патента на разработку, но делаем все необходимое для его получения.
Рынок сбыта.
Microsoft, Apple
Внедрение «теней» в Windows Media Player и iTunes позволит определять точное название проигрываемых композиций независимо от того насколько верны установленные в них тэги ID3. Это поможет давать правильные рекомендации альбомов и исполнителей и, как следствие, увеличить оборот от продажи музыки.
В принципе, такой подход верен для всех плееров, взаимодействующих с интернет-магазинами.
Universal, Sony
У компаний предоставляющих лицензионный контент часто возникают проблемы с синхронизацией баз данных подключаемых интернет-магазинов со своими базами. С нашей технологией, интернет-магазину достаточно запустить на своих серверах программу, рассчитывающую «тени», после чего предоставить их список провайдеру контента, который, в считанные часы, сможет сформировать и выслать весь пакет необходимых файлов.
Без «теней» интернет-магазину, в большинстве случаев, остаётся лишь удалить все композиции и связанную с ними накопленную коммерческую информацию или придумывать собственные, обычно дорогостоящие и трудозатратные, решения. И это всё не говоря о том, что может возникнуть ещё множество проблем при работе с несколькими провайдерами контента, поскольку, наверняка, у них огромное количество одинаковых файлов.
Интернет-магазины
Упрощение работы с несколькими провайдерами контента. Автоматизация нахождения дубликатов композиций предоставляемых разными компаниями.
Mail.ru, Одноклассники, ВК
Нахождение и удаление дубликатов композиций может сэкономить миллионы рублей за счёт снижения затрат на обслуживание оборудования. Также это автоматически решает проблему выдачи одинаковых треков в результатах поиска.
Если «тени» встроить и в социальную сеть и в интернет-магазин, то, путём точных индивидуальных рекомендаций музыкальных треков каждому пользователю, можно достичь очень высокой конверсии.
Last.fm, music.yandex.ru
На равне с уже имеющимися технологиями рекомендаций, «тени» могут улучшить их качество.
Государство
Наша технология может стоят на страже закона по защите авторских прав; для решения в судебных спорах, когда необходимо определить в каком процентном соотношении один автор использовал музыку другого…
Тени можно использовать как универсальное средство для определения музыкального трека в различных компаниях. Ведь иные способы определения предполагают точное совпадение файлов в совершенно разных системах, что на практике встречается не часто.
Порядок коммерциализации результатов разработки.
Костяк составляют трое бывших однокурсников - выпускников 2005 года кафедры «Кибернетика» филиала НИ РХТУ в г. Новомосковске.
Также у нас работают: Два специалиста по PHP, сисадмин, специалист по C++ и C#, специалист по ActionScript, дизайнер, два менеджера по рекламе, технический референт, бухгалтер, два человека в службе поддержки.
Я, как заявитель данного проекта, занимаю должность коммерческого директора и отвечаю за финансовые и коммерческие вопросы в нашей компании .
Основной род деятельности нашей команды это поддержка и развитие сайта www. . Поэтому (а так же из-за отсутствия свободных денег) технология «тени» остановилась в своем развитии и не оптимизирована для работы на сторонних ресурсах, и для видео. Постепенно по мере необходимости мы дорабатываем «Тени» в пределах необходимости использования на . В случае получения крупного заказа на использования нашей технологии она может быть доработана в течении 6-10 месяцев(в зависимости от сколько человек будет работать над ней), под необходимые задачи.
В перспективе, мы планируем выделить разработку нашей технологии в отдельное направление, набрать специалистов и заниматься развитием «теней». Приблизительные вливания для этого необходимы в размере 5000000-10000000 рублей и связаны с расходами на оборудование для тестирования, для оборудования.
Описанные суммы относительно высоки, но если учесть что риски не велики за счет того, что средства будут использованы компанией для расширения и увеличения мощностей фирмы, которая как известно, занимается хостингом радио и все приобретенные ресурсы будут перенаправлены в основной род деятельности.
Что касается приблизительных цен на готовый продукт, то здесь вопрос будет решаться индивидуально с каждой компанией, в зависимости от поставленных задач, а так же от спроса, который будет зависеть от маркетинговых решений с нашей стороны, от вложенных средств в рекламу, от законодательства РФ, др. стран и от остальных параметров.
Состояние и источники инвестирования в реализацию проекта.
Технология «Тени» создана для основного проекта нашей компании – радио-хостинга «Волнорез», поэтому напрямую все инвестиции были в основной проект. , учреждённого четырьмя участниками по 25% у каждого. Двое учредителей занимают руководящие должности в компании. Тем не менее мы рассматриваем вхождение в бизнес сторонних инвесторов, на первом этапе инвестирования рассматриваем возможность приобретения у нас 20-25% доли.


