MPEG4 - главное действующее лицо мира мультимедиа (2)

[ главная страница ] [ о компании ] [ события ] [ продукты ] [ прайс-лист ]

MPEG4 - главное лицо мира мультимедиа

Объектно-ориентированное мультимедиа
Активная зрительская позиция
Синтетические объекты и лица
Звук
Заключение

<< Начало

Синтетические объекты и лица

В MPEG-4 предусмотрены инструменты и алгоритмы для работы не только с видеообъектами, но и с объектами синтетическими, т. е. сгенерированными средствами компьютерной графики: каркасными представлениями (mesh) двух- и трехмерных моделей, потоками геометрических данных для анимирования этих моделей, с натуральными ("живыми") или анимированными текстурами, которые могут на эти модели накладываться, и т. п. Подобные объекты позволяют значительно сократить объем передаваемых данных, так как для их анимации бывает достаточно передать всего несколько параметров - все остальное будет сделано в декодере.

Среди синтетических объектов выделена в отдельный класс анимация человеческих лиц и фигур. В MPEG-4 установлены наборы управляющих параметров для задания особенностей лица (FDP), для его анимации (FAP) и интерполяции, контрольные точки в полигональной сетке, "отвечающие" за те или иные эмоции или движения (с весовыми коэффициентами) и т. п. Необходимые средства управления анимацией входят в язык BIFS. Лицо может быть сгенерировано в декодере на базе имеющейся в нем обобщенной модели и затем "индивидуализировано" с помощью FDP, либо желаемая конкретная модель (например, полученный с помощью трехмерного сканера "автопортрет") может быть загружена во входящем потоке. Мало этого, на построенную модель лица можно "натянуть" фото- или видеотекстуру лица конкретного человека, а затем "заставить" его произносить написанный текст. Средства синтеза речи на базе текстов (text-to-speech), предусмотренные в MPEG-4, не только генерируют необходимые фонемы, но могут также создавать поток данных для соответствующей анимации модели лица говорящего. Таким образом можно построить виртуального диктора, изображение удаленного абонента при "разговоре" в chat.

Имеются развитые средства работы с двумерными полигональными моделями, адаптации их под имеющийся видеоконтент для последующей анимации - например, искажения текстур в соответствии с деформацией подложенной сетки и др. Использование этих средств позволяет выполнять многие функции, например представление контуров объектов с помощью вершин сетки (вместо битовых масок), замещение в сцене "живых" видеообъектов синтетическими и т. д.

Сюда примыкают и средства учета точки наблюдения, которые работают как на клиентской, так и на серверной стороне (если имеется обратный канал): при наличии в трехмерном пространстве сцены объектов переднего плана те фрагменты изображения, которые заслонены для наблюдателя этими объектами, не передаются.

Звук

Несмотря на отсутствие в названии группы MPEG даже намека на звук, ее эксперты весьма успешно работают в этой области, и их предложения действительно становятся общеупотребительными стандартами, порой опережая разработки "профильных" звуковых организаций и фирм. При этом звуковая часть стандартов MPEG достаточно слабо связана с видеочастью, новые версии и алгоритмы, выбранные экспертами, просто добавляются к уже имеющимся функциям. Так, в частности, был добавлен (к ранее стандартизованным Уровням 1 и 2) формат сжатия MPEG Audio Уровень 3 для стандартов MPEG-1 и 2, разработанный специалистами Fraunhofer Institute for Integrated Circuits (IIS-A) и University of Erlangen в рамках проекта цифрового аудиовещания DAB. Этот стандарт сегодня, наверное, уже известен всем под именем MP3 (не путать с MPEG-3). Он зажил "самостоятельной", отдельной от видеоряда жизнью и грозит перевернуть весь бизнес звукозаписи (из-за высокого качества, компактности сжатых им материалов и расцвета несанкционированного распространения их через Сеть). Его последователь, формат MPEG-2 AAC (Advansed Audio Coding), также разработанный в IIS-A (www.iis.fhg.de), соперничает с Dolby AC-3 в качестве многоканального формата записи звука для дисков DVD-Video. Этот формат обеспечивает, по сравнению с MP3, еще более высокое качество звучания, лучшую степень сжатия и возможность работы с различными потоками, от моно- до многоканальных.

При всем множестве новаторских подходов MPEG-4 звуковые разделы стандарта - возможно, наиболее интересная и революционная его часть. Объектный подход к изображениям - откровение для телевидения, но в ряде систем анимации, в VRML он применялся и ранее. Что же касается объектного звука, то системы, сопоставимой с MPEG-4 по комплексности подхода, спектру примененных технологий и диапазону применений, просто не удается вспомнить. Она заслуживает отдельного разговора, а здесь мы можем лишь бегло перечислить ее возможности.

Как и другие типы объектов, аудиообъекты входят в структуру дерева сцены и описываются на языке BIFS, что позволяет располагать источники звука в трехмерном пространстве сцены, управлять их характеристиками и применять к ним различные эффекты независимо друг от друга, перемещать источник звука при перемещении связанного с ним визуального объекта и т. п. В следующей версии в стандарт будет добавлена возможность задания акустических параметров среды. Отметим, что все эффекты и анимации выполняются в декодере по командам, полученным во входном потоке, что уменьшает объем передаваемых данных и увеличивает гибкость.

Для кодирования аудиообъектов MPEG-4 предлагает наборы инструментов как для живых звуков, так и для синтезированных. MPEG-4 устанавливает синтаксис двоичных потоков и процесс декодирования в терминах наборов инструментов, это позволяет применять различные алгоритмы сжатия. Диапазон предлагаемых стандартом скоростей потока для кодирования живых звуков - от 2 до 128 Кбит/с и выше. При кодировании с переменным потоком минимальная средняя скорость может оказаться еще меньше, порядка 1,2 Кбит/с. Для звука высшего качества применяется алгоритм AAC, который дает качество лучше, чем у CD, при потоке в 10 с лишним раз меньше. Другой возможный алгоритм кодирования живого звука - TwinVQ. Для кодирования речи предлагаются алгоритмы: HVXC (Harmonic Vector eXcitation Coding) - для скоростей потока 2-4 Кбит/с и CELP (Code Excited Linear Predictive) - для скоростей 4-24 Кбит/с. Предусмотрены различные механизмы масштабируемости.

Особый раздел - синтез речи. На входы синтезатора поступает текст, а также различные параметры "окраски" голоса - ударения, изменения высоты тона, скорости произнесения фонем и т. п. Можно также задать для "говорящего" пол, возраст, акцент и т. п. В текст можно вставлять управляющую информацию, обнаружив которую синтезатор синхронно с произнесением соответствующей фонемы передаст те или иные параметры или команды другим компонентам системы. Параллельно с голосом может генерироваться поток параметров для анимации лица. Отметим, что, как и всегда, MPEG-4 задает правила работы, интерфейс синтезатора, но не его внутреннее устройство.

Наконец, самая интересная часть "звуковой" составляющей - средства синтеза произвольных звуков и музыки. Здесь MPEG-4 предлагает в качестве стандарта подход, разработанный в колыбели многих передовых технологий - MIT Media Lab и названный Structured Audio (SA) - "Структурированный звук". Опять-таки, это не конкретный метод синтеза, а формат описания методов синтеза, в котором можно задать любой из существующих методов (а также, как утверждается, будущих). Для этого вводятся два языка: SAOL (Structured Audio Orchestra Language) и SASL (Structured Audio Score Language). Как следует из названия, первый задает оркестр, а второй - то, что этот оркестр должен играть. Оркестр состоит из инструментов. Каждый инструмент представлен сетью элементов цифровой обработки сигналов - синтезаторов, цифровых фильтров, которые все вместе и синтезируют нужный звук. С помощью SAOL можно запрограммировать практически любой нужный инструмент, природный или искусственный звук. Сначала в декодер загружается набор инструментов, а затем поток данных SASL заставляет этот оркестр играть, управляя процессом синтеза. Таким образом обеспечивается одинаковое звучание на всех декодерах при очень низком входном потоке и высокой точности управления.

Стандартом допускается также управление, основанное на протоколе MIDI, - но этот метод не столь точен, а набор инструментов ограничен. Для простых декодеров стандартизован также формат для работы с волновыми таблицами (wavetable bank format) - в этом случае в декодер загружаются набор сэмплов и необходимые фильтры и эффекты.

Заключение

За восемь лет у широкой аудитории успело сложиться представление о MPEG как об организации, целиком посвятившей себя вопросам сжатия медиа-данных - и это одна из причин, почему так поражает при первом знакомстве содержание стандарта MPEG-4. Но если разобраться, то даже само название MPEG - "Экспертная группа по движущимся изображениям" - показывает, что круг ее интересов значительно шире проблем сжатия. Просто на первом этапе "мультимедиа-революции" именно сжатие имело решающее значение, и в MPEG уделили ему наибольшее внимание, добившись, отметим, беспрецедентно успешного результата в деле примирения подходов и интересов многомиллиардных корпораций и целых индустрий.

Сегодня происходит сближение (начинается интеграция) телевидения и Интернета, персональных компьютеров и развлекательных приставок и плейеров, а медиа-контент, который потребитель получает из всех этих источников, становится не просто цифровым, но и все более интерактивным. И требуются новые стандарты, которые помогут разработчикам контента донести свои произведения до потребителя максимальным числом способов, а пользователям (зрителям) - получать со своего устройства доступ к медиа-контенту в любой его форме.

В целом можно сказать, что разработчики MPEG-4 собрали и обобщили многое из того, что было наработано за десять лет в ранее мало пересекавшихся областях и технологиях (QuickTime и VRML, 3D-графика и интерактивная "персонажная" анимация по типу Macromedia Director, разработка видеоигр, видеокомпозитинг, телевещание, потоковые видео и звук), и сумели объединить все это в новое качество.

Благодаря тому, что MPEG разрабатывается в такой авторитетной организацией как ISO и является достаточно универсальным методом сжатия (может использоваться в видеозаписи, телевещании, домашнем видеомонтаже, мультимедийных программах (обучающих, игровых) телеконференциях создании видеороликов для презентаций в Internet) он стал доминирующим стандартом сжатия цифрового видео, избавив от необходимости использования множества существовавших до него несовместимых способов сжатия видео. В связи с появлением программ, не требующих аппаратной доработки компьютера, систем, обеспечивающих даже монтаж в MPEG и постепенное удешевление видеоплат с поддержкой MPEG, можно сказать, что идея создания домашней видеостудии на базе компьютера имеет все больше возможностей для своей реализации.

[ главная страница ] [ о компании ] [ события ] [ продукты ] [ прайс-лист ]