Forums -> Работа с видео и аудио -> MP3 Surround
| Full Version

Billy Bonce
СпрашиваеЦЦа - зачем, если есть АС3, DTS etc.?

Отвечаем -
1) формат совместим со старыми декодерами мп3, 5.1 контент играется как стерео
2) размер 5.1 контента примерно тот же что и стерео мп3, т.е. при кодировании звуковой дорожки фильма получаем размер (DivX + AC3 5.1) >> (DivX + mp3 5.1) ~ (DivX + mp3), что само по себе довольно рульно :)

___________________________
MP3 Surround - революция надвигается

2 декабря 2004 года компании Tomson, Agere Systems и, разумеется, отец-создатель формата MP3 (MPEG-1 Layer III) институт Fraunhofer анонсировали выход в свет модернизированного формата MP3 под названием "MP3 Surround". Новый формат поддерживает кодирование многоканального аудио и при этом обратно совместим со старыми MP3-проигрывателями.

Итак, возможности обновленного стандарта MP3 "MP3 Surround":
- кодирование неограниченного количества каналов;
- обратная совместимость со старыми проигрывателями;
- такая же система битрейтов, как в "старом" MP3.

Институт Fraunhofer уже представил программное обеспечение для опробования возможностей нового формата. Комплект программ может быть скачан любым желающим свободно с этой странички: http://www.iis.fraunhofer.de/amm/download/mp3surround/downloadpage.html. Комплект состоит из, собственно, проигрывателя новых файлов и кодера (с ограничением: до 192 Kbps и только формате 5.1).
На той же страничке можно скачать и тестовые MP3-файлы. Надо сказать, что файлы звучат просто великолепно. В обычном плеере (я перепробовал все, что были под рукой) они проигрываются как обычные стерео-MP3, а в новом плеере они проигрываются в формате 5.1, обеспечивая при этом настоящее ощущение окружающего звука (попробуйте скачать музыку и поиграйтесь с громкостью каналов).

Доступный в комплекте кодер представляет собой программку, которая кодирует файлы после их перетаскивания в окошко кодера. Кодер, кстати, работоспособен до 31 декабря 2005 года.

Сообщается, что кодер затрачивает в два раза больше мощности компьютера при сжатии данных, чем при кодировании обычного стерео-MP3, а декодер (плеер) - в три раза больше мощности при декодировании 6-канального аудио, чем при декодировании обычного стерео.

Крайне интересен и важен тот факт, что размеры MP3-файлов от этого нововведения не выросли! Иначе говоря, 192 Kbps 6-канальный MP3-файл занимает приблизительно столько же места, сколько и его стерео-аналог. Иначе говоря, в многоканальном MP3-файле сжаты не отдельно n каналов, а привычные два аудио канала (как в стандартном MP3) и в дополнение к ним в компактной форме информация о пространственном звучании.

Что же, без сомнения, новая инициатива Fraunhofer, Thomson и Agere заслуживает внимания и без сомнения займет достойное место в списке нововведений, ставших действительностью.
____________________________

(С)перто с вебсаунд.ру: :)
Set
Лучше 2 "чистых" канала, чем те же 2 канала + объёмные псевдомодулированные рыгания из 3-х других колонок. :cool:
veneamin
Чудес не бывает - или должен вырасти объем, или это очередной mp3pro, только пятиканальный.
FiL
Человек, в силу анатомических особенностей, не может различать 5 каналов. Только стерео. Соответственно, теоретически 2-х каналов звука должно хватать во всех случаях. И только современные устройства записи и воспроизведения не могут достаточено хорошо донести эти 2 канала до человека. Приходится имитировать оригинальную обстановку с помощью большего количества источников звука. Необходимость-же независимых каналов для каждого из источников есть весьма недоказанное утверждения. Вполне возможно, что их можно вытянуть из правильных 2-х каналов.
mts
QUOTE (FiL @ 19-12-2004, 18:10)
Человек, в силу анатомических особенностей, не может различать 5 каналов. Только стерео. Соответственно, теоретически 2-х каналов звука должно хватать во всех случаях. И только современные устройства записи и воспроизведения не могут достаточено хорошо донести эти 2 канала до человека. Приходится имитировать оригинальную обстановку с помощью большего количества источников звука. Необходимость-же независимых каналов для каждого из источников есть весьма недоказанное утверждения. Вполне возможно, что их можно вытянуть из правильных 2-х каналов.

Кхм. В силу анатомических особенностей человек не различает ни 2, ни 5, ни сколько нибудь ещё каналов. Единственные вещи, которые человек различает это громкость и фаза (между ушами :lol:). Поэтому увеличение каналов просто попытка обеспечить возможность создания фиктивного источника звука в любом месте вокруг слушателя, а также компенсация недостаточных возможностей аккустических систем (центральный НЧ канал к примеру).
FiL
Ну, наличие фазы и есть определение стерео-сигнала. Или я не прав?
mts
QUOTE (FiL @ 19-12-2004, 21:08)
Ну, наличие фазы и есть определение стерео-сигнала.  Или я не прав?

Стерео это всего лишь два, а квадро - четыре.
В любой канал можно запихать информацию о частоте, амлитуде и фазе, в два канала - две таких информации. Амплитуда и частота передаются неплохо (в определённых пределах), с фазой же дела гораздо хуже.
По сравнению с моно, стерео, это, бесспорно, гигантский шаг, но до полной эмуляции пространственного звучания это очень далеко, даже если не учитывать помех, вносимых на пути от реального источника звука (или сгенерированного) до входных клемм динамиков.
Кстати о фазе. Если бы ты видел фазо-частотные характеристики не самых плохих АС, то ты бы понял о чём я говорю. Это примерно как обычный свет, пропущенный через красное стекло по сравнению с когерентным (монохромным) светом красного лазера. Всё это я к тому, что реально с помощью одной только фазы и двух колонок ничего не может получиться.
Т.е. сделать виртуальный источник звука тем легче, чем ближе реальные колонки к такой виртуальной точке.

P.S. Вообще об этом можно много и долго....
FiL
Ну я в целом во всей этой физике не очень разбираюсь... да и когерентный лазер видел всего пару раз :)
Но обычный здравый смысл говорит о том, что в наушниках можно создать абсолютно адекватную картину звука (за исключением сверхнизких, которые действуют не через уши :)). С помощью стерео-колонок - нельзя. Ибо звук не поступает прямо в ухо.
mts
QUOTE (FiL @ 20-12-2004, 10:33)
Ну я в целом во всей этой физике не очень разбираюсь... да и когерентный лазер видел всего пару раз :)
Но обычный здравый смысл говорит о том, что в наушниках можно создать  абсолютно адекватную картину звука (за исключением сверхнизких, которые действуют не через уши :)). С помощью стерео-колонок - нельзя. Ибо звук не поступает прямо в ухо.

Ну хорошо, давай совсем по-простому. Представь себе достаточно большую поверность воды в которую капают капли из пипетки расположенной в некоторой точке. При падении капля вызывает расходящиеся на воде круги - это и есть твой реальный сигнал. В центре нашей поверности два датчика уровня воды - это наши уши. Т.е. когда волны расходятся вода колышется и наши датчики меняют показания. Понятно, что когда капля падает не в середине, то один датчик получит сигнал раньше и "громче", чем другой.
Теперь возьмём несколько других пипеток и закрепим их в определённых точках, а именно, впереди справа и слева от датчиков - это будет стерео, если взять ещё два и расположить их сзади - это будет квадро. Для имитации наушников виртуальные пипетки раполагаются строго по сторонам от наших ушей-датчиков.
Теперь наша задача заставить наши "виртуальные" пипетки капать так, что бы их волновая картина совпадала с картиной, полученной от одной "реальной" пипетки. Насколько это сложно? Если реальная пипетка достаточно близка к виртуальной, то задача не очень сложна, т. к. большинство наших ушей легко обмануть, а если нет? Очевидно, что чем больше у нас виртульных пипеток, тем проще сымитиривать рельную, т.к. игра с фазой и амплитудой очень сложная задача, даже с применением аккустической обратной связи. Отсюда вывод - увеличение каналов это самый дешёвый путь создания пространственного звучания.
Billy Bonce
Поддерживая беседу, так сказать :)

Об объемном восприятии

Человек может воспринимать пространственное положение источника звука. Кстати, слово 'стерео' на языке оригинала, к сожалению не помню на каком, означает что-то вроде 'полный'. Есть два принципа стерео - восприятия, которые соответствуют двум принципам передачи звуковой информации из уха в мозг (об этом см. выше).
Первый принцип - для частот ниже 1 кГц, которых слабо волнуют препятствия в виде человеческой головы - они просто огибают её. Эти частоты воспринимаются ударным способом, передавая в мозг информацию об отдельных звуковых импульсах. Временное разрешение передачи нервных импульсов позволяет использовать эту информацию для определения направления звука - если звук в одно ухо приходит раньше другого (разница порядка десятков микросекунд), мы можем засечь его расположение в пространстве - ведь запаздывание происходит из-за того, что звуку пришлось пройти еще дополнительно расстояние до второго уха, затратив на это какое-то время. Этот фазовый сдвиг звука одного уха относительно другого и воспринимается как информация, позиционирующая звуки.
И второй принцип - используется для всех частот, но в основном - для тех, что выше 2 кГц, которые отлично затеняются головой и ушной раковиной - просто определение разницы в громкости между двумя ушами.
Еще один важный момент, который позволяет нам гораздо более точно определять местоположение звука - возможность повернуть голову и посмотреть на изменение параметров звучания. Достаточно буквально нескольких градусов свободы, и мы можем определить звук почти точно. Принято считать, что направление с легкостью определяется с точностью до одного градуса. Этот прием пространственного восприятия - то, что почти не дает сделать реалистичный объемный звук в играх - по крайней мере до тех пор, пока наша голова не будет облеплена поворотными датчиками.. Ведь звук в играх, даже с современными 3д картами, не зависит от поворота нашей реальной головы, поэтому полная картина почти никогда не складывается и сложиться, к сожалению, не может.
Таким образом, для стерео - восприятия во всех частотах важна громкость правого и левого канала, а в частотах где это возможно, до 1 - 2 кГц, дополнительно оцениваются и относительные фазовые сдвиги. Дополнительная информация - подсознательный поворот головы и мгновенная оценка результатов.
Фазовая информация в районе 1 - 4 кГц имеет приоритет над разницей в громкости, хотя определенная разница уровней перекрывает фазовую разницу, и наоборот. Не совсем соответствующие или прямо противоречивые данные (например - правый канал громче левого, однако запаздывает) дополняет наше восприятие окружения - ведь эти несоответствия рождаются из окружающих нас отражающих/поглощающих поверхностей. Таким образом, в очень ограниченном объеме воспринимается характер помещения, в котором находится человек. Этому также помогают общие для обоих ушей фазовые вариации огромного уровня - задержки, эхо и реверберация.

(ц) http://websound.ru/index.cgi?articles/theory/ear
FiL
Угу... берем воду, берем реальные пипетки в большом количестве в разных местах... и где-то в середине 2 датчика - ухи.
Сколько пипеток не капай - все равно в каждый момент времени в каждом из "ушей" будет один единственный уровень воды, сложившейся из наложения волн от всех источников.
Фишка наушников в том, что "виртуальные пипетки" находятся не по сторонам от ушей-датчиков, а прямо на них. Соответственно теоретически возможно идеально точно воспроизвести картину именно такой, какую ее зафиксировали датчики.

P.S. Естественно все это обсуждение не имеет отношения к реальному использованию MP3 Surround - ибо на всех наушники не оденешь. А формат, который существенно различается в звучании при использовании наушников / колонок... а нафига? :)
FiL
Billy Bonce,
Очень интересно, спасибо. Насчет поворотов головы я явно проморгал. Просто я привык слушать в основном классику в наушниках развалившись в кресле. Головой не мотаю. Потому разницу в восприятии от поворотов головы как-то недооценил.

Похоже таки придется покупать звук. Правдо не сейчас. И даже не в ближайшем будущем.
mts
QUOTE (FiL @ 20-12-2004, 12:59)
Угу... берем воду, берем реальные пипетки в большом количестве в разных местах... и где-то в середине 2 датчика - ухи.  Сколько пипеток не капай - все равно в каждый момент времени в каждом из "ушей" будет один единственный уровень воды, сложившейся из наложения волн от всех источников.  Фишка наушников в том, что "виртуальные пипетки" находятся не по сторонам от ушей-датчиков, а прямо на них. Соответственно теоретически возможно идеально точно воспроизвести картину именно такой, какую ее зафиксировали датчики.  
P.S. Естественно все это обсуждение не имеет отношения к реальному использованию MP3 Surround - ибо на всех наушники не оденешь. А формат, который существенно различается в звучании при использовании наушников / колонок... а нафига? :)

Один, но разный для каждого уха. И чем больше реальных пипеток, тем сложнее картина и, соответственно, сложнее её эмулировать, а ещё сложнее передать к слушателю. Т.е. что проще - эмулировать звук где-то сзади и сбоку или просто подать его из соответствуещего динамика?
По поводу формата - всё относительно, когда-то и MP3 были крутью :punk: Посмотрим.
OlCh
эх, вот вспомню как 3 семестра проходил Теорию Колебаний - то будет вам! :lol:
А Билли спасибо за ознакомление с новинками :D
mts
QUOTE (OlCh @ 21-12-2004, 05:12)
эх, вот вспомню как 3 семестра проходил Теорию Колебаний - то будет вам! :lol:  А Билли спасибо за ознакомление с новинками :D

Хорошая у тебя память, а я вот уже не помню чего и сколько семестров было. :lol:
OlCh
дак память хорошая, етой вот болезнью не страдаю :) , ну етой, как её там, ну сам знаешь :fear2:

а кодек "потерный для мультиченелного" звука давно есть - называЦЦа WavPack:
но ето и нормальный lossless кoдек и, кажется, единственный, который и мултиканальный и 24/192 :D

http://www.wavpack.com/
WavPack 4.1 Features (with latest enhancements in bold):
Compatible with virtually all PCM audio formats including 8, 16, and 24-bit ints; 32-bit floats; mono, stereo, and multichannel; sampling rates from 6 to 192 kHz
Multiplatform support including Windows, Linux, and OS X
Instantly seekable and streaming capable
Error-tolerant block format conducive to hardware decoding
Optional "asymmetrical" mode for improved compression
MD5 audio checksums for verification and identification
Unique hybrid mode (provides high quality lossy + "correction" file)
Hybrid mode now operates as low as 2.25 bits/sample (or 196 kbps for CD audio)
Free and open source with easier to use library interface and unrestrictive license (BSD)
Intuitive command line interface (with wildcards and destination directory)
Small, efficient executable (no large programs or dlls to install)
Fully backward compatible to WavPack 1.0
Self-extracting archives (Windows only)
Complete piping support

Software Compatibility:

Custom Windows frontend (by Speek)
Winamp input plugin (w/ ReplayGain)
Foobar2000 playback component (w/ ReplayGain and cuesheets)
Adobe Audition (Cool Edit) filter (w/ 32-bit floats & extra info save)
Apollo audio player plugin (w/ ReplayGain)
Nero Burning ROM plugin