12-битный мастеринг и Война за громкость

5
(1)

В Интернете ведется много споров о том, какой хост «звучит» лучше, а какой хуже. Музыкальное сообщество убедило себя в том, что, например, Samplitude «звучит» лучше, чем Cubase. А программно-аппаратный комплекс Pro Tools HD с 48-битной шиной звуковых данных звучит лучше, чем Nuendo с 32-битным представлением звука. Но способно ли человеческое ухо в принципе услышать какую-либо разницу? Интереса ради я решил провести провокационный опрос на форуме одного сайта, какой из двух WAV-файлов с одинаковыми фрагментами музыки звучит хуже и что в нем не так (какая применена обработка)? Один из вариантов фрагмента был в 16-битном разрешении, а второй — в 12-битном. Участники форума об этом не знали. Результаты опроса потрясающие: за две недели никто толком и не понял, что один из файлов 12-битный, а многие из опрошенных проголосовали за то, что 16-битный файл звучит хуже 12-битного. Почему так? Давайте разбираться.

Подробности опроса.

Немного подробнее об условиях опроса. Мною были подготовлены два файла: 1.wav и 2.wav. Файл 2.wav был исходным, он не подвергался никакой обработке. Файл 1.wav изначально являлся копией файла 2.wav. Затем я понизил разрядность файла 1.wav до 12 бит без применения дитеринга с помощью плагина бит-крашера.

При этом сам файл остался 16-разрядным, но младшие четыре разряда звуковых отсчетов «обнулились», т. е. не были задействованы для представления полезного сигнала. Специалисты знают о существовании битоскопов — программных или аппаратных индикаторов, которые отображают факт смены значений разных битов в звуковых отсчетах. Чтобы «обмануть» специалистов, я подмешал к файлу 1.wav очень тихий высокочастотный, практически ультразвуковой шум, у которого основная энергия сосредоточена в области 19 кГц. Сам по себе этот шум не слышен для человеческого уха, но он «загружает» младшие четыре разряда в 16-разрядном сигнале. Таким образом, отличить 12-битный звук от 16-битного можно было только на слух.

В квалификации участников тестирования сомнений нет. Все они так или иначе связаны со звукозаписью. Многие из них ранее неоднократно «выступали» на форуме с дельными и толковыми советами при обсуждении самых различных проблем, связанных с обработкой звука. Если рядовые слушатели вообще не ощущают никакой разницы между двумя файлами, то большинство участников тестирования эту ускользающую разницу ощутили и описали ее в привычных для себя терминах.

Интрига заключается в том, какому файлу участники тестирования отдали предпочтение. Из 18 высказавшихся участников четыре человека разницу не ощутили. Семь участников тестирования сообщили, что файл 1.wav (т. е. 12-битный) звучит приятнее: «объемно», «тепло», «округло», «ламповое звучание». Еще семь человек посчитали, что все-таки файл 2.wav (т. е. 16-битный) звучит лучше: более «прозрачно», «шире динамика». Предполагались различные варианты обработки вплоть до применения мастерингового процессора T.C. Electronic Finalizer 96K. Однако никто так и не понял, что файл 1.wav является 12-битным. Никто толком не догадался, какой именно файл был обработан.

Ежедневно форум посещает около 300 человек. К моменту подведения итогов насчитывалось более 4 000 просмотров темы. Но, как видите, высказались только 18 участника. Можно считать, что остальным было не интересно или просто нечего было сказать. В первые дни опроса я, по своей наивности, полагал, что вот-вот кто-нибудь найдет правильный ответ. Однако этого не происходило. Люди стали конструировать ответы методом простого угадывания — перечислением всех известных обработок. Спустя две недели один из участников выдал ответ, приближенный к правильному. Ему и была засчитана победа.

Война за громкость

В последние годы обострилась проблема высоких громкостей фонограмм. Если коротко, то суть проблемы заключается в том, что из года в год громкость фонограмм постоянно повышается. Считается, что чем громче песня звучит, тем лучше это для ее популяризации. В результате происходит постоянная гонка громкостей, заказчики требуют от исполнителей (звукорежиссеров, инженеров мастеринга) «сделать громче, чем у конкурентов».

Если сравнить звучание CD, изданных году в 1989 и изданных в году 2009, то разница по громкости будет колоссальной. Группы-долгожители музыкального олимпа переиздают свои старые альбомы с припиской remastered, т. е. мастеринг выполнен заново и, естественно, с существенным повышением громкости. Причем, старые альбомы переиздаются не только на CD, но и на относительно новых носителях — DVD, SACD, на подходе Blu-ray. Непосвященный слушатель может спросить: «Что плохого в том, что музыка переиздается на новых носителях более громкой? Ведь при необходимости громкость можно уменьшить». Беда заключается в том, что повышение громкости получается за счет существенного сужения динамического диапазона и, соответственно, искажения формы и спектра звукового сигнала. При высокой громкости искажения становятся чересчур заметными на слух, что не радует некоторых слушателей. Проблема усугубляется тем, что во многих случаях сами специалисты по мастерингу искренне верят в то, что сужение динамического диапазона вовсе не страшно, ведь благодаря хитрым приемам мастеринга фонограмма продолжает, как они говорят, «дышать».

Самая малость теории (всего одна формула)

Теоретически возможный динамический диапазон цифрового сигнала с линейным квантованием по уровню рассчитывается по формуле D = 20lg(2N), где N — количество разрядов квантования. Для 24-разрядного сигнала D = 144 дБ, для 16-разрядного сигнала D = 96 дБ, для 12-разрядного D = 72 дБ, для 8-разрядного D = 48 дБ. Для сравнения: динамический диапазон симфонического оркестра в среднем составляет 80 дБ, хора — 45 дБ, эстрадной музыки (рок, поп и т. п.) — 35 дБ. То есть 16-разрядного сигнала теоретически достаточно для того, чтобы «вместить» в себя динамический диапазон даже симфонического оркестра, не говоря уже о других источниках «музыкального сигнала». Однако при слишком маленьком уровне сигнала (когда оркестр играет очень тихо), становится существенной погрешность квантования. Для компенсации этого явления используется дитеринг (ditering) — искусственное зашумление сигнала в пределах 1-2 младших битов. А чтобы этот шум был как можно меньше заметен на слух, используется нойз-шейпинг (noise shaping) — специальный алгоритм, при котором энергия дитерингового шума оказывается смещенной в область высоких частот. В результате 16-битный CD с применением дитеринга и нойз-шейпинга позволяет записать звучание симфонического оркестра с сохранением достаточно высокого динамического диапазона.

Динамический диапазон отрывка музыки в тестовом файле 2.wav составляет около 20 дБ. Данную запись можно без потери субъективного качества звука втиснуть в 12-разрядный сигнал. При этом останется еще достаточный запас по уровню сигнала для того, чтобы не слышать шум квантования. Если взять любой современный коммерческий трек музыкальных жанров поп, рок, хаус, транс и др., то он будет гораздо громче моего примера, а его динамический диапазон, соответственно, еще уже. Например, динамический диапазон на протяжении большей части трека Мадонны «Hung Up» составляет около 12 дБ, трек ATB «Ecstasy» — около 11 дБ. Это означает, что для данных треков и 12 бит многовато, можно вполне обойтись и 10 битами. Упомянутые треки лет десять назад считались бы бракованными, но не сегодня. Для сравнения, у трека группы Queen «A Kind Of Magic» динамический диапазон около 35 дБ. В подавляющем большинстве современных треков я отчетливо слышу нелинейные искажения, вызванные чрезмерным сужением динамического диапазона. Однако это не беспокоит большинство людей, которые слушают музыку преимущественно в машине или краем уха по телевизору на кухне.

Основным назначением мастеринга изначально являлась адаптация трека под конкретный носитель (виниловый диск, компакт-кассету, CD, FM-радио). Для CD можно было оставить динамический диапазон побольше, для винилового диска чуть меньше, для компакт-кассеты — еще меньше. Но в наше время назначение мастеринга изменилось. Теперь его основная задача — обеспечить как можно большую громкость за счет сокращения динамического диапазона. В результате произошло следующее: динамический диапазон современных треков сократился до того, что эти треки фактически оказались адаптированными для 12-, 10-, а в отдельных случаях и для 8-битных цифровых носителей. По этой причине никто не смог осознать тот факт, что тестовый файл является 12-битным. После сжатия динамического диапазона в ходе мастеринга этот файл оказался адаптированным для 12-битного носителя.

Не верите? Попробуйте сами!

Попробуйте поэкспериментировать самостоятельно, например с помощью звукового редактора Adobe Audition в режиме Edit (редактирование одиночной волновой формы). Возьмите какой-нибудь фирменный CD. Командой главного меню File > Extract Audio from CD импортируйте нужный трек с диска. Выделите однородный по громкости участок фонограммы (не вступление и не затухание в конце трека) длительностью несколько минут. Командой Window > Amplitude Statistics откройте окно со статистической информацией по выделенному фрагменту. Перейдите на вкладку Histogram. Здесь отображается похожая на гору гистограмма распределения уровней сигнала. Горизонтальная ось соответствует различным уровням сигнала, а вертикальная — как часто эти уровни имеют место быть. По ширине основания гистограммы можно оценить динамический диапазон сигнала. В моем примере присутствуют сигналы с уровнями примерно от -5 до -18 дБ. Соответственно динамический диапазон — около 13 дБ.

Разыщите в своей фонотеке и импортируйте в программу современные треки с динамическими диапазонами 20 дБ и уже.

Далее понадобится VST-плагин бит-крашер. Бит-крашер — это эффект, при котором искусственно понижается разрядность звука и выполняется ресэмплинг без предотвращения элайсинга (трансформации в слышимую частотную область компонентов сигнала, частоты которых изначально были выше половины частоты дискретизации). Можно использовать D16 Group Audio Software Decimort. Можно воспользоваться iZotope Ozone, в нем тоже имеется функция понижения разрядности. Откройте окно VST-плагина (команда Effects > VST > название плагина). Какой бы вы плагин не использовали, на его панели нужно отключить все обработки, кроме возможности понижения разрядности. В моем примере задействован единственный регулятор BITS. Запустите предварительное прослушивание результатов обработки VST-плагином. Понижайте разрядность, начиная от 16 бит и до тех пор, пока искажения не станут ощутимыми на слух. В своем примере без ощутимых искажений я понизил разрядность до 10 бит.

Выводы

Какие можно сделать выводы? При современной манере мастеринга, когда сильно сжимается динамический диапазон фонограммы, многие вещи просто теряют свой смысл.

1. Нет смысла в применении каких-то утонченных эффектов, дорогостоящих аппаратных обработок и синтезаторов. Все те прелести, которые хорошо звучат в студии, будут «убиты» на этапе мастеринга.

2. Нет смысла в применении нойз-шейпинга и дитеринга.

3. Нет смысла в использовании 24-, 32-, 48-, 64-битных форматов представления звука на этапе записи многоканального проекта. Применение этих форматов позволяет минимизировать ошибки округления, накапливающиеся в ходе применения многократных обработок. Однако при прослушивании фонограммы с узким динамическим диапазоном слушатель будет «оглушен» ею — перестанет ощущать тонкости ее звучания, да и тонкостей этих не останется. Вполне достаточно использовать 16-битный формат для треков проекта и 24-битный для звукового файла, в который будет экспортирован проект перед мастерингом.

4. Нет смысла обращаться в специализированную мастеринговую студию. В домашней или проджект-студии с помощью подручных программных средств с заводскими пресетами вы сможете угробить звучание своих треков ничуть не хуже, чем это сделано с треками современных поп-звезд. Совсем не обязательно для этого пользоваться дорогостоящими раритетными аналоговыми фильтрами и оптическими компрессорами.

5. 16-битного разрешения для представления цифрового звука более чем достаточно (даже много!). Нет никакой необходимости в переиздании громких композиций на DVD-Audio и SACD.

6. Гонка за громкостью должна чем-то закончиться, поскольку громкость нельзя повышать бесконечно. Ведь в предельном повышении громкости сигнал превратится в некую прямоугольную волну. Динамический диапазон в 10 дБ дальше ужимать уже просто некуда. Производителям музыки придется искать какие-то иные пути увеличения популярности своей продукции, например путем повышения ее художественной ценности.

На фоне того факта, что даже при достаточно умеренной по современным меркам громкости люди не в состоянии отличить 12-битный звук от 16-битного, особенно бредовой выглядит идея использования аналоговых сумматоров (специальных аналоговых микшеров с ограниченным функционалом) для микширования цифровых треков в многоканальных проектах. Изначально эти устройства позволяли решить проблему одновременной записи нескольких аппаратных источников звука (обычно синтезаторов) при наличии у звуковой карты только одного стереофонического входа. Т. е. дешевле купить 8-канальный сумматор, чем 8-канальную звуковую карту или полноценный 8-канальный микшер. Однако позже проблема была перевернута с ног на голову, т. к. кто-то сказал, что «теплый» аналоговый микс звучит лучше «сухого» цифрового. Идея некоторым людям понравилась, и теперь они покупают многоканальные звуковые интерфейсы ценовой категории от 20 000 рублей ради того, чтобы пропустить треки через аналоговый сумматор ценовой категории около 10 000 руб. Этому, безусловно, рады и производители звуковых интерфейсов, и производители аналоговых сумматоров. Справедливости ради отмечу, что существуют гораздо более дорогие аналоговые сумматоры, в которых применены схемотехнические решения от некоторых еще более дорогих микшеров с уникальным звучанием, которые уже стали классическими. Однако, опять-таки, при современной манере мастеринга смысл в применении этих пультов пропадает. Утонченное звучание их аналоговых фильтров все равно будет уничтожено.

Выводы достаточно жесткие и могут заставить некоторых людей нервничать. Ничего не поделаешь, господа.

Еще один важный вывод. Людям нравится звук с разрядностью менее 16 бит! Слушатели воспринимают его как «ламповый», «теплый» и т. д. Не зря же звукорежиссеры со стажем испытывают ностальгию по стареньким звуковым модулям и сэмплерам, в которых звуковой сигнал представлялся менее чем 16 битами с частотой сэмплирования менее чем 44,1 кГц. Я все чаще замечаю, что современные танцевальные композиции звучат так, словно к ним был применен бит-крашер. И всех это устраивает, никто не возражает.

Что тут еще можно сказать? Противостоять «заскокам» мировой музыкальной индустрии могут только сами слушатели — они могут голосовать кошельками: не покупать диски с узеньким динамическим диапазоном или требовать возврата денег за уже купленные диски. Далее, по цепочке от покупателя, через магазины и промежуточных поставщиков, некое неудобство должно дойти до музыкального лейбла, выпустившего слишком громкий диск. Я заметил, что уже несколько лет не голосую своим кошельком — практически не покупаю CD. Но пока остальные слушатели своими кошельками не проголосовали, пользуйтесь моментом, применяйте 12-битный мастеринг! И пусть заказчик радуется «теплому», «ламповому» звуку

Материал оказался полезным?

Поставь свою оценку!

Средний рейтинг 5 / 5. Оценок: 1

Пока никто не оценил этот пост 🙁 Ты можешь стать первым!


Теги:

  1. Очень крутая статья!

  2. Кто автор статьи?

  3. Полностью согласен с автором. Стоило прекратить войну громкости еще в начале 00-х.

  4. Мега «ОБОСРАЛЬНАЯ» статья! Респект в кубе, а то и в 10-ой степени!
    Не важно, перевод это или кто то из наших писал, главное, что это крик души нормального человека, люди должны возвращаться к «адекватного звуку» и уходить как можно быстрее от этого шлака, которую ща порождают на каждом углу «псевдо продюсеры» и тем самым калечат слух и мозги новым поколениям (и не только).

  5. Статья — бред сивой кобылы.Нашел что сравнивать. Ты сравни 24 бита и 16 бит и будет тебе разница… CD почему хуже винила звучит, потому что 16 бит и 44кгц это ниже человеческого восприятия, а вот 24 бита 96кгц это уже выше…

Оставить комментарий

VST Плагины :: Сообщество звукорежиссёров
Вход / Регистрация временно отключены.