44100 или 48000 что лучше - TurboComputer.ru
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд (пока оценок нет)
Загрузка...

44100 или 48000 что лучше

Сообщества › Автозвук › Блог › Имеют ли цифры цвет? Пытаемся разобраться в режимах работы ЦАП Asahi Kasei на примере процессора CarDSP Velvet Lite

Кажется, ещё Эдди Ван Хален однажды сказал: “Для меня звучание ассоциируется с цветом, любая музыка имеет свой собственный цвет”. Не знаю, слышали ли эту фразу разработчики Asahi Kasei, но в своих ЦАП они сделали фичу, которая называется Sound Color Digital Filter (SCDF). Именно её мне и удалось оценить в процессоре CarDSP Velvet Lite – в нём как раз используется чип AK4458VN.

Чтобы понять, что вообще такое Digital Filter, и почему он так влияет на Sound Color, коротко о том, как звук вообще хранится в цифровом виде, и что происходит, когда ЦАП пытается вернуть “цифру” к жизни, преобразовывая её обратно в аналоговый сигнал.

КОРОТКИЙ ЛИКБЕЗ ПО ПРЕОБРАЗОВАНИЮ АНАЛОГ-ЦИФРА-АНАЛОГ

Понятно, что записать непрерывный аналоговый сигнал вот так сходу в виде ноликов и единичек невозможно. Поэтому он сначала “разбивается” на отдельные отсчёты – просто с определённой периодичностью засекается уровень сигнала. Например, 44100 или 48000 раз в секунду, 96000 или вовсе 192000 раз в секунду. Ничего эти цифры не напоминают? Ба! Да это же как раз и есть частота дискретизации!

Итак, на первом этапе вместо непрерывного сигнала получили частокол отсчётов. Теперь уровень каждого из них уже можно закодировать двоичным числом, т. е. в виде последовательностей ноликов и единичек. Чаще всего длина таких последовательностей – 16 или 24 знака. Да-да, те самые биты, которые указываются, когда мы говорим о разрешении цифрового сигнала.

Не будем отвлекаться на технические тонкости хранения “цифры”, а сразу перейдём к тому, как превратить её обратно в непрерывный аналоговый сигнал. ЦАП работает по прямо противоположному принципу, и для начала каждую двоичную последовательность снова превращает в отсчёт нужного уровня. Получается опять частокол отсчётов, смутно уже напоминающий форму аналогового сигнала.

Но нам такой сигнал ещё не нужен, в его спектре много лишнего – он простирается на много десятков килогерц вверх. Сигнал нужно “сгладить” – выделить из всего этого спектра только полезную “звуковую” часть. Вот это как раз и делает тот самый Digital Filter. Фактически, это просто фильтр нижних частот, и от его реализации зависит то, как зазвучит ЦАП в конечном итоге.

SOUND COLORS В ПРОЦЕССОРЕ CARDSP VELVET LITE

Вот теперь можно перейти и к самому “железу”. А точнее – к реализации фильтров в ЦАП. Это оказалось удобнее всего сделать на примере процессора CarDSP версии Velvet Lite. Про саму процессорную часть говорить не буду, речь сейчас не о ней.

ЦАП в этой версии CarDSP построен на чипе AK4458. Он принадлежит к линейке, которую сам производитель Asahi Kasei объединяет под общей концепцией Velvet Sound (что, собственно, и дало название версии процессора). К ней принадлежат несколько серий чипов – АК445х и АК449х. Кстати, ЦАП на базе АК4490 я и сам использую в своём тестовом тракте.

Все ЦАП этого семейства имеют несколько режимов работы выходных фильтров. Обычно производители не заморачиваются и выбирают какой-то один из них, но CarDSP Velvet Lite как раз тем и интересен, что пользователю предоставляется выбор. Менять режимы выходных фильтров можно просто переставляя джамперы на плате.

Каждое из положений джампера указано здесь же, так что лишних мануалов не потребовалось.

Впрочем, названия поначалу тоже мало о чём рассказали, пришлось лезть на официальный сайт Asahi Kasei. И вот какую табличку я там обнаружил. Достаточно коротко и, в общем-то, неплохо отражает суть:

Каждый фильтр может быть реализован по-разному и иметь разные характеристики. В частности, импульсный отклик – в одних случаях переходные процессы практически отсутствуют, в других – заметны сильнее и тоже имеют разный характер. В CarDSP реализованы четыре режима. В скобках – вольный перевод описания из таблички:

Slow Roll-off (минимальные переходные процессы, звучание близко к оригинальному)
Sharp Roll-off (переходные процессы предваряют импульс и следуют за ним, что делает звучание более напористым)
Super Slow Roll-off (практически полное отсутствие переходных процессов, предельно натуральное звучание)
Short Delay Sharp Roll-off (переходные процессы следуют за импульсом, это даёт более насыщенное звучание баса)

Разный импульсный отклик придаёт звучанию тот или иной характер – это и есть суть технологии Sound Color Digital Filter (SCDF). И для слуха, как показало прослушивание, далеко не всегда есть смысл гнаться за идеальными картинками и циферками. Но об этом чуть позже.

ПОПЫТКИ УВИДЕТЬ РАЗНИЦУ

С картинками, признаюсь, я мучился долго. Поскольку речь идёт именно о переходных процессах, наиболее правильным представлялось посмотреть, как ЦАП обращается с прямоугольными импульсами. Но, поразмыслив над методиками, от этого было решено отказаться. В подробности вдаваться не буду, нюансов слишком много.

В итоге начал мучить Clio, тем более, что в пределах 20-20000 Гц он умеет очень многое. Анализ гармонических искажений не дал ровным счётом ничего. Вернее, разница была, и форма графиков была даже довольна стабильна. Но пытаться сделать какие-то выводы по ним выглядели пустой затеей. Если кому интересно, вышло вот так:

Зато другая зависимость оказалась более наглядной. Чем отличаются фильтры разных типов? Правильно, кроме всего прочего – фазовыми характеристиками. Вот на графиках фазы разница и проявилась. Масштаб, конечно, пришлось заметно растянуть, но тут нужно учесть, что Clio видит всё до частоты немногим больше 22 кГц, а в фильтрах ЦАП основная веселуха начинается гораздо выше. Тем не менее, тенденция уже прослеживается чётко.

И тут может возникнуть вопрос. А нужно ли вообще уделять внимание всему этому хозяйству, если формально разница видна только там, где звук уже давно перешёл в ультразвук? Отвечаю однозначно – нужно. Потому что графики показывают разницу на так называемом “стационарном” сигнале. Характер же реального музыкального сигнала ближе к импульсному, и на нём переходные процессы слышны даже когда “стационарные” графики ничего не показывают. В общем, уши – по прежнему самый лучший измерительный прибор.

Тракт составил следующим образом. В качестве источника использовал Blu-Ray-транспорт Sony BDP-S765, процессор подключил к нему по коаксиалу. Регулировка громкости – средствами самого CarDSP. Дальше – старые добрые межблочники The Chord Indigo Plus и усилитель Genesis Dual Mono, недавно прогретый после профилактики с лёгкими доработками (усилитель одного из первых поколений, в своё время он трудился в лаборатории Car&Music). Акустические кабели – бессменные E.O.S. TA-11. Акустика – полочники PSB Synchrony One B на кастомных гранитных подставках. В общем, ещё не лютый многомиллионный топ, но разница в режимах процессора слышна хорошо.

Режим 1. Slow Roll-off
Описание: “Минимальные переходные процессы, звучание близко к оригинальному”

Первый режим использовал в качестве отправной точки, поэтому сразу же описать характер звучания довольно сложно. Для начала можно сказать одно – звуковая картинка рисуется красиво, объёмно, послезвучия живые, звучание прозрачное. Деталей много, но ничто не выпячивается, слушать легко и приятно. Действительно нейтрально, как и обещает описание.

Режим 2. Sharp Roll-off
Описание: “Переходные процессы предваряют импульс и следуют за ним, это даёт более напористое звучание”

Скажу сразу, этот режим для меня оказался в аутсайдерах. Да, в звуке всё есть, ничто не потеряно, но вместо живописной картинки – печатная репродукция. Вроде бы всё присутствует, детальность хорошая, но появляется ощущение то ли искусственности, то ли грубости. Объём сцены чувствуется хорошо, но по сравнению с первым вариантом звучание воспринимается упрощённо, не так просторно. Потом я несколько раз снова возвращался к этому режиму, но… нет, не то.

Режим 3. Super Slow Roll-off
Описание: “Практически полное отсутствие переходных процессов, предельно натуральное звучание”

Если бы я не посмотрел потом в описание, то, наверное, никогда бы не назвал этот режим “правильным”. Признаюсь, звучание показалось до безобразия нейтральным и уж слишком скучным. Да, объём звуковой сцены рисуется хорошо, но мозг постоянно сигнализирует о том, что в звуке чего-то не хватает. Из-за этого появляется ощущение какой-то упрощённости и отстранённости. Без грубости, как во втором режиме, но вот скучно.

Режим 4. Short Delay Sharp Roll-off
Описание: “Переходные процессы следуют за импульсом, это даёт более насыщенное звучание баса”

После третьего режима в звук снова возвращается масштабность. И этот режим уж точно интереснее, чем второй. В целом, по ощущениям я бы поставил его на один уровень с первым. Как говорится, “плюс-минус”. На роке он показался более драйвовым, а вот на классике, джазе и блюзе, особенно с вокалом, первый воспринимается как-то деликатнее. По басу, кстати, таких уж радикальных различий не заметил. Может, акустика не позволила, а может, ещё какие факторы повлияли.

В последующем я неоднократно сравнивал первый и четвёртый режимы, именно они мне понравились больше остальных. И вот что было замечено. Если в первом звучание парило целиком в пространстве за акустикой, то в четвёртом ощущения полной отвязки от источников звука всё же не было. На некоторых треках за счёт едва уловимых акцентов на крайних образах звучание казалась шире, но это же иногда приводило и к “рассыпанию” остальных образов в пространстве. В этом смысле в первом режиме звуковая картинка пространственно получалась более цельной, а при длительном прослушивании слух воспринимал звучание как-то естественнее и комфортнее.

Так уж вышло, что прослушивание я начал проводить вслепую – поначалу не особо вникая в то, какое положение джампера какому режиму соответствует. Просто переставлял и слушал. Этот процесс длился не один день, я слушал разную музыку в разное время дня (это тоже влияет на слуховое восприятие), делал “подходы” с внимательным прослушиванием, переключая режимы на одном и том же треке, или слушал систему на протяжении дня просто в фоновом режиме, примечая общую комфортность… В общем, постарался оценить всесторонне.

Потом же, когда услышанное было сопоставлено с описаниями из даташитов Asahi Kasei, вывод оказался неожиданным – чтобы слух воспринимал звучание естественно и комфортно, импульсный отклик не обязан быть идеальным. Самый, казалось бы, “правильный” режим с минимальными переходными процессами оказался пусть и довольно хорошим, но субъективно не самым интересным.

Предположу, что внесение в сигнал лёгкой “неточности” импульсного отклика включает в работу какие-то психоакустические факторы, задействует в слуховом восприятии определённые механизмы. А может быть, имитирует для слуха то, что было потеряно при цифровой записи изначально, получается что-то вроде дизеринга (Википедия в помощь, шум тоже может быть полезным). Но и увлекаться этим тоже не нужно, избыточное “посыпание” сигнала переходными процессами приводит к прямо противоположному эффекту – резкой потери естественности звучания. В общем, очень тонкая и интересная тема. Истина, как всегда, где-то посередине.

Читайте также:  Текстовые редакторы для Андроид

44100 или 48000 что лучше

Модификация и улучшение качества звука андройд | Modification and improvement of sound quality android

Данная тема создана с целью улучшения и повышения звуковых характеристик андройд устройств, где все подробно описано начиная от простых действий в build.prop, заканчивая внедрением сторонних аудио библиотек в свой смартфон.

Тему буду обновлять по ходу времени

Для всех действий понадобится наличе root прав

Список samplingRates 8000,16000,32000,44100,48000,88200,96000,176400,192000,384000
Список format по возрастанию в качестве
AUDIO_FORMAT_PCM_16_BIT
AUDIO_FORMAT_PCM_24_BIT_PACKED ( в основном используется для a2dp)
AUDIO_FORMAT_PCM_8_24_BIT
AUDIO_FORMAT_PCM_32_BIT

Флаг fast
Он же вывод звука с низкой задержкой до 40 мс

16 bit и 48Khz максимкльно и все что ниже. Нельзя выводить hires

Разгрузка offload
Список форматов:
AUDIO_OUTPUT_FLAG_DIRECT (прямой выход)
AUDIO_OUTPUT_FLAG_COMPRESS_OFFLOAD (сжатие аудио на выходе)
AUDIO_OUTPUT_FLAG_NON_BLOCKING (аудио выход не блокируется)

используется для вывода на bluetooth или устройства где это необходимо гарнитуру, современные устройства компрессиуют сигнал до mp3 под кодек SBC,если наушники (устройство) не поддерживают кодек ldac, aptx и hwa
если есть возможность выводить через hires кодек, то вывод идет через 24_BIT_PACKED, упрощенный формат 24bit

Прямой вывод звука, игнорирование всех эффектов системы и пост обработок, то есть вывод HIRES
Список форматов:
AUDIO_OUTPUT_FLAG_DIRECT (прямой выход)
AUDIO_OUTPUT_FLAG_DIRECT_PCM (прямой выход в PCM контейнере)
В чем разница незнаю, можете использовать 1 один из них

Флаги выхода аудио
AUDIO_OUTPUT_FLAG_PRIMARY (первичный аудио выход, используется по стандарту в большинстве устройств)
AUDIO_OUTPUT_FLAG_DEEP_BUFFER (Глубокий буффер)

Список форматов компрессии аудио от самого высокого до низкого качества (это не весь список, но самые нормальные) (не все будут поддерживаться)
AUDIO_FORMAT_FLAC
AUDIO_FORMAT_ALAC
AUDIO_FORMAT_APE
AUDIO_FORMAT_VORBIS
AUDIO_FORMAT_WMA
AUDIO_FORMAT_WMA_PRO
AUDIO_FORMAT_MP3 (по умолчанию)

Разложить все файлы по папкам из архива, и дать разрешения
Правка разрешений файлов
/bin/alsa_amixer 0755
/bin/alsa_aplay 0755
/bin/alsa_ctl 0755
/lib/libasound.so 0644
/usr/share/alsa //всем папкам 0755, всем файлам в папке alsa 0644
Драйвер для 32/64 битных процессоров: alsa_32bit.zip ( 405,16 КБ )
(ограничение андройд от 4 до 6 выше работать не будет)

Дополнение положить в /system/lib/hw с правами 0644 (может как положительно так и негативно сказаться на звуке): alsa.default.so.zip ( 12,96 КБ )

Готовый скрипт для запуска alsa: alsa.sh.zip ( 272 байт )

# Нестандартные
Имеет качествнный алгоритм обработки аудио
Ставить с заменой, если в /system/lib/libasound.so имеется данная библиотека, если ее нет бесполезно (возможно появистя эффект, но не уверен) В /system/bin не должно быть бинарников от alsa, иначе с замной библиотеки пропадет звук, сделайте копию оригинала для безопасности 🙂
Библиотека asound от Samsung GS8+: alsa_asound_sgs8+.zip ( 262,15 КБ )

bundle <
path /system/lib64/soundfx/libbundlewrapper.so
>
>
effects <

bassboost <
library bundle
uuid 8631f300-72e2-11df-b57e-0002a5d5c51b
>
>

Просто кладем с заменой в /system/lib/soundfx присвоив им права 0644
Для 64 битных, проверяйте оба, звук сильно отличается
Список библиотек:
/libbundlewrapper.so
/libldnhncr.so
/libreverbwrapper.so
/libdownmix.so
Работают как на 32 двух так и 64 битных процессорах: standard_32bit.zip ( 83,28 КБ )

Библиотеки класть в /system/lib64/soundfx с заменой
Для 64 битных процессоров: standard_64bit.zip ( 80,33 КБ )

Библиотеки брал от 6 андройд, но должны работать и на версиях ниже, так как они универсальные
ВАЖНО сделайте бекап системного раздела не гарантирую 100% работу библиотек (телефон может зависнуть на вечной анимации) , можете перебирать по одной и наблюдать как ведет себя смартфон
Установка: перенести все библиотеки с заменой в /system/lib и дать права 0644
Можно упростить процесс правки прав
su #получаем root
mount -o rw,remount /system #перевод системного раздела в запись
chmod 0644 /system/lib/*.so #смена прав

Список библиотек:
/libaudioflinger.so
/libaudioresampler.so
/libaudiospdif.so
/libaudioutils.so
/libeffects.so
/libinput.so
/libinputflinger.so
/libsonic.so
/libsonivox.so
/libsoundtrigger.so
/libspeexresampler.so
/libwebrtc_audio_coding.so
/libwebrtc_audio_preprocessing.so

В целом повышает общий уровень громкости, четкость, басс.
audio_engine.zip ( 1,24 МБ )

Сообщение отредактировал Roman_city – 10.09.19, 22:12

Подробная инструкция по настройке ALSA

На выходе получите высококачественнее звук

Смена звуковой карты, если имеется 2
Наличие и номер звуковых карт можно проверить командой в терминале
cat /proc/asound/modules
Если выдало к примеру, 0 стандартная карта, 1 адаптированная для музыки именно она должна поддерживать 32 или 24 битную обработку и 192000 дискритизацию, хотя бывает что и стандартная не плохо себя ведет на такой обработке.
0 mtkcard
1 hdcard
# по умолчанию 0, пишем 0 или 1 взависмости от наличия карт
defaults.ctl.card 0
defaults.pcm.card 0
defaults.pcm.device 0

Находим и меняем данные строки
сильно влияет на звук
defaults.pcm.dmix.rate 48000 #повышем до 96000 / 192000 , насколько система позволяет
defaults.pcm.dmix.format “U16_LE” #формат обработки рекомендую использовать U32_LE или U24_3LE U18_3LE

Значения выше, высокие и средние поднимаются, если в минус басса больше, менять default

Функция значительно преображает звук, по умолчание 16, если спустить на 0 и ниже звук будет бассистым, наоборот ввысьвысокие и средние выражаются, более четкий
менять default

Сообщение отредактировал Roman_city – 28.09.17, 16:54

winston6,
не учел создание папки, скрипт поправил
в su.d или init.d, главное что бы запускался вместе с системой
вручную создайте папку

Сообщение отредактировал Roman_city – 27.09.17, 22:27

Библиотеки Beats
Оригинал, но тут расширенная версия
Данные операции над устройством безопасны, то есть они не приведут к крашам и вечным загрузкам устройства!
Работают на arm/arm64/x86
Не пихайте сразу все, они очень сильно влияют звук даже при малейшем изменении, можно испортить так и повысить звучание

Установка: всем файлам права 0644, папкам 0755, исключение /bin/все файлы, права 0755
Внутри лежит файл для добавления эффектов в audio_effects.conf

Внутри архива папка beats_expansion, в ней находятся все остальные конфигурации звука
Файлы с расширением /etc/*.bin бросайте в /system/etc с правами 0644, рекомендую использовать по 1 из каждого подраздела bas,dyn,img,peq (может одного хватит)

Список основных либов к которым поодключаются все остальные настройки и либы /system/lib:
/system/lib/soundfx/libbeatsbass.so
/system/lib/soundfx/libsrsfx.so
/system/lib/soundfx/libsrstb.so

Описание эффектов:
/etc/*.bin конфигурация выходного звука,
В папке /etc/soundimage лежат основные настройки для SRS, эквализируют звук, бассбусты, усилетели голоса и высоких и т.д., копируйте в /system/etc/soundimage с правами 0644
Из названия разберетесь
В папке /etc/audio, файлы, которые копрессируют, лимитируют и выравнивают АЧХ выходного сигнала.

/system/bin/sound лимитер
/system/lib/soundfx/libbeatsbass.so усилитель басса
/system/lib/soundfx/libsrsfx.so накладвает эффекты расширение стерео образа, реверб, дисторшен и т.д.
/system/lib/soundfx/libsrstb.so Что то вроде компрессора
/system/lib/soundfx/libsrscore.so помогает libsrsfx.so, компрессирует звук
/system/lib/soundfx/libbeatscorehtc.so помогает libbeatsbass.so
/system/lib/soundfx/libharmancorehtc.so возбуждает высокий спектр частот, голоса чище звучат

libraries_beats_audio.zip ( 1,89 МБ )

Сообщение отредактировал Roman_city – 14.10.17, 14:41

Выставил дискретизацию 384000, звук не пропал, смарт redmi 3s, проц снап 430.

Сообщение отредактировал ne navizu LG – 12.10.17, 07:33

Настройка и эквализация звука в SRS Processing

Ставится в основном на бюджетных моделях, может ошибаюсь (как пример взял от Leagoo M8)
Возможно у кого то она заработает без наличия данной библиотеки
Наличие проверяется, нахождением файлов: в /system/lib/libsrsprocessing.so ../system/data/srs_processing.cfg (иногда он находисят в etc)

Версия самой программы, включение программы или нет и уровень усиления выходного сигнала
// BLOCK: srs_cfg
// Config – Non-IP Configuration
:srs_skip = 1 #Пропускает любую обработку SRS 0 -нет, 1 – да
:trumedia_enable = 0 #включен или нет
:trumedia_preset = 0 #какую использует предустановку, 0 – music ,1 – movie, 2 – podcast
:trumedia_igain_int = 1.000
:trumedia_igain_ext = 1.000
:vol_int_enable = 0 #регулирования объема
:trumedia_skip = 0

Tru Bass – строка эмулирует вертикальный басовый звук

srs_mus_int:
:wowhd_igain = 0.600 #усиление звука на входе
:wowhd_ogain = 1.000 #усиление звука на выходе
:wowhd_trubass_enable = 0 #включение отключение 0-1
:wowhd_trubass_min = 0.000 #минимальная частота воздействия в герцах
:wowhd_trubass_window = 1.000 #размер
:wowhd_trubass_sl > :wowhd_trubass_sl > :wowhd_trubass_compressor = 0.000 #компрессор, срезает лишние частоты, возвышающие выше 0дб
// ALIAS :wowhd_trubass_size // TruBass Speaker Size
:wowhd_trubass_freq = 500 #основная частота на которую воздействует – частота
:wowhd_trubass_analysis = 300 #размер анализа – частота
:wowhd_trubass_sa_enable = 1 #включение отключение сплит анализа
:wowhd_trubass_mode = 0 #Тру басс мод (0 – моно, 1 – стерео)
:wowhd_xover_enable = 1 #частота среза фильтра для динамика
:wowhd_xover_order = 4 # степень воздействия (максимум – 6)
:wowhd_xover_freq = 750 #частота (рекомендую 250)
:wowhd_hpf_enable = 1 #Hi pass Фильтр – обрезает частоты ниже установленной фильтра
:wowhd_hpf_order = 4 #степень воздействия (максимум – 6)
:wowhd_hpf_freq = 250 #частота
:wowhd_srs_enable = 0 #SRS3D – создает ощущение 3D
:wowhd_srs_space = 0.700 #воздействие на правый и левый канал
:wowhd_srs_center = 0.500 #воздействие по центру
:wowhd_srs_mode = 1 #(0-моно, 1-один динамик, 2-стерео, 3-экстрим
:wowhd_srs_speaker = 0 #тип звука (0 – динамик, 1 – наушники)
:wowhd_focus_enable = 0 #включение отключение фокуса
:wowhd_focus = 0.170 #Степень воздействие фокуса
:wowhd_definition_enable = 0 #четкость звука 0-1
:wowhd_definition_min = 0.000 #минимальная степень воздействия
:wowhd_definition_window = 0.500 #размер
:wowhd_definition_sl > :wowhd_definition_sl > :wowhd_w > :wowhd_w > :wowhd_w > :wowhd_w > :wowhd_skip = 0 #пропуск эффектов или нет 0 нет, 1 да

//=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-
// BLOCK: srs_geq_0_int
// GEQ – GEQ Preset 0-Internal
//=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-
srs_geq_0_int:
:geq_presetname = #номер предустановки
:geq_defgains = 0,0,0,0,0,0,0,0,0,0 #значения по умолчанию
:geq_usergains = 0,0,0,0,0,0,0,0,0,0 #пользовательские значения

Примерно так выглядит, возможно и точные: 31Гц, 62Гц,125 Гц,250 Гц,500 Гц, 1кГц, 2кГц, 4кГц, 8кГц, 16кГц
Значения от -10 до 10 или меньше так как не проверял

SRS_Processing.zip ( 276,33 КБ )

Сообщение отредактировал Roman_city – 16.10.17, 16:00

Цифровой аудиоформат 24/192, и почему в нем нет смысла. Часть 2 [Перевод]

Сохранить и прочитать потом —

Прим. перев.: Это перевод второй (из четырех) частей развернутой статьи Кристофера «Монти» Монтгомери (создателя Ogg Free Software и Vorbis) о том, что, по его мнению, является одним из наиболее распространенных и глубоко укоренившихся заблуждений в мире меломанов.

Частота 192 кГц считается вредной

Музыкальные цифровые файлы с частотой 192 кГц не приносят никакой выгоды, но всё же оказывают кое-какое влияние. На практике оказывается, что их качество воспроизведения немного хуже, а во время воспроизведения возникают ультразвуковые волны.

И аудиопреобразователи, и усилители мощности подвержены влиянию искажений, а искажения, как правило, быстро нарастают на высоких и низких частотах. Если один и тот же динамик воспроизводит ультразвук наряду с частотами из слышимого диапазона, то любая нелинейная характеристика будет сдвигать часть ультразвукового диапазона в слышимый спектр в виде неупорядоченных неконтролируемых нелинейных искажений, охватывающих весь слышимый звуковой диапазон. Нелинейность в усилителе мощности приведет к такому же эффекту. Эти эффекты трудно заметить, но тесты подтвердили, что оба вида искажений можно расслышать.

График выше показывает искажения, полученные в результате интермодуляции звука частотой 30 кГц и 33 кГц в теоретическом усилителе с неизменным коэффициентом нелинейных искажений (КНИ) около 0.09%. Искажения видны на протяжении всего спектра, даже на меньших частотах.

Читайте также:  Переворачиваем таблицу с данными в MS Word

Неслышимые ультразвуковые волны способствуют интермодуляционным искажениям в слышимом диапазоне (светло-синяя зона). Системы, не предназначенные для воспроизведения ультразвука, обычно имеют более высокие уровни искажений, около 20 кГц, дополнительно внося вклад в интермодуляцию. Расширение диапазона частот для включения в него ультразвука требует компромиссов, которые уменьшат шум и активность искажений в пределах слышимого спектра, но в любом случае ненужное воспроизведение ультразвуковой составляющей ухудшит качество воспроизведения.

Есть несколько способов избежать дополнительных искажений:

  1. Динамик, предназначенный только для воспроизведения ультразвука, усилитель и разделитель спектра сигнала, чтобы разделить и независимо воспроизводить ультразвук, который вы не можете слышать, чтобы он не влиял на другие звуки.
  2. Усилители и преобразователи, спроектированные для воспроизведения более широкого спектра частот так, чтобы ультразвук не вызывал слышимых нелинейных искажений. Из-за дополнительных затрат и сложности исполнения, дополнительный частотный диапазон будет уменьшать качество воспроизведения в слышимой части спектра.
  3. Качественно спроектированные динамики и усилители, которые совсем не воспроизводят ультразвук.
  4. Для начала можно не кодировать такой широкий диапазон частот. Вы не можете (и не должны) слышать ультразвуковые нелинейные искажения в слышимой полосе частот, если в ней нет ультразвуковой составляющей.

Все эти способы нацелены на решение одной проблемы, но только 4 способ имеет какой-то смысл.

Если вам интересны возможности вашей собственной системы, то нижеследующие сэмплы содержат: звук частотой 30 кГц и 33 кГц в формате 24/96 WAV, более длинную версию в формате FLAC, несколько мелодий и нарезку обычных песен с частотой, приведенной к 24 кГц так, что они полностью попадают в ультразвуковой диапазон от 24 кГц до 46 кГц.

Тесты для измерения нелинейных искажений:

  • Звук 30 кГц + звук 33 кГц (24 бит / 96 кГц) [5-секундный WAV] [30-секундный FLAC]
  • Мелодии 26 кГц – 48 кГц (24 бит / 96 кГц) [10-секундный WAV]
  • Мелодии 26 кГц – 96 кГц (24 бит / 192 кГц) [10-секундный WAV]
  • Нарезка из песен, приведенных к 24 кГц (24 бит / 96 кГц WAV) [10-секундный WAV] (оригинальная версия нарезки) (16 бит / 44.1 кГц WAV)

Предположим, что ваша система способна воспроизводить все форматы с частотами дискретизации 96 кГц [6]. При воспроизведении вышеуказанных файлов, вы не должны слышать ничего, ни шума, ни свиста, ни щелчков или каких других звуков. Если вы слышите что-то, то ваша система имеет нелинейную характеристику и вызывает слышимые нелинейные искажения ультразвука. Будьте осторожны при увеличении громкости, если вы попадете в зону цифрового или аналогового ограничения уровня сигнала, даже мягкого, то это может вызвать громкий интермодуляционный шум.

В целом, не факт, что нелинейные искажения от ультразвука будут слышимы на конкретной системе. Вносимые искажения могут быть как незначительны, так и довольно заметны. В любом случае, ультразвуковая составляющая никогда не является достоинством, и во множестве аудиосистем приведет к сильному снижению качества воспроизведения звука. В системах, которым она не вредит, возможность обработки ультразвука можно сохранить, а можно вместо этого пустить ресурс на улучшение качества звучания слышимого диапазона.

Недопонимание процесса дискретизации

Теория дискретизации часто непонятна без контекста обработки сигналов. И неудивительно, что большинство людей, даже гениальные доктора наук в других областях, обычно не понимают её. Также неудивительно, что множество людей даже не осознают, что понимают её неправильно.

Дискретизированные сигналы часто изображают в виде неровной лесенки, как на рисунке выше (красным цветом), которая выглядит как грубое приближение к оригинальному сигналу. Однако такое представление является математически точным, и когда происходит преобразование в аналоговый сигнал, его график становится гладким (голубая линия на рисунке).

Наиболее распространенное заблуждение заключается в том, что, якобы, дискретизация – процесс грубый и приводит к потерям информации. Дискретный сигнал часто изображается как зубчатая, угловатая ступенчатая копия оригинальной идеально гладкой волны. Если вы так считаете, то можете считать, что чем больше частота дискретизации (и чем больше бит на отсчет), тем меньше будут ступеньки и тем точнее будет приближение. Цифровой сигнал будет все больше напоминать по форме аналоговый, пока не примет его форму при частоте дискретизации, стремящейся к бесконечности.

По аналогии, множество людей, не имеющих отношения к цифровой обработке сигналов, взглянув на изображение ниже, скажут: «Фу!» Может показаться, что дискретный сигнал плохо представляет высокие частоты аналоговой волны, или, другими словами, при увеличении частоты звука, качество дискретизации падает, и частотная характеристика ухудшается или становится чувствительной к фазе входного сигнала.

Это только так выглядит. Эти убеждения неверны!

Комментарий от 04.04.2013: В качестве ответа на всю почту, касательно цифровых сигналов и ступенек, которую я получил, покажу реальное поведение цифрового сигнала на реальном оборудовании в нашем видео Digital Show & Tell, поэтому можете не верить мне на слово.

Все сигналы частотой ниже частоты Найквиста (половина частоты дискретизации) в ходе дискретизации будут захвачены идеально и полностью, и бесконечно высокая частота дискретизации для этого не нужна. Дискретизация не влияет на частотную характеристику или фазу. Аналоговый сигнал может быть восстановлен без потерь – таким же гладким и синхронным как оригинальный.

С математикой не поспоришь, но в чем же сложности? Наиболее известной является требование ограничения полосы. Сигналы с частотами выше частоты Найквиста должны быть отфильтрованы перед дискретизацией, чтобы избежать искажения из-за наложения спектров. В роли этого фильтра выступает печально известный сглаживающий фильтр. Подавление помехи дискретизации, на практике, не может пройти идеально, но современные технологии позволяют подойти к идеальному результату очень близко. А мы подошли к избыточной дискретизации.

Частоты дискретизации свыше 48 кГц не имеют отношения к высокой точности воспроизведения аудио, но они необходимы для некоторых современных технологий. Избыточная дискретизация (передискретизация) – наиболее значимая из них [7].

Идея передискретизации проста и изящна. Вы можете помнить из моего видео «Цифровое мультимедиа. Пособие для начинающих гиков», что высокие частоты дискретизации обеспечивают гораздо больший разрыв между высшей частотой, которая нас волнует (20 кГц) и частотой Найквиста (половина частоты дискретизации). Это позволяет пользоваться более простыми и более надежными фильтрами сглаживания и увеличить точность воспроизведения. Это дополнительное пространство между 20 кГц и частотой Найквиста, по существу, просто амортизатор для аналогового фильтра.

На рисунке выше представлены диаграммы из видео «Цифровое мультимедиа. Пособие для начинающих гиков», иллюстрирующие ширину переходной полосы для ЦАП или АЦП при частоте 48 кГц (слева) и 96 кГц (справа).

Это только половина дела, потому что цифровые фильтры имеют меньше практических ограничений в отличие от аналоговых, и мы можем завершить сглаживание с большей точностью и эффективностью. Высокочастотный необработанный сигнал проходит сквозь цифровой сглаживающий фильтр, который не испытывает проблем с размещением переходной полосы фильтра в ограниченном пространстве. После того, как сглаживание завершено, дополнительные дискретные отрезки в амортизирующем пространстве просто откидываются. Воспроизведение передискретизированного сигнала проходит в обратном порядке.

Это означает, что сигналы с низкой частотой дискретизации (44.1 кГц или 48 кГц) могут обладать такой же точностью воспроизведения, гладкостью АЧХ и низким уровнем наложений, как сигналы с частотой дискретизации 192 кГц или выше, но при этом не будет проявляться ни один из их недостатков (ультразвуковые волны, вызывающие интермодуляционные искажения, увеличенный размер файлов). Почти все современные ЦАП и АЦП производят избыточную дискретизацию на очень высоких скоростях, и мало кто об этом знает, потому что это происходит автоматически внутри устройства.

ЦАП и АЦП не всегда умели передискретизировать. Тридцать лет назад некоторые звукозаписывающие консоли использовали для звукозаписи высокие частоты дискретизации, используя только аналоговые фильтры. Этот высокочастотный сигнал потом использовался для создания мастер-дисков. Цифровое сглаживание и децимация (повторная дискретизация с более низкой частотой для CD и DAT) происходили на последнем этапе создания записи. Это могло стать одной из ранних причин, почему частоты дискретизации 96 кГц и 192 кГц стали ассоциироваться с производством профессиональных звукозаписей.

16 бит против 24 бит

Хорошо, теперь мы знаем, что сохранять музыку в формате 192 кГц не имеет смысла. Тема закрыта. Но что насчет 16-битного и 24-битного аудио? Что же лучше?

16-битное аудио с импульсно-кодовой модуляцией действительно не полностью покрывает теоретический динамический звуковой диапазон, который способен слышать человек в идеальных условиях. Также есть (и будут всегда) причины использовать больше 16 бит для записи аудио.

Ни одна из этих причин не имеет отношения к воспроизведению звука – в этой ситуации 24-битное аудио настолько же бесполезно, как и дискретизация на 192 кГц. Хорошей новостью является тот факт, что использование 24-битного квантования не вредит качеству звучания, а просто не делает его хуже и занимает лишнее место.

Примечания к Части 2

6. Многие из систем, которые неспособны воспроизводить сэмплы 96 кГц, не будут отказываться их воспроизводить, а будут незаметно субдискретизировать их до частоты 48 кГц. В этом случае звук не будет воспроизводиться совсем, и на записи ничего не будет, вне зависимости от степени нелинейности системы.

7. Передискретизация – не единственный способ работы с высокими частотами дискретизации в обработке сигналов. Есть несколько теоретических способов получить ограниченный по полосе звук с высокой частотой дискретизации и избежать децимации, даже если позже он будет субдискретизирован для записи на диски. Пока неясно, используются ли такие способы на практике, поскольку разработки большинства профессиональных установок держатся в секрете.

8. Неважно, исторически так сложилось или нет, но многие специалисты сегодня используют высокие разрешения, потому что ошибочно полагают, что звук с сохраненным содержимым за пределами 20 кГц звучит лучше. Прямо как потребители.

Как влияет частота дискретизации при прослушивании?

#1 OFFLINE JUGG

  • Пользователи
  • 5 сообщений
  • Здравствуйте.
    Моя аппаратура ЦАП+усилок для наушников S.M.S.L. M3, наушники Sennheiser HD599. Подключено по S/PDIF
    В музыке обычно частота дискретизации звука 44.1 КГц, в фильмах 48 КГц.
    1. Значит ли это что лучше для звучания будет выставить в настройках звуковой карты соответствующую ЧД? (44.1 для музыки и 48 когда смотрю фильм)
    Музыку слушаю в основном через foobar2000 c WASAPI, так что эта часть вопроса не настолько важна (аппаратура сама переключается в режим 44.1 КГц при прослушивании музыки)
    2. Не потеряю ли я в качестве звука если этого не сделаю или просто выставлю максимально доступные 192 Кгц?
    3. Как быть в тех ситуациях, когда частота дискретизации звуковых сэмплов неизвестна, например в играх?
    Меня интересует именно как это всё влияет с технической точки зрения, а не замечу ли я разницу. Хочется выжать из аппаратуры максимум возможного, и заодно успокоить моего внутреннего перфекциониста

    Читайте также:  Как удалить рекламный вирус ВКонтакте

    Сообщение отредактировал JUGG: 31 May 2019 – 06:35

    Dr.Head

    Индивидуальные новогодние скидки!

    Dr.Head дарит подарки! Все, что вы мечтали купить весь год, но не успели,
    можно купить в течении декабря по специальным ценам!
    Запросите скидку!

    #2 OFFLINE kleymor.metal

  • Продвинутые
  • 6701 сообщений
    • Город Москва
    • Занятие: Музыкант

    мои обзорыАудио тракт

    #3 OFFLINE Maga11Aliev

  • Пользователи
  • 21 сообщений
  • #4 OFFLINE Irbis502

  • Пользователи
  • 8 сообщений
  • #5 OFFLINE SV_huMMer

  • Продвинутые
  • 1406 сообщений
    • Город Москва

    мои обзорыАудио тракт

    Maga11Aliev сказал:

    Это вот крайне спорное утверждение.

    1) Дело не в живой/не живой, дело в аналоговом/цифровом формате, Музыкальный центр может воспроизводить и компактные аудиокассеты, в которых нету никаких семплов в секунду, вне зависимости от того, живой звук или нет. Про винил тоже самое.

    2) 44,100 и пороги слышимости. Откуда такие фундаментальные исследования про оптимальную для человека ЧД? Не вдаваясь в подробности, скажу, что вы осознанно не услышите ни 44 тысячи семплов в секунду, ни 96 тысяч, ни, боюсь, 22 тысячи тоже. Частота дискретизации – это технический параметр, который сопровождает весьма сложный и многогранный процесс создания и воспроизведения цифрового аудиофайла. И его влияние на восприятие далеко сложнее, чем просто количественная функция типа “чем больше, тем лучше”. Есть такие понятия, как запас полезной информации для повышения соотношения сигнал-шум в цифровом тракте, и много еще чего.

    Что касается выставления ЧД в настройках звуковой карты – вопрос еще более запутанный. Лучше всего, если до ЦАПа поток пойдет bit-perfect, то есть без преобразований, апсемплингов и тп. Не зная, какая у ТС ЗК, точнее про настройки сказать сложно, но общий вектор размышлений именно такой.

    Irbis502 сказал:

    Вообще-то вот это тоже, мягко говоря, спорное утверждение. Можете как-то аргументировать и описать мощнейшие преимущества коаксиального соединения перед оптическим?

    Сообщение отредактировал SV_huMMer: 31 May 2019 – 13:16

    Дома
    Кино/музыка Multi-channel: NAS Synology DS-214 Play /HTPC => Onkyo TX-NR579 => Canton Movie 1050 5.1

    Музыка стерео (громко): NAS Synology DS-214Play => AudioPC (Work in progress) => Foobar2000/Aplayer => Echo AudioFire 2 => РГ Никитина на бистабильных реле => Genelec 6010B + Genelec 5040

    Музыка стерео (тихо): NAS Synology DS-214Play => AudioPC (Work in progress) => Foobar2000/Aplayer => будет что-то типа PPA V2 => M2Tech HiFace DAC / iFi Nano iDSD => Laconic HA-04AF => AKG Q701/AKG K501 Litz Mod/Audio-Technica ATH-A700/Philips Fidelio X2/Sony MDR-7506.

    С собой: Notebook (foobar)/Xperia Z5 Compact (USB OTG + UAPP) => iFi Nano iDSD => Etymotic ER-4P Customs

    Для некритичного прослушивания “на ходу” – Xperia Z5 Compact (Neutron Player) => Samsung Level Link (AptX) => Etymotic ER-4P Customs

    Редко и для души: Audio-Technica ATH-EW9, Sennheiser PX-100
    У девочки: Samsing A5 -> Sony SBH-20 -> Klipsch X7i Customs, Sony MDR-10RBT

    Музыка в цифре, или чем отличается тёплый ламповый звук от скупого цифрового звука

    Вероятно, среди читателей этой страницы нет ни одного, кто бы не слышал музыку восстановленную из оцифровки (MP3, WAV, WMA, MP4, AVI, AI). Скорее всего, многие читатели встречали, хотя бы на картинках, и аппаратуру Hi-END класса – высококачественные усилители, CD проигрыватели с заявкой на “высший класс”.
    Большинство, так или иначе сталкивалось и с такими фразами, как “тёплый ламповый звук” и “сухое цифровое звучание”, некоторые скорее всего даже смеялись над фразой “при воспроизведении с этого CD флейта гуляет по сцене”.

    Сегодня я открою вам, господа заседатели глаза на суровую правду оцифрованного звука, вернее я просто покажу, что нет никакого качественного и тем более высококачественного звука в цифре и быть не может.
    Вы воочию увидите, что не важно на какой частоте оцифровывать: 48000 или 44100, совершенно не важно 8, 12 или 16 бит.

    Принцип оцифровки звука

    При оцифровке звука электроника делает N выборок уровня сигнала в секунду и каждая выборка представляет M бит значения уровня напряжения на сигнальном входе в момент когда делается выборка.
    Для 8 бит, это 256 уровней сигнала;
    Для 12 бит, это 4095 уровней;
    Для 16 бит это 65536 уровней напряжения входного сигнала.
    То есть всё работает так – если система обладает частотой дискретизации 44100 и имеет дискретность 16 бит, то это значит она 44100 раз в секунду измеряет напряжение на входе по шкале из 65536 значений.
    При воспроизведении весь процесс происходит в обратном порядке, система 44100 раз в секунду изменяет уровень напряжения на своём выходе устанавливая его в одно из 65536 возможных значений.
    Для лучшего понимания, пара иллюстраций (красные точки отмечают где во времени мы запоминали значение напряжения на входе).
    Так мы оцифровываем звук:

    Так мы воспроизводим оцифрованный звук:

    Очевидно, что чем больше число бит (больше градаций уровня), тем точнее мы сможем записать и воспроизвести звук, в частности на иллюстрациях видны погрешности воспроизведения, которые возникли из за того, что при записи было слишком мало градаций возможных значений и системе приходилось записывать ближайшие значения, а не точно те, которым напряжение соответствовало на входе.

    Действительно важная информация применительно к качеству оцифрованного звука

    Обычно очень мало внимания уделяется частоте дискретизации, а это чертовски важный параметр!
    По теореме Котельникова, она же теорема Найквиста – Шеннона выходит, что для записи сигнала на частоте F минимум надо сделать F*2 выборок сигнала, вот только мало кто думает головой и продолжает мысль того же Котельникова, а если бы продолжили, то поняли, что утверждение F*2 справедливо для однобитной записи!

    Проиллюстрирую это, в данном примере, предположим что частота сигнала аккурат равна Fдискретизации / 2, то есть если 44100 частота дискретизации то на рисунке сигнал частотой 22050Гц.
    Вот здесь мы записывали:

    А вот здесь воспроизводили:

    Совершенно очевидно, что не особо важно, сколько по вертикали было уровней, сигнал испортило то, сколько выборок было по горизонтали!

    Теперь продолжим мысль товарища Котельникова, господина Найквиста и господина Шеннона:
    для записи сигнала на частоте F с числом градаций уровня M нужна частота дискретизации:
    F * 2 * M
    То есть для записи звука частотой 22050Гц с разрядностью 8 бит (256 уровней) нам потребуется частота дискретизации:
    22050 * 2 * 256 = 11 289 600 Гц
    А для записи полноценного 16-ти битного звука уже:
    22050 * 2 * 65536 = 2 890 137 600 Гц
    или 2.8 гигагерца!
    Для сравнения – сигнал телепередачи 1 канала телевизора излучается в эфир на частоте 229 мегагерц, сотовые телефоны передают сигналы в эфир на частоте 1900 мегагерц или 1.9 гигагерца, а микроволновые печи разогревают еду сигналом частотой порядка 2458 мегагерца или 2.458 гигагерца.
    Получается что для поистине качественной записи всего на 8 бит нам уже нужна частота дискретизации уже в области радиочастот, частот, на которых радиоволны передаются!

    Скажу несколько слов об усилителях класса D, то есть о тех, которые сначала преобразуют сигнал в цифру, обычно в последовательность ШИМ (PWM) а затем обратно путём интеграции преобразуют ШИМ в звук.
    Этим усилителям, для качественного воспроизведения потребуется генерировать ШИМ с длительностью импульсов 1/11289600 секунды, то есть средняя частота, которую создаёт их ШИМ генератор, в то время когда напряжение на его входе равно нулю, должна быть точно те самые 11 мегагерц или выше.

    Любой человек знакомый с электроникой понимает, что на 2 гигагерца работать с цифрой сложно, не говоря уже про то, какой ценой и сложностью можно будет сгенерировать сигналы достаточной мощности на этой частоте (хотя бы 1 . 10 ватт).

    Кстати, теперь, надеюсь вы понимаете, почему в начале я сказал, что совершенно не важно 44100 или 48000 частота дискретизации вашей звуковой карты, CD плеера или иного устройства, эта разница просто блекнет рядом с числом 2890137600.

    Да и к слову, объёмы записи для таких систем были бы огромны, например если бы мы пожелали создать систему поистине качественной цифровой записи 16-ти битного звука, то на каждую секунду записи потребовалось бы расходовать 5.7 гигабайта места.

    Наверно тебе, уважаемый читатель, интересно, как же мы спокойно слушаем записи на 44100 х 16 бит и слышим не хрипение и шипение, а вполне качественный звук?
    Всё очень просто – наши уши не идеальный инструмент и мозг знает об этом, он выработал способы расшифровки сигналов, которые ему выдаёт ухо, вот нам и кажется что всё в порядке хотя даже звуки на частоте 5000 герц пройдя через оцифровку лучшего CD диска и проигрывателя превратились в ужасные искажения их оригинальной формы.

    Любой желающий может взять любой звуковой редактор, записать звук, скажем синусоидальной формы частотой 5000гц, на тех же 44100х16бит и посмотреть, что каждое колебание представлено в горизонтальной оси (оси времени) всего лишь 9-ю точками, в то время как по вертикальной оси оно будет представлено одним из 65536 значений.

    Где спрятан тёплый ламповый звук?

    В начале текста я говорил о “тёплом ламповом звуке” и других призвуках усилителей, вернусь к этому и обращу внимание на то, что и без всякой оцифровки потребовались бы очень широкополосные усилители для воспроизведения оригинальной, истиной формы звука. По крайней мере, они должны были бы без малейших искажений усиливать частоты от 20 Гц до примерно 10 000 000 Гц.
    Ещё нам бы потребовались и излучатели звука с таким же диапазоном и звукосниматели и микрофоны.
    В связи с ужасающей сложностью создания таких систем, их нет и не будет никогда.

    Так вот, все призвуки и окраски звука, спрятаны как раз там, где усилителю приходится сталкиваться с изменениями напряжения на входе, такими быстрыми, что если бы они происходили непрерывно, то их частота была бы гораздо выше 22050 Гц или 44100 Гц и даже 1 000 000 Гц.

    Собственно так как у одних людей уши более качественный инструмент а у других менее качественный, у одних мозг выработал более простые алгоритмы коррекции не идеальности ушей а у других сложнее, одни могут услышать разницу между ламповым звуком воспроизводимым с грампластинки, другие не слышат этой разницы, считая что 48кГц при 24 битном звуке это уже высшее качество.

    Ссылка на основную публикацию
    Adblock
    detector