Как человек, который провел бесчисленные часы, возясь с видеокартами и оптимизируя производительность игр, я могу с уверенностью сказать, что понимание тонкостей современных графических процессоров похоже на открытие секретного сундука с сокровищами визуальных чудес.
Конечно, видеокарта, награда за участие в цифровой сфере. Это для тех случаев, когда вам необходимо создать образ… когда-нибудь. Он напоминает гольф-кар на гоночной трассе высокопроизводительных вычислений. Отважно продвигаясь вперед, пиксель за пикселем, в благородной попытке показать фон рабочего стола до наступления конца времен.
Некоторые говорят, что интегрированная графика — невоспетые герои вычислений. Эти люди, по совпадению, никогда не пробовали играть в игры, выпущенные после 1998 года. Но мы здесь, чтобы поговорить об этом, так что расслабьтесь, расслабьтесь и приготовьтесь исследовать захватывающий мир интегрированной графики. Мы расскажем обо всем: от невероятно быстрой производительности со скоростью 2 кадра в секунду до ультрасовременной способности отображать не менее 16 цветов одновременно. Постарайтесь сдержать волнение. Пожалуйста.
Архитектура интегрированной графики
Интегрированные графические процессоры (GPU) встроены непосредственно в чип центрального процессора (CPU), а не являются отдельным объектом, как видеокарта. Эти специализированные схемы предназначены для повышения скорости создания изображений. По сути, они быстро манипулируют памятью, чтобы быстрее собирать графические кадры для передачи на экран или монитор. В отличие от независимых графических процессоров, которые занимают отдельную плату, интегрированные сосуществуют с процессором внутри компьютера.
Единый трубопровод
Современные графические процессоры используют гибкую шейдерную архитектуру, что позволяет им динамически распределять шейдерные ресурсы там, где они наиболее эффективны. Эти шейдерные блоки выполняют такие задачи, как определение местоположения вершин, применение шейдерных эффектов и установка цветов пикселей.
Основными частями здесь являются:
- Механизмы выполнения (EE) – Это процессоры чисел в сердце графического процессора, которые решают все виды математических задач. Больше EE означает больше сырых мышц.
- Сопоставители текстур. Специальное оборудование для выборки текстур и их фильтрации. Удобно для красивых деталей!
- Единицы рендеринга (ROU) . В конце графического конвейера они завершают изображение, смешивая пиксели и сглаживая неровные края с помощью сглаживания. Больше ROU может передать больше пикселей.
Унифицированная архитектура позволяет каждому инженеру (EE) выполнять различные задачи по шейдерам, что дает возможность EE, который закончил работу с пикселями, немедленно прийти на помощь, когда игре требуется больше шейдеров геометрии для сложных поверхностей. Такое адаптируемое сотрудничество позволяет графическому процессору удовлетворять более широкий спектр графических требований, что приводит к более привлекательным и цельным визуальным эффектам, которые я ценю!
Система памяти
Ключевое различие между встроенными графическими процессорами, такими как Intel HD Graphics, и автономными видеокартами, такими как серия Nvidia RTX, заключается в управлении ими видеопамятью. Чтобы упростить:
- Совместное использование системной оперативной памяти. Встроенная графика встроена в процессор и не имеет собственной выделенной видеопамяти. Это означает, что встроенный графический процессор должен иметь общий доступ к оперативной памяти основной системы компьютера с процессором.
- Ограниченная пропускная способность. Поскольку процессор конкурирует за одну и ту же системную оперативную память, у встроенного графического процессора могут возникнуть проблемы с пропускной способностью. Пропускная способность памяти ограничена.
- Большие кэши. Чтобы избежать нехватки доступа к памяти, встроенные графические процессоры размещают более крупные и усовершенствованные кэши прямо на кристалле процессора. Это позволяет им хранить больше данных локально, поэтому им не придется так часто обращаться к системной оперативной памяти. Тем не менее, эти кэши довольно малы по сравнению с несколькими гигабайтами выделенной видеопамяти.
Управление питанием
Интегрированные графические процессоры разработаны с учетом энергоэффективности. Вот как
- Регулировка скорости. Графический чип может увеличивать или уменьшать тактовую частоту в зависимости от того, с какой рабочей нагрузкой он сталкивается и насколько сильно он нагревается. Если ему не нужно работать на полную мощность, этого не произойдет.
- Выборочный спящий режим. Неактивные части видеокарты могут быть переведены в глубокий сон, что позволяет экономить энергию. Это все равно, что выключить свет в пустых комнатах.
- Shared Allowance. Графическому чипу и процессору часто приходится разделять установленный бюджет мощности, поочередно потребляя больше мощности, когда им это нужно больше всего. Они автоматически распределяют власть между собой в зависимости от того, что требует большего в данный момент.
Характеристики производительности
Понимание производительности встроенной графики требует рассмотрения нескольких ключевых факторов:
Вычислительная мощность
Когда мы говорим о том, насколько мощны встроенные графические чипы, мы обычно смотрим на их FLOPS — сколько операций с плавающей запятой они могут выполнить в секунду. Есть две ключевые вещи, на которые следует обратить внимание:
- Одинарные и двойные числа: Большинство встроенных графических процессоров отлично справляются с вычислением чисел одинарной точности (FP32). Но они могут быть не такими ловкими, когда дело касается цифр двойной точности (FP64).
- Меньшие числа для ИИ. Для приложений искусственного интеллекта и машинного обучения многие из современных интегрированных графических процессоров могут обрабатывать целочисленные вычисления низкой точности, такие как операции INT8 и INT4. Это позволяет им обрабатывать огромные наборы данных, необходимые этим программам.
Пропускная способность памяти
Пропускная способность памяти часто является основным узким местом для производительности встроенного графического процессора:
- Интерфейс общей памяти.Встроенный графический процессор должен разделять полосу пропускания памяти с процессором, обычно через 128-битный или 256-битный интерфейс.
- Оптимизация кэша. Чтобы смягчить ограничения пропускной способности, встроенные графические процессоры часто оснащены более крупными кэшами L3 и сложными алгоритмами предварительной выборки.
- Сжатие памяти. Для снижения требований к пропускной способности используются усовершенствованные методы сжатия памяти.
Рендеринг вывода
Способность видеокарты быстро выводить визуализированные кадры играет решающую роль в достижении превосходной производительности в видеоиграх и приложениях. Два ключевых фактора существенно влияют на скорость создания изображений:
- Скорость заполнения . Эта спецификация в основном отслеживает, сколько пикселей графический процессор может отображать на экране каждую секунду. На это влияет количество ROP (модулей вывода рендеринга) на чипе, а также от того, насколько быстро эти ROP тикают по тактовой частоте. Больше ROP + более высокие тактовые частоты = более высокая скорость заполнения = больше выкачиваемых пикселей = лучшая частота кадров.
- Фильтрация текстур. Это означает, насколько быстро и плавно графический процессор может отображать детали текстуры на 3D-моделях. Качество используемых фильтров и скорость блоков наложения текстур влияют на то, насколько четкими и детализированными будут поверхности в окончательной визуализированной сцене. Если текстурирование неэффективно, вы заметите графические сбои или поверхности, теряющие детализацию. Правильное выполнение этого условия является ключом к созданию хороших визуальных эффектов.
Подробный технический обзор: микроархитектура графического процессора
Чтобы по-настоящему понять интегрированную графику, нам необходимо изучить микроархитектуру современных графических процессоров:
Исполнительные единицы (ЕС)
Сердце любого графического процессора — его исполнительные блоки:
- Проект SIMD. ГП используют архитектуру «Одна инструкция и несколько данных». Это позволяет им обрабатывать множество точек данных за один раз, применяя инструкцию ко всем данным одновременно.
- Сила векторной обработки. EU созданы для того, чтобы очень хорошо справляться с векторными операциями. Эти типы математических операций с одномерными массивами данных очень распространены в графических и параллельных вычислениях. Таким образом, графические процессоры изначально оптимизированы для этого.
- Набор инструкций Killer. Современные графические процессоры поддерживают широкий набор инструкций, которые они могут выполнять. Сюда входят операции плавного умножения-сложения (FMA), позволяющие объединить умножение и сложение в одной инструкции. Он также включает в себя трансцендентные функции, такие как синус и косинус, необходимые для графики. И, наконец, он имеет специализированные инструкции графического конвейера для эффективной передачи данных через различные этапы шейдера.
Выполнение потока
Графические процессоры созданы для одновременной обработки большого количества параллельных вычислений:
- Выполнение деформации/волнового фронта: графические процессоры выполняют инструкции в пакетах потоков (обычно 32 или 64), называемых деформациями или волновыми фронтами. Это позволяет им синхронно обрабатывать огромное количество потоков одновременно. Аппаратное обеспечение оптимизировано для эффективного выполнения одной и той же инструкции по всей деформации.
- Скрытие задержки. Поскольку операции с памятью могут занимать много времени, графические процессоры используют аппаратную многопоточность, чтобы избежать напрасной траты циклов ожидания. Они быстро переключаются между различными деформациями, которые готовы к выполнению, в то время как другие ждут возвращения данных из памяти. Это помогает насытить вычислительное оборудование и скрыть длительную задержку памяти.
- Ветвление и дивергенция. Графические процессоры имеют специальное оборудование для работы с условным ветвлением, что может быть затруднительно в SIMD-архитектуре, где требуется применять одну и ту же операцию во многих параллельных потоках. Сюда входят такие функции, как предикация, которая выборочно отключает потоки, не соответствующие критериям, и реконвергенция ветвей, которая пытается вернуть синхронизацию потоков после расходящейся ветки.
Иерархия памяти
Настройка памяти в интегрированных графических процессорах действительно важна для получения хорошей скорости.
- Общий кэш последнего уровня (LLC): Встроенный графический чип может получить доступ к кэшу последнего уровня процессора. Это позволяет данным быстро передаваться туда и обратно между ЦП и встроенным графическим процессором. Это удобная функция для повышения производительности.
- Кэши текстур. Во встроенный графический процессор встроены специализированные кэши, оптимизированные для обработки 2D- и 3D-текстур. Доступ к текстурам осуществляется по определенным шаблонам при рендеринге графики, и эти кэши разработаны с учетом этих шаблонов доступа. Это помогает быстрее получать текстуры.
- Рендеринг на основе плиток. Многие интегрированные графические процессоры используют метод, называемый рендерингом на основе плиток, чтобы сократить объем необходимой им пропускной способности памяти. Изображение разделено на небольшие плитки, которые помещаются во встроенный кэш. Каждая плитка отображается индивидуально, что сокращает количество обращений к основной памяти. Затем плитки объединяются для формирования окончательного изображения. Это хитрый трюк для сокращения затрат на доступ к основной памяти.
Аппаратное обеспечение с фиксированными функциями
Несмотря на то, что современные графические процессоры в первую очередь зависят от адаптируемых шейдеров для задач графического программирования, они по-прежнему включают в себя быстрые специализированные блоки, предназначенные для конкретных задач.
- Растеризатор — это аппаратное обеспечение, которое позволяет преобразовывать векторные формы и линии в реальные цвета пикселей на экране. Он выполняет этот важный шаг, поэтому графическому процессору не приходится тратить циклы на растеризацию треугольников и прочее в программном обеспечении.
- Также имеется специальное оборудование для тестирования глубины и трафарета — эти устройства быстро сравнивают каждый новый пиксель с текущими значениями глубины и буфера трафарета, отбрасывая фрагменты, которые не прошли проверку глубины или функции трафарета. Это освобождает шейдеров от повторного выполнения этих тестов.
- И, наконец, специальные блоки смешивания комбинируют и смешивают новые цвета пикселей, выходящие из шейдеров, с тем, что уже нарисовано в буфере кадра. Блоки смешивания имеют такие функции, как альфа-смешение, логические операции и цветовое маскирование, встроенные непосредственно в микросхему, поэтому смешивание не затрудняет работу программируемых шейдеров.
Часто задаваемые вопросы
Какова важность FLOP для измерения производительности графического процессора?
Скорость графического процессора при обработке сложных данных или рендеринге высококачественной графики часто определяется количеством операций с плавающей запятой в секунду (флопс), которые он может выполнить. Например, новейшая Nvidia RTX 4090 может похвастаться производительностью более 80 триллионов FLOPS! Хотя число FLOPS не является единственным фактором, который следует учитывать: архитектура графического процессора и пропускная способность памяти не менее важны, большее количество FLOPS обычно означает большую графическую мощность. Вот почему заядлые геймеры и ученые, работающие с передовыми вычислительными системами, обращают внимание на FLOPS при выборе графических процессоров.
Как сравнивается производительность встроенной графики процессоров разных производителей?
Когда дело доходит до интегрированной графики, не все процессорные чипы одинаковы. Производительность действительно зависит от того, кто производит процессор: такие компании, как Intel, AMD и даже Apple, имеют свои собственные технологии для выжимания графической мощности из процессора.
С моей точки зрения, интегрированная графика AMD сейчас лидирует, поскольку Intel все еще усердно работает над тем, чтобы соответствовать ее производительности Xe. Между тем, чипы Apple M-серии впечатляюще превосходят свою собственную экосистему. Тем не менее, крайне важно изучить реальные тесты для конкретных процессоров, которые вас интересуют, чтобы по-настоящему понять, как их встроенная графика соотносится друг с другом.
Как встроенная графика обрабатывает кодирование и декодирование видео с аппаратным ускорением?
Многие компьютерные графические процессоры включают в себя специальное оборудование для кодирования и декодирования видео, что может значительно повысить производительность при работе с видеоконтентом, например при воспроизведении или записи. Эта дополнительная возможность обработки видео обеспечивается аппаратным ускорением, которое совместимо с распространенными видеокодеками, такими как H.264, HEVC (также известный как H.265) и VP9. Это форматы, которые сжимают видеофайлы для уменьшения их размера.
Совместимость различных кодеков, а также максимальное разрешение и частота кадров, которые они могут поддерживать, варьируются в зависимости от поколения и конкретной модели вашего встроенного графического чипа. Однако хорошее практическое правило заключается в том, что новые графические чипы, как правило, поддерживают видео с более высоким разрешением и более совершенные и эффективные кодеки.
Смотрите также
- «Правительство — бездумная и бессердечная машина для убийств»: Почему усыпили белку Арахис, Илон Маск — не единственный, кто в ярости
- Краткое описание и концовка 9-го эпизода «Агата все время» и объяснение: [СПОЙЛЕР] действительно мертв?
- Как победить Кадаблиха в метафоре: ReFantazio
- Как получить доступ к каждому этапу в дополнении Vampire Survivors: Ode To Castlevania
- Как добраться до яйца главного ужаса в Throne and Liberty
- «У нас просто не было денег»: Анна Кендрик сотворила буквальное чудо с «Женщиной часа» по одной единственной причине
- Fallout London: все побочные квесты
- По словам Йоши-Пи, в Final Fantasy XIV после Dawntrail будет «более оригинальные задания»
- Полное руководство и прохождение Metaphor: ReFantazio
- Call of Duty: Black Ops 6 – как добиться престижа (и все, что вам нужно знать)
2024-09-01 01:05