GPU Boost 2.0

С видеокартой NVIDIA GeForce GTX 680 мы получили важную новую функцию: GPU Boost. И новая NVIDIA GeForce GTX Titan пошла ещё на шаг дальше, расширив эту функцию до версии GPU Boost 2.0. Первый вариант GPU Boost 1.0 ориентировался на максимальное энергопотребление, достигаемое в наиболее требовательных современных играх. При этом температура GPU не играла особой роли, разве что если она вплотную подходила к критическому порогу. Максимальная тактовая частота определялась на основе относительного напряжения. Недостаток был вполне очевиден: GPU Boost 1.0 не могла предотвратить ситуации, когда даже при некритическом напряжении температура чрезмерно увеличивалась.

NVIDIA GeForce GTX Titan - GPU-Boost 2.0

У GeForce GTX Titan оцениваются уже два параметра: напряжение и температура. То есть относительное напряжение (Vref) определяется уже на основе двух данных параметров. Конечно, зависимость от отдельных экземпляров GPU сохранится, поскольку разброс при производстве чипов существует, поэтому каждая видеокарта будет отличаться от любой другой. Но NVIDIA указывает, что технически добавка температуры позволила дать в среднем на 3-7 процентов более высокий разгон Boost. Технология GPU Boost 2.0 теоретически может быть перенесена на старые видеокарты, но вряд ли это случится.

NVIDIA GeForce GTX Titan - GPU-Boost 2.0

Позвольте рассмотреть GPU Boost 2.0 более подробно. Утилиты, подобные EVGA Precision Tool или MSI Afterburner, уже поддерживают GPU Boost 2.0. Мы использовали утилиту EVGA Precision Tool в версии 4.0.

NVIDIA GeForce GTX Titan - GPU-Boost 2.0

GPU Boost 2.0 учитывает температуру, и при низких температурах технология может более существенно увеличивать производительность. Целевая температура (Ttarget) по умолчанию выставлена на уровень 80 °C.

NVIDIA GeForce GTX Titan - GPU-Boost 2.0

Технология GPU Boost 2.0 содержит все функции, знакомые нам по первому поколению технологии, но при этом дополнительно даёт возможность выставления более высокого напряжения, следовательно, и более высоких тактовых частот. Для оверклокеров существует возможность изменить настройки. Можно включить GPU Overvoltage, но при этом следует помнить о потенциальном снижении срока службы видеокарты.

NVIDIA GeForce GTX Titan - GPU-Boost 2.0

Оверклокеры могут поднимать Vref и Vmax (OverVoltaging). Этого хотели многие пользователи на GK104, но NVIDIA не доверила подобную возможность ни пользователям, ни производителям. И протестированная нами видеокарта EVGA GTX 680 Classified (тест и обзор) как раз является отличным примером. У этой видеокарты специальный модуль EVGA Evbot обеспечивал пользователям контроль над напряжениями. Но NVIDIA срочно потребовала, чтобы EVGA убрала дополнительное оборудование у своих видеокарт. В случае GPU Boost 2.0 и OverVoltaging NVIDIA сама сделала шаг в данном направлении. Так что производители видеокарт могут выпускать несколько моделей GeForce GTX Titan, например, стандартные версии и варианты с заводским разгоном. Активация OverVoltaging выполняется через переключатель VBIOS (то есть явным образом для пользователя, чтобы он осознавал возможные последствия).

Обзор видеокарты NVIDIA GeForce GTX 780 | GeForce Experience и ShadowPlay

GeForce Experience

Как компьютерные энтузиасты, мы ценим сочетания различных настроек, влияющие на производительность и качество игр. Проще всего потратить кучу денег на новую видеокарту и выставить все графические настройки на максимум. Но когда какой-нибудь параметр оказывается слишком тяжёлым для карты и его приходится снижать либо отключать, остаётся неприятное чувство и осознание того, что игра могла бы работать гораздо лучше.

Однако выставить оптимальные настройки не так просто. Одни параметры дают более качественные визуальные эффекты, чем другие, при этом степень влияния на производительность может сильно меняться. Программа GeForce Experience представляет собой попытку NVIDIA упростить выбор игровых настроек путём сравнения вашего CPU, GPU и разрешения с базой данных конфигураций. Вторая часть утилиты помогает определить, нужны ли обновления драйверам.

Вероятно, энтузиасты и дальше будут выбирать настройки самостоятельно и негативно воспримут дополнительную программу. Однако большинство геймеров, желающих установить игру и сразу приступить к геймплею без проверки драйверов и перебора различных настроек, безусловно, порадуются такой возможности. В любом случае, GeForce Experience от NVIDIA помогает людям максимально насладиться игрой, и поэтому является полезной утилитой для игр на ПК.

GeForce Experience определила все девять игр, установленных на нашей тестовой системе. Естественно, они не сохранили настройки по умолчанию, поскольку мы применили определённые настройки в интересах тестирования. Но всё же интересно, как GeForce Experience изменила бы выбранные нами опции.

Для Tomb Raider утилита GeForce Experience захотела отключить технологию TressFX, даже несмотря на то, что NVIDIA GeForce GTX 780 при включённой функции в среднем показала 40 кадров в секунду. По какой-то причине программа не смогла определить конфигурацию Far Cry 3 , хотя предложенные ей настройки оказались достаточно высокими. По неизвестным причинам для Skyrim утилита захотела отключить FXAA.

Приятно получить набор скриншотов для каждой игры с описанием влияния определённой настройки на качество изображения. Из девяти просмотренных нами примеров GeForce Experience приблизилась к оптимальным, на наш взгляд, настройкам. Однако утилита также отличается предвзятостью, покровительствуя характерным для NVIDIA функциям, таким как PhysX (которую программа выставила на высокий уровень в Borderlands 2) и препятствуя включению функций от AMD (в том числе TressFX в Tomb Raider). Отключение FXAA в Skyrim вообще не имеет смысла, поскольку игра в среднем выдаёт 100 FPS. Вполне возможно, что энтузиасты захотят установить GeForce Experience после того, как начнутся поставки системы NVIDIA Shield, поскольку функция Game Streaming, похоже, будет реализована через приложение NVIDIA.

ShadowPlay: всегда активный видеорегистратор для игр

Любители WoW часто записывают свои рейды, однако для этого требуется довольно мощная система, Fraps и много дискового пространства.

Недавно NVIDIA объявила о новой функции ShadowPlay, которая может значительно упростить процесс записи.

При активации ShadowPlay использует встроенный в GPU Kepler фиксированный декодер NVEnc, который автоматически записывает последние 20 минут геймплея. Либо вы можете вручную начинать и останавливать работу ShadowPlay. Таким образом, технология замещает программные решения вроде Fraps, которые дают более высокую нагрузку на центральный процессор.

Для справки: NVEnc работает только с кодировкой H.264 на разрешении до 4096x4096 пикселей. ShadowPlay пока ещё не доступна на рынке, но NVIDIA заявляет, что к моменту своего появления этим летом программа сможет записывать видео в 1080p с частотой кадров до 30 FPS. Мы бы хотели видеть более высокое разрешение, поскольку ранее заявлялось, что энкодер потенциально способен поддерживать его на аппаратном уровне.

Обзор видеокарты NVIDIA GeForce GTX 780 | GPU Boost 2.0 и возможные проблемы с разгоном

GPU Boost 2.0

В обзоре GeForce GTX Titan у нас не получилось провести всестороннее тестирование технологии NVIDIA GPU Boost второго поколения, но теперь она досталась NVIDIA GeForce GTX 780 . Вот небольшое описание этой технологии:

GPU Boost – это механизм NVIDIA, меняющий производительность видеокарт в зависимости от типа обрабатываемой задачи. Как вы, вероятно, знаете, игры обладают различными требованиями к ресурсам GPU. Исторически сложилось так, что частота должна быть настроена с учётом худшего сценария. Но при обработке "лёгких" задач GPU работал впустую. GPU Boost отслеживает различные параметры и повышает или понижает частоты в зависимости от потребностей приложения и текущей ситуации.

Первая реализация GPU Boost работала в условиях определённого порога мощности (170 Вт в случае GeForce GTX 680 ). Однако инженеры компании выяснили, что они могут безопасно превысить этот уровень, если температура графического процессора достаточно низкая. Таким образом, производительность можно оптимизировать ещё сильнее.

На практике GPU Boost 2.0 отличается лишь тем, что теперь NVIDIA ускоряет частоту, основываясь не на показателе предельного энергопотребления, а на определённой температуре, которая составляет 80 градусов Цельсия. Это значит, что теперь будут использоваться более высокие значения частоты и напряжения вплоть до нагрева чипа до 80 градусов. Не забывайте, что температура главным образом зависит от профиля и настроек вентилятора: чем выше его скорость, тем ниже температура и, следовательно, выше значения GPU Boost (и уровень шума, к сожалению, тоже). Технология по-прежнему делает оценку ситуации раз в 100 мс, поэтому NVIDIA есть ещё над чем поработать в будущих версиях.

Настройки, зависящие от температуры, ещё сильнее усложняют процесс тестирования по сравнению с первой версией GPU Boost. Всё, что повышает либо понижает температуру GK110, изменяет частоту чипа. Следовательно, добиться стабильных результатов между прогонами довольно сложно. В лабораторных условиях можно надеяться только на устойчивую температуру окружающей среды.

В дополнение к написанному выше стоит отметить, что вы можете повысить предельное значение температуры. Например, если вы хотите, чтобы NVIDIA GeForce GTX 780 понижала частоту и напряжение на уровне 85 или 90 градусов Цельсия, это можно настроить в параметрах.

Хотите, чтобы GK110 находился как можно дальше от выбранного вами предела температуры? Кривая вентилятора NVIDIA GeForce GTX 780 полностью регулируется, позволяя вам настроить рабочий цикл согласно температурным значениям.

Возможные проблемы с разгоном

Во время нашего знакомства с GeForce GTX Titan представители компании показали нам внутреннюю утилиту, способную считывать состояние различных датчиков: так она упрощает процесс диагностики нестандартного поведения карты. Если при разгоне температура GK110 поднимется слишком высоко, даже при троттлинге эта информация будет записана в журнале.

Сейчас данную функцию компания реализует через приложение Precision X, которое запускает предупредительный алгоритм "reasons", если при разгоне произошли действия, мешающие его эффективному продолжению. Это замечательная функция, ведь вам больше не нужно строить догадки о возможных "узких местах". Также есть показатель OV max limit, который даст знать, если вы достигли абсолютного пика напряжения GPU. В этом случае есть риск сжечь карту. Можете рассматривать это как предложение понизить параметры разгона.

Обзор видеокарты NVIDIA GeForce GTX 780 | Тестовый стенд и бенчмарки


Конфигурация тестового стенда
Процессор Intel Core i7-3770K (Ivy Bridge) 3,5 ГГц @ 4,0 ГГц (40 * 100 МГц), LGA 1155, 8 Мбайт общего кэша L3, Hyper-Threading вкл., Power-savings вкл.
Системная плата Gigabyte Z77X-UD5H (LGA 1155), чипсет Z77 Express, BIOS F15q
Оперативная память G.Skill 16 Гбайт (4 x 4 Гбайт) DDR3-1600, F3-12800CL9Q2-32GBZL @ 9-9-9-24 на 1,5 В
Накопитель Crucial m4 SSD 256 Гбайт SATA 6 Гбит/с
Видеокарты Nvidia GeForce GTX 780 3 Гбайт

AMD Radeon HD 7990 6 Гбайт

AMD Radeon HD 7970 GHz Edition 3 Гбайт

Nvidia GeForce GTX 580 1.5 Гбайт

Nvidia GeForce GTX 680 2 Гбайт

Nvidia GeForce GTX Titan 6 Гбайт

Nvidia GeForce GTX 690 4 Гбайт

Блок питания Cooler Master UCP-1000 W
Системное ПО и драйверы
ОС Windows 8 Professional 64-bit
DirectX DirectX 11
Граф. драйверы AMD Catalyst 13.5 (Beta 2)
Nvidia GeForce Release 320.00
Nvidia GeForce Release 320.18 (for GeForce GTX 780)

Получаем правильное значение частоты смены кадров

Наблюдательные читатели заметят, что показатели на последующих страницах более скромные, чем в обзоре AMD Radeon HD 7990 , и на это есть причина. Ранее мы представляли синтетическую и реальную частоту кадров, а затем показывали колебания времени между кадрами вместе с пропущенными и короткими кадрами. Дело в том, что такой метод не отражает реальные ощущения от работы видеокарты, и с нашей стороны будет несправедливо осуждать AMD, опираясь на синтетические показатели задержки времени между кадрами.

Вот почему наряду с колебаниями частоты кадров мы теперь приводим более практичные показатели частоты кадров в динамике. Результаты получаются не такими завышенными, но в то же время они весьма красноречивы в играх, где у AMD наблюдаются трудности.

Тесты и настройки
Battlefield 3 Качество графики - Ultra, v-sync выкл., 2560x1440, DirectX 11, Going Hunting, 90-секунд, FCAT
Far Cry 3 Качество графики - Ultra, DirectX 11, v-sync выкл., 2560x1440, пробежка по собственному маршруту, 50-секунд, FCAT
Borderlands 2 Качество графики - самое высокое, PhysX низк., 16x анизотропная фильтрация, 2560x1440, пробежка по собственному маршруту, FCAT
Hitman: Absolution Качество графики - Ultra, MSAA выкл., 2560x1440, встроенный бенчмарк, FCAT
The Elder Scrolls V: Skyrim Качество графики - Ultra, FXAA Enabled, 2560x1440, пробежка по собственному маршруту, 25-секунд, FCAT
3DMark Fire Strike Benchmark
BioShock Infinite Качество графики - Ultra, DirectX 11, диффузорная глубина поля, 2560x1440, встроенный бенчмарк, FCAT
Crysis 3 Качество графики - очень высокое, MSAA: Low (2x), текстры высокого разрешения, 2560x1440, пробежка по собственному маршруту, 60-секунд, FCAT
Tomb Raider Качество графики - Ultimate, FXAA вкл., 16x анизотропная фильтрация, TressFX Hair, 2560x1440, пробежка по собственному маршруту, 45-секунд, FCAT
LuxMark 2.0 64-bit Binary, Version 2.0, Sala Scene
SiSoftware Sandra 2013 Professional Sandra Tech Support (Engineer) 2013.SP1, Cryptography, Financial Analysis Performance


СОДЕРЖАНИЕ
Параметр Значение
Кодовое имя чипа GP104
Технология производства 16 нм FinFET
Количество транзисторов 7,2 млрд.
Площадь ядра 314 мм²
Архитектура
Аппаратная поддержка DirectX
Шина памяти
1607 (1733) МГц
Вычислительные блоки 20 потоковых мультипроцессоров, включающих 2560 скалярных ALU для расчетов с плавающей запятой в рамках стандарта IEEE 754-2008;
Блоки текстурирования 160 блоков текстурной адресации и фильтрации с поддержкой FP16- и FP32-компонент в текстурах и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
Поддержка мониторов
Спецификации референсной видеокарты GeForce GTX 1080
Параметр Значение
Частота ядра 1607 (1733) МГц
2560
Количество текстурных блоков 160
Количество блоков блендинга 64
Эффективная частота памяти 10000 (4×2500) МГц
Тип памяти GDDR5X
Шина памяти 256-бит
Объем памяти 8 ГБ
320 ГБ/с
около 9 терафлопс
103 гигапикселей/с
257 гигатекселей/с
Шина PCI Express 3.0
Разъемы
Энергопотребление до 180 Вт
Дополнительное питание Один 8-контактный разъем
2
Рекомендуемая цена $599-699 (США), 54990 руб (Россия)

Новая модель видеокарты GeForce GTX 1080 получила логичное для первого решения новой серий GeForce наименование - она отличается от своего прямого предшественника только измененной цифрой поколения. Новинка не просто заменяет в текущей линейке компании топовые решения, но и на какое-то время стала флагманом новой серии, пока не выпустили Titan X на GPU еще большей мощности. Ниже ее в иерархии располагается также уже анонсированная модель GeForce GTX 1070, основанная на урезанной версии чипа GP104, которую мы еще рассмотрим ниже.

Рекомендованные цены на новую видеоплату Nvidia составляют $599 и $699 для обычных версий и специального издания Founders Edition (см. далее), соответственно, и это довольно неплохое предложение с учетом того, что GTX 1080 опережает не только GTX 980 Ti, но и Titan X. На сегодня новинка является лучшим по производительности решением на рынке одночиповых видеокарт без каких-либо вопросов, и при этом она стоит дешевле самых производительных видеокарт предыдущего поколения. Пока конкурента от AMD у GeForce GTX 1080 по сути нет, поэтому в Nvidia смогли установить такую цену, которая их устраивает.

Рассматриваемая видеокарта основана на чипе GP104, имеющем 256-битную шину памяти, но новый тип памяти GDDR5X работает на весьма высокой эффективной частоте в 10 ГГц, что дает высокую пиковую пропускную способность в 320 ГБ/с - что почти на уровне GTX 980 Ti с 384-битной шиной. Объем установленной на видеокарту памяти с такой шиной мог быть равен 4 или 8 ГБ, но ставить меньший объем для столь мощного решения в современных условиях было бы глупо, поэтому GTX 1080 совершенно логично получила 8 ГБ памяти, и этого объема хватит для запуска любых 3D-приложений с любыми настройками качества на несколько лет вперед.

Печатная плата GeForce GTX 1080 по понятным причинам прилично отличается от предыдущих PCB компании. Значение типичного энергопотребления для новинки составляет 180 Вт - это несколько выше, чем у GTX 980, но заметно ниже, чем у менее производительных Titan X и GTX 980 Ti. Референсная плата имеет привычный набор разъемов для присоединения устройств вывода изображения: один Dual-Link DVI, один HDMI и три DisplayPort.

Референсный дизайн Founders Edition

Еще при анонсе GeForce GTX 1080 в начале мая было объявлено специальное издание видеокарты под названием Founders Edition, имеющее более высокую цену по сравнению с обычными видеокартами партнеров компании. По сути, это издание является референсным дизайном карты и системы охлаждения, и производится оно самой компанией Nvidia. Можно по-разному относиться к таким вариантам видеокарт, но разработанный инженерами компании референсный дизайн и произведенная с применением качественных компонентов конструкция имеет своих поклонников.

А вот будут ли они отдавать на несколько тысяч рублей больше за видеокарту от самой Nvidia - это вопрос, ответ на который может дать только практика. В любом случае, поначалу в продаже появятся именно референсные видеокарты от Nvidia по повышенной цене, и выбирать особенно не из чего - так бывает при каждом анонсе, но референсная GeForce GTX 1080 отличается тем, что в таком виде ее планируется продавать на всем протяжении срока ее жизни, вплоть до выхода решений следующего поколения.

В Nvidia считают, что это издание имеет свои достоинства даже перед лучшими произведениями партнеров. Например, двухслотовый дизайн кулера позволяет с легкостью собирать на основе этой мощной видеокарты как игровые ПК сравнительно небольшого форм-фактора, так и многочиповые видеосистемы (даже несмотря на нерекомендуемый компанией режим работы в трех- и четырехчиповом режиме). GeForce GTX 1080 Founders Edition имеет некоторые преимущества в виде эффективного кулера с использованием испарительной камеры и вентилятора, выбрасывающего нагретый воздух из корпуса - это первое такое решение Nvidia, потребляющее менее 250 Вт энергии.

По сравнению с предыдущими референсными дизайнами продуктов компании, схема питания была модернизирована с четырехфазной до пятифазной. В Nvidia говорят и об улучшенных компонентах, на которых основана новинка, также были снижены электрические помехи, позволяющие улучшить стабильность напряжения и разгонный потенциал. В результате всех улучшений энергоэффективность референсной платы увеличилась на 6% по сравнению с GeForce GTX 980.

А для того, чтобы отличаться от «обычных» моделей GeForce GTX 1080 и внешне, для Founders Edition разработали необычный «рубленый» дизайн корпуса. Который, правда, наверняка привел также и к усложнению формы испарительной камеры и радиатора (см. фото), что возможно и послужило одним из поводов для доплаты в $100 за такое специальное издание. Повторимся, что в начале продаж особого выбора у покупателей не будет, но в дальнейшем можно будет выбрать как решение с собственным дизайном от одного из партнеров компании, так и в исполнении самой Nvidia.

Новое поколение графической архитектуры Pascal

Видеокарта GeForce GTX 1080 стала первым решением компании на основе чипа GP104, относящегося к новому поколению графической архитектуры Nvidia - Pascal. Хотя новая архитектура взяла в основу решения, отработанные еще в Maxwell, в ней есть и важные функциональные отличия, о которых мы напишем далее. Главным же изменением с глобальной точки зрения стал новый технологический процесс, по которому выполнен новый графический процессор.

Применение техпроцесса 16 нм FinFET при производстве графических процессоров GP104 на фабриках тайваньской компании TSMC дало возможность значительно повысить сложность чипа при сохранении сравнительно невысокой площади и себестоимости. Сравните количество транзисторов и площадь чипов GP104 и GM204 - они близки по площади (кристалл новинки даже чуть меньше физически), но чип архитектуры Pascal имеет заметно большее количество транзисторов, а соответственно и исполнительных блоков, в том числе обеспечивающих новую функциональность.

С архитектурной точки зрения, первый игровой Pascal весьма похож на аналогичные решения архитектуры Maxwell, хотя есть и некоторые отличия. Как и Maxwell, процессоры архитектуры Pascal будут иметь разную конфигурацию вычислительных кластеров Graphics Processing Cluster (GPC), потоковых мультипроцессоров Streaming Multiprocessor (SM) и контроллеров памяти. Мультипроцессор SM - это высокопараллельный мультипроцессор, который планирует и запускает варпы (warp, группы из 32 потоков команд) на CUDA-ядрах и других исполнительных блоках в мультипроцессоре. Подробные данные об устройстве всех этих блоков вы можете найти в наших обзорах предыдущих решений компании Nvidia.

Каждый из мультипроцессоров SM спарен с движком PolyMorph Engine, который обрабатывает текстурные выборки, тесселяцию, трансформацию, установку вершинных атрибутов и коррекцию перспективы. В отличие от предыдущих решений компании, PolyMorph Engine в чипе GP104 также содержит новый блок мультипроецирования Simultaneous Multi-Projection, о котором мы еще поговорим ниже. Комбинация мультипроцессора SM с одним движком Polymorph Engine традиционно для Nvidia называется TPC - Texture Processor Cluster.

Всего чип GP104 в составе GeForce GTX 1080 содержит четыре кластера GPC и 20 мультипроцессоров SM, а также восемь контроллеров памяти, объединенных с блоками ROP в количестве 64 штук. Каждый кластер GPC имеет выделенный движок растеризации и включает в себя пять мультипроцессоров SM. Каждый мультипроцессор, в свою очередь, состоит из 128 CUDA-ядер, 256 КБ регистрового файла, 96 КБ разделяемой памяти, 48 КБ кэш-памяти первого уровня и восьми текстурных блоков TMU. То есть, всего в GP104 содержится 2560 CUDA-ядер и 160 блоков TMU.

Также графический процессор, на котором основана видеокарта GeForce GTX 1080, содержит восемь 32-битных (в отличие от 64-битных, применяющихся ранее) контроллеров памяти, что дает нам итоговую 256-битную шину памяти. К каждому из контроллеров памяти привязано по восемь блоков ROP и 256 КБ кэш-памяти второго уровня. То есть, всего чип GP104 содержит 64 блоков ROP и 2048 КБ кэш-памяти второго уровня.

Благодаря архитектурным оптимизациям и новому техпроцессу, первый игровой Pascal стал самым энергоэффективным графическим процессором за все время. Причем, вклад в это есть как со стороны одного из самых совершенных технологических процессов 16 нм FinFET, так и от проведенных оптимизаций архитектуры в Pascal, по сравнению с Maxwell. В Nvidia смогли повысить тактовую частоту даже больше, чем они рассчитывали при переходе на новый техпроцесс. GP104 работает на более высокой частоте, чем работал бы гипотетический GM204, выпущенный при помощи техпроцесса 16 нм. Для этого инженерам Nvidia пришлось тщательно проверить и оптимизировать все узкие места предыдущих решений, не дающие разогнаться выше определенного порога. В результате, новая модель GeForce GTX 1080 работает более чем на 40% повышенной частоте, по сравнению с GeForce GTX 980. Но это еще не все изменения, связанные с частотой работы GPU.

Технология GPU Boost 3.0

Как мы хорошо знаем по предыдущим видеокартам компании Nvidia, в своих графических процессорах они применяют аппаратную технологию GPU Boost, предназначенную для увеличения рабочей тактовой частоты GPU в режимах, когда он еще не достиг пределов по энергопотреблению и тепловыделению. За прошедшие годы этот алгоритм претерпел множество изменений, и в видеочипе архитектуры Pascal применяется уже третье поколение этой технологии - GPU Boost 3.0, основным нововведением которого стала более тонкая установка турбо-частот, в зависимости от напряжения.

Если вы вспомните принцип работы предыдущих версий технологии, то разница между базовой частотой (гарантированное минимальное значение частоты, ниже которого GPU не опускается, как минимум в играх) и турбо-частотой была фиксированной. То есть, турбо-частота всегда была на определенное количество мегагерц выше базовой. В GPU Boost 3.0 появилась возможность установки смещений турбо-частот для каждого напряжения по отдельности. Проще всего это понять по иллюстрации:

Слева указан GPU Boost второй версии, справа - третьей, появившейся в Pascal. Фиксированная разница между базовой и турбо-частотами не давала раскрыть возможности GPU полностью, в некоторых случаях графические процессоры предыдущих поколений могли работать быстрее на установленном напряжении, но фиксированное превышение турбо-частоты не давало сделать этого. В GPU Boost 3.0 такая возможность появилась, и турбо-частота может устанавливаться для каждого из индивидуальных значений напряжения, полностью выжимая все соки из GPU.

Для того, чтобы управлять разгоном и установить кривую турбо-частоты, требуются удобные утилиты. Сама Nvidia этим не занимается, но помогает своим партнерам создать подобные утилиты для облегчений разгона (в разумных пределах, конечно). К примеру, новые функциональные возможности GPU Boost 3.0 уже раскрыты в EVGA Precision XOC, включающей специальные сканер разгона, автоматически находящий и устанавливающий нелинейную разницу между базовой частотой и турбо-частотой для разных значений напряжения при помощи запуска встроенного теста производительности и стабильности. В результате у пользователя получается кривая турбо-частоты, идеально соответствующая возможностям конкретного чипа. Которую, к тому же, можно как угодно модифицировать в ручном режиме.

Как вы видите на скриншоте утилиты, в дополнение к информации о GPU и системе, есть также настройки для разгона: Power Target (определяет типичное энергопотребление при разгоне, в процентах от стандартного), GPU Temp Target (максимально допустимая температура ядра), GPU Clock Offset (превышение над базовой частотой для всех значений напряжения), Memory Offset (превышение частоты видеопамяти над значением по умолчанию), Overvoltage (дополнительная возможность для повышения напряжения).

Утилита Precision XOC включает три режима разгона: основной Basic, линейный Linear и ручной Manual. В основном режиме можно установить единое значение превышения частоты (фиксированную турбо-частоту) над базовой, как это было для предыдущих GPU. Линейный режим позволяет установить линейное изменение частоты от минимального до максимального значений напряжения для GPU. Ну и в ручном режиме можно выставить уникальные значения частоты GPU для каждой точки напряжения на графике.

В составе утилиты есть также специальный сканер для автоматического разгона. Можно или установить собственные уровни частоты или позволить утилите Precision XOC просканировать GPU на всех напряжениях и найти максимально стабильные частоты для каждой точки на кривой напряжения и частоты полностью автоматически. В процессе сканирования Precision XOC постепенно добавляет частоту GPU и проверяет его работу на стабильность или появление артефактов, строя идеальную кривую частот и напряжений, которая будет уникальна для каждого конкретного чипа.

Этот сканер можно настроить под свои собственные требования, задав временной отрезок тестирования каждого значения напряжения, минимум и максимум проверяемой частоты, и ее шаг. Понятно, что для достижения стабильных результатов лучше будет выставить небольшой шаг и приличную продолжительность тестирования. В процессе тестирования может наблюдаться нестабильная работа видеодрайвера и системы, но если сканер не зависнет, то восстановит работу и продолжит нахождение оптимальных частот.

Новый тип видеопамяти GDDR5X и улучшенное сжатие

Итак, мощность графического процессора заметно выросла, а шина памяти осталась всего лишь 256-битной - не будет ли пропускная способность памяти ограничивать общую производительность и что с этим можно делать? Похоже, что перспективная HBM-память второго поколения все еще слишком дорога в производстве, поэтому пришлось искать другие варианты. Еще с момента появления GDDR5-памяти в 2009 году, инженеры компании Nvidia исследовали возможности использования новых типов памяти. В результате, разработки пришли к внедрению нового стандарта памяти GDDR5X - самого сложного и продвинутого на сегодняшний момент стандарта, дающего скорость передачи 10 Gbps.

Nvidia приводит интересный пример того, насколько это быстро. Между переданными битами проходит всего 100 пикосекунд - за такое время луч света пройдет расстояние всего лишь в один дюйм (около 2,5 см). И при использовании GDDR5X-памяти цепи приема-передачи данных должны менее чем за половину этого времени выбрать значение переданного бита, до того, как будет прислан следующий - это просто чтобы вы понимали, до чего дошли современные технологии.

Чтобы добиться такой скорости работы, потребовалась разработка новой архитектуры системы ввода-вывода данных, потребовавшей нескольких лет совместной разработки с производителями чипов памяти. Кроме возросшей скорости передачи данных, выросла и энергоэффективность - чипы памяти стандарта GDDR5X используют пониженное напряжение в 1,35 В и произведены по новым технологиям, что дает то же потребление энергии при на 43% большей частоте.

Инженерам компании пришлось перерабатывать линии передачи данных между ядром GPU и чипами памяти, больше внимания обращать на предотвращение потери и деградацию сигнала на всем пути от памяти к GPU и обратно. Так, на приведенной выше иллюстрации показан захваченный сигнал в виде большого симметричного «глаза», что говорит о хорошей оптимизации всей цепи и относительной легкости захвата данных из сигнала. Причем, описанные выше изменения привели не только к возможности применения GDDR5X на 10 ГГц, но также и должны помочь получить высокую ПСП на будущих продуктах, использующих более привычную GDDR5-память.

Хорошо, более чем 40% прироста в ПСП от применения новой памяти мы получили. Но не маловато ли этого? Для дальнейшего увеличения эффективности использования полосы пропускания памяти в Nvidia продолжили улучшать внедренное еще в предыдущих архитектурах продвинутое сжатие данных. Подсистема памяти в GeForce GTX 1080 использует улучшенные и несколько новых техник по сжатию данных без потерь, предназначенные для снижения требований к ПСП - уже четвертое поколение внутричипового сжатия.

Алгоритмы сжатия данных в памяти приносят сразу несколько положительных моментов. Сжатие снижает количество записываемых данных в память, то же самое касается данных, пересылаемых из видеопамяти в кэш-память второго уровня, что улучшает эффективность использования L2-кэша, так как сжатый тайл (блок из нескольких пикселей фреймбуфера) имеет меньший размер, чем несжатый. Также уменьшается количество данных, пересылаемых между разными точками, вроде текстурного модуля TMU и фреймбуфера.

Конвейер сжатия данных в GPU использует несколько алгоритмов, которые определяются в зависимости от «сжимаемости» данных - для них подбирается лучший из имеющихся алгоритмов. Одним из самых важных является алгоритм дельта-кодирования данных о цвете пикселей (delta color compression). Этот способ сжатия кодирует данные в виде разницы между последовательными значениями вместо самих данных. GPU вычисляет разницу в цветовых значениях между пикселями в блоке (тайле) и сохраняет блок как некий усредненный цвет для всего блока плюс данные о разнице в значениях для каждого пикселя. Для графических данных такой метод обычно хорошо подходит, так как цвет в пределах небольших тайлов для всех пикселей зачастую отличается не слишком сильно.

Графический процессор GP104 в составе GeForce GTX 1080 поддерживает большее количество алгоритмов сжатия по сравнению с предыдущими чипами архитектуры Maxwell. Так, алгоритм сжатия 2:1 стал более эффективным, а в дополнение к нему появились два новых алгоритма: режим сжатия 4:1, подходящий для случаев, когда разница в значении цвета пикселей блока очень невелика, и режим 8:1, сочетающий алгоритм постоянного сжатия с соотношением 4:1 блоков размером 2×2 пикселя с двукратным сжатием дельты между блоками. Когда сжатие совсем невозможно, оно не используется.

Впрочем, в реальности последнее бывает весьма нечасто. В этом можно убедиться по примерам скриншотов из игры Project CARS, которые привела Nvidia чтобы проиллюстрировать повышенную степень сжатия в Pascal. На иллюстрациях пурпурным закрашены те тайлы кадрового буфера, которые смог сжать графический процессор, а не поддающиеся сжатию без потерь остались с оригинальным цветом (сверху - Maxwell, снизу - Pascal).

Как видите, новые алгоритмы сжатия в GP104 действительно работают гораздо лучше, чем в Maxwell. Хотя старая архитектура также смогла сжать большинство тайлов в сцене, большое количество травы и деревьев по краям, а также детали машины не подвергаются устаревшим алгоритмам сжатия. Но при включении в работу новых техник в Pascal, несжатым осталось очень небольшое количество участков изображения - улучшенная эффективность налицо.

В результате улучшений в сжатии данных, GeForce GTX 1080 способен значительно снизить количество пересылаемых данных в каждом кадре. Если говорить о цифрах, то улучшенное сжатие экономит дополнительно около 20% эффективной полосы пропускания памяти. В дополнение к более чем на 40% повышенной ПСП у GeForce GTX 1080 относительно GTX 980 от использования GDDR5X-памяти, все вместе это дает около 70% прироста в эффективном ПСП, по сравнению с моделью прошлого поколения.

Поддержка асинхронных вычислений Async Compute

Большинство современных игр используют сложные вычисления в дополнение к графическим. К примеру, вычисления при расчете поведения физических тел вполне можно проводить не до или после графических вычислений, а одновременно с ними, так как они не связаны друг с другом и не зависят друг от друга в пределах одного кадра. Также в пример можно привести постобработку уже отрендеренных кадров и обработку аудиоданных, которые тоже можно исполнять параллельно с рендерингом.

Еще одним ярким примером использования функциональности служит техника асинхронного искажения времени (Asynchronous Time Warp), используемая в системах виртуальной реальности для того, чтобы изменить выдаваемый кадр в соответствии с движением головы игрока прямо перед самым его выводом, прерывая рендеринг следующего. Подобная асинхронная загрузка мощностей GPU позволяет повысить эффективность использования его исполнительных блоков.

Подобные нагрузки создают два новых сценария использования GPU. Первый из них включает накладывающиеся загрузки, так как многие типы задач не используют возможности графических процессоров полностью, и часть ресурсов простаивает. В таких случаях можно просто запустить на одном GPU две разные задачи, разделяющие его исполнительные блоки для получения более эффективного использования - например, PhysX-эффекты, выполняющиеся совместно с 3D-рендерингом кадра.

Для улучшения работы этого сценария, в архитектуре Pascal появилась динамическая балансировка загрузки (dynamic load balancing). В предыдущей архитектуре Maxwell перекрывающиеся нагрузки были выполнены в виде статического распределения ресурсов GPU на графические и вычислительные. Такой подход эффективен при условии, что баланс между двумя нагрузками примерно соответствует разделению ресурсов и задачи выполняются одинаково по времени. Если же неграфические вычисления выполняются дольше графических, и обе ожидают завершения общей работы, то часть GPU оставшееся время будет простаивать, что вызовет снижение общей производительности и сведет всю выгоду на нет. Аппаратная динамическая балансировка загрузки же позволяет использовать освободившиеся ресурсы GPU сразу же как они станут доступными - для понимания приведем иллюстрацию.

Существуют и задачи, критичные к времени исполнения, и это - второй сценарий асинхронных вычислений. Например, исполнение алгоритма асинхронного искажения времени в VR должно завершиться до развертки (scan out) или кадр будет отброшен. В таком случае, GPU должен поддерживать очень быстрое прерывание задачи и переключение на другую, чтобы снять менее критическую задачу с исполнения на GPU, освободив его ресурсы для критически важных задач - это называется preemption.

Одна команда рендеринга от игрового движка может содержать сотни вызовов функций отрисовки, каждый вызов draw call, в свою очередь, содержит сотни обрабатываемых треугольников, каждый из которых содержит сотни пикселей, которые нужно рассчитать и отрисовать. В традиционном подходе на GPU используется прерывание задач только на высоком уровне, и графический конвейер вынужден ждать завершения всей этой работы перед переключением задачи, что в результате приводит к очень большим задержкам.

Чтобы исправить это, в архитектуре Pascal впервые была введена возможность прерывания задачи на пиксельном уровне - Pixel Level Preemption. Исполнительные блоки графического процессора Pascal могут постоянно отслеживать прогресс выполнения задач рендеринга, и когда прерывание будет запрошено, они могут остановить исполнение, сохранив контекст для дальнейшего завершения, быстро переключившись на другую задачу.

Прерывание и переключение на уровне потока для вычислительных операций работает аналогично прерыванию на пиксельном уровне для графических вычислений. Вычислительные нагрузки состоят из нескольких сеток, каждая из которых содержит множество потоков. Когда получен запрос на прерывание, выполняемые на мультипроцессоре потоки заканчивают исполнение. Другие блоки сохраняют собственное состояние чтобы продолжить с того же момента в дальнейшем, и GPU переключается на другую задачу. Весь процесс переключения задач занимает менее чем 100 микросекунд после того, как выполняемые потоки завершают работу.

Для игровых нагрузок, сочетание прерываний на пиксельном уровне для графических, и прерывания на уровне потоков для вычислительных задач дает графическим процессорам архитектуры Pascal возможность быстрого переключения между задачами с минимальными потерями времени. А для вычислительных задач на CUDA, также возможно прерывание с минимальной гранулярностью - на уровне инструкций. В таком режиме все потоки останавливают выполнение сразу, немедленно переключаясь на другую задачу. Этот подход требует сохранения большего количества информации о состоянии всех регистров каждого потока, но в некоторых случаях неграфических вычислений он вполне оправдан.

Использование быстрого прерывания и переключения задач в графических и вычислительных задачах было добавлено в архитектуру Pascal для того, чтобы графические и неграфические задачи могли прерываться на уровне отдельных инструкций, а не целых потоков, как было в Maxwell и Kepler. Эти технологии способны улучшить асинхронное исполнение различных нагрузок на графический процессор и улучшить отзывчивость при одновременном выполнении нескольких задач. На мероприятии Nvidia показывали демонстрацию работы асинхронных вычислений на примере вычисления физических эффектов. Если без асинхронных вычислений производительность была на уровне 77-79 FPS, то с включением этих возможностей частота кадров выросла до 93-94 FPS.

Мы уже приводили в пример одну из возможностей применения этой функциональности в играх в виде асинхронного искажения времени в VR. На иллюстрации показана работа этой технологии с традиционным прерыванием (preemption) и с быстрым. В первом случае, процесс асинхронного искажения времени стараются выполнить как можно позднее, но до начала обновления изображения на дисплее. Но работа алгоритма должна быть отдана на исполнение в GPU несколькими миллисекундами ранее, так как без быстрого прерывания нет возможности точно выполнить работу в нужный момент, и GPU простаивает некоторое время.

В случае точного прерывания на уровне пикселей и потоков (на иллюстрации справа), такая возможность дает большую точность в определении момента прерывания, и асинхронное искажение времени может быть запущено значительно позже с уверенностью в завершении работы до начала обновления информации на дисплее. А простаивающий некоторое время в первом случае GPU можно загрузить какой-то дополнительной графической работой.

Технология мультипроецирования Simultaneous Multi-Projection

В новом графическом процессоре GP104 появилась поддержка новой технологии мультипроецирования (Simultaneous Multi-Projection - SMP), позволяющей GPU отрисовывать данные на современных системах вывода изображения более эффективно. SMP позволяет видеочипу одновременно выводить данные в несколько проекций, для чего потребовалось ввести новый аппаратный блок в GPU в состав движка PolyMorph в конце геометрического конвейера перед блоком растеризации. Этот блок отвечает за работу с несколькими проекциями для единого потока геометрии.

Движок мультипроецирования обрабатывает геометрические данные одновременно для 16 заранее сконфигурированных проекций, объединяющих точку проекции (камеры), эти проекции можно независимо вращать или наклонять. Так как каждый геометрический примитив может появиться одновременно в нескольких проекциях, движок SMP обеспечивает такую функциональность, позволяя приложению дать инструкции видеочипу для репликации геометрии до 32 раз (16 проекций при двух центрах проецирования) без дополнительной обработки.

Весь процесс обработки аппаратно ускорен, и так как мультипроецирование работает после геометрического движка, ему не нужно повторять несколько раз все стадии обработки геометрии. Сэкономленные ресурсы важны в условиях ограничения скорости рендеринга производительностью обработки геометрии, вроде тесселяции, когда одна и та же геометрическая работа выполняется несколько раз для каждой проекции. Соответственно, в пиковом случае, мультипроецирование может сократить необходимость в обработке геометрии до 32 раз.

Но зачем все это нужно? Есть несколько хороших примеров, где технология мультипроецирования может быть полезной. Например, многомониторная система из трех дисплеев, установленных под углом друг к другу достаточно близко к пользователю (surround-конфигурация). В типичной ситуации сцена отрисовывается в одной проекции, что приводит к геометрическим искажениям и неверной отрисовке геометрии. Правильным путем является три разных проекции для каждого из мониторов, в соответствии с углом, под которым они расположены.

При помощи видеокарты на чипе с архитектурой Pascal это можно сделать за один проход геометрии, указав три разные проекции, каждая для своего монитора. И пользователь, таким образом, сможет менять угол, под которым расположены мониторы друг к другу не только физически, но и виртуально - поворачивая проекции для боковых мониторов, чтобы получить корректную перспективу в 3D-сцене при заметно более широком угле обзора (FOV). Правда, тут есть ограничение - для такой поддержки приложение должно уметь отрисовывать сцену с широким FOV и использовать специальные вызовы SMP API для его установки. То есть, в каждой игре так не сделаешь, нужна специальная поддержка.

В любом случае, времена одной проекции на единственный плоский монитор прошли, теперь много многомониторных конфигураций и изогнутых дисплеев, на которых также можно применять эту технологию. Не говоря уже о системах виртуальной реальности, которые используют специальные линзы между экранами и глазами пользователя, что требует новых техник проецирования 3D-изображения в 2D-картинку. Многие из таких технологий и техник еще в начале разработки, главное, что старые GPU не могут эффективно использовать более чем одну плоскую проекцию. Они требуют при этом несколько проходов рендеринга, многократную обработку одной и той же геометрии и т. д.

В чипах архитектуры Maxwell была ограниченная поддержка Multi-Resolution, помогающая увеличить эффективность, но SMP в Pascal может намного больше. Maxwell мог поворачивать проекцию на 90 градусов для кубических карт (cube mapping) или разных разрешений для проекции, но это было полезно лишь в ограниченном круге приложений, вроде VXGI.

Из других возможностей применения SMP отметим отрисовку с разным разрешением и однопроходный стереорендеринг. К примеру, отрисовка с разным разрешением (Multi-Res Shading) может использоваться в играх для оптимизации производительности. При ее применении, используется более высокое разрешение в центре кадра, а на периферии оно снижается для получения более высокой скорости рендеринга.

Однопроходный стереорендеринг используется в VR, он уже добавлен в пакет VRWorks и использует возможность мультипроецирования для снижения объема геометрической работы, требующегося при VR-рендеринге. В случае использования этой возможности, графический процессор GeForce GTX 1080 обрабатывает геометрию сцены лишь один раз, генерируя сразу две проекции для каждого глаза, что вдвое снижает геометрическую нагрузку на GPU, а также снижает потери от работы драйвера и ОС.

Еще более продвинутым методом повышения эффективности VR-рендеринга является Lens Matched Shading, когда при помощи нескольких проекций имитируются геометрические искажения, требуемые при VR-рендеринге. Этот метод использует мультипроецирование для рендеринга 3D-сцены на поверхность, которая приближенно похожа на скорректированную линзой при отрисовке для вывода на VR-шлем, что позволяет не отрисовывать много лишних пикселей на периферии, которые будут отброшены. Проще всего понять суть метода по иллюстрации - перед каждым глазом используется по четыре слегка развернутых проекции (на Pascal можно использовать и по 16 проекций на каждый глаз - для более точной имитации изогнутой линзы) вместо одной:

Такой подход способен прилично экономить в производительности. Так, типичное изображение для Oculus Rift на каждый глаз составляет 1,1 мегапиксель. Но из-за разницы в проекциях, чтобы его отрендерить, используется исходное изображение в 2,1 мегапикселя - на 86% больше необходимого! Применение мультипроецирования, внедренного в архитектуру Pascal, позволяет снизить разрешение отрисовываемого изображения до 1,4 мегапикселей, получив полуторакратную экономию в скорости пиксельной обработки, а также экономит пропускную способность памяти.

А вместе с двукратной экономией по скорости обработки геометрии из-за однопроходного стереорендеринга, графический процессор видеокарты GeForce GTX 1080 способен обеспечить значительное увеличение производительности VR-рендеринга, весьма требовательного и к скорости обработки геометрии, и тем более - к пиксельной обработке.

Улучшения в блоках вывода и обработки видеоданных

Помимо производительности и новой функциональности, связанной с 3D-рендерингом, необходимо поддерживать на хорошем уровне и возможности вывода изображения, а также декодирования и кодирования видеоданных. И первый графический процессор архитектуры Pascal не разочаровал - он поддерживает все современные стандарты в этом смысле, включая аппаратное декодирование формата HEVC, необходимое для просмотра 4K-видеороликов на ПК. Также будущие обладатели видеокарт GeForce GTX 1080 смогут скоро насладиться проигрыванием потокового 4K-видео с Netflix и других провайдеров на своих системах.

С точки зрения вывода изображения на дисплеи, GeForce GTX 1080 имеет поддержку HDMI 2.0b с HDCP 2.2, а также DisplayPort. Пока что сертифицирована версия DP 1.2, но GPU является готовым к сертификации для более новых версий стандарта: DP 1.3 Ready и DP 1.4 Ready. Последнее позволяет выводить изображение на 4K-экраны при частоте обновления 120 Гц, а на 5K- и 8K-дисплеи - при 60 Гц при использовании пары кабелей DisplayPort 1.3. Если для GTX 980 максимальное поддерживаемое разрешение было 5120×3200 при 60 Гц, то для новой модели GTX 1080 оно выросло до 7680×4320 при тех же 60 Гц. Референсная GeForce GTX 1080 имеет три выхода DisplayPort, один HDMI 2.0b и один цифровой Dual-Link DVI.

Новая модель видеокарты Nvidia получила и улучшенный блок декодирования и кодирования видеоданных. Так, чип GP104 соответствует высоким стандартам PlayReady 3.0 (SL3000) для воспроизведения потокового видео, позволяющим быть уверенным в том, что проигрывание высококачественного контента от известных поставщиков, вроде Netflix, будет максимально качественным и энергоэффективным. Подробности о поддержке различных форматов видео при кодировании и декодировании приведены в таблице, новинка явно отличается от предыдущих решений в лучшую сторону:

Но еще более интересной новинкой можно назвать поддержку так называемых дисплеев повышенного динамического диапазона (High Dynamic Range - HDR), которые вот-вот должны получить широкое распространение на рынке. Телевизоры продаются уже в 2016 году (и всего за год планируется продать четыре миллиона HDR-телевизоров), а мониторы - в следующем. HDR - это самый большой прорыв в дисплейных технологиях за долгие годы, этот формат обеспечивает вдвое больше цветовых оттенков (75% видимого спектра, в отличие от 33% для RGB), более яркие дисплеи (1000 нит) с большей контрастностью (10000:1) и насыщенными цветами.

Появление возможности воспроизведения контента с большей разницей в яркости и более богатыми и насыщенными цветами приблизит изображение на экране к реальности, черный цвет станет глубже, яркий же свет будет слепить, как в настоящем мире. Соответственно, пользователи увидят больше деталей в ярких и темных участках изображений, по сравнению со стандартными мониторами и телевизорами.

Для поддержки HDR-дисплеев, GeForce GTX 1080 имеет все необходимое - возможность вывода 12-битного цвета, поддержку стандартов BT.2020 и SMPTE 2084, а также вывод изображения в соответствии со стандартом HDMI 2.0b 10/12-бит для HDR в 4K-разрешении, что было и у Maxwell. В дополнение к этому, в Pascal появилась поддержка декодирования HEVC-формата в 4K-разрешении при 60 Гц и 10- или 12-битном цвете, который используется для HDR-видео, а также кодирование этого же формата с такими же параметрами, но только в 10-бит для записи HDR-видео или потоковой передачи. Также новинка готова к стандартизации DisplayPort 1.4 для передачи HDR-данных по этому разъему.

К слову, кодирование HDR-видео может понадобиться в будущем для того, чтобы передавать такие данные с домашнего ПК на игровую консоль SHIELD, которая умеет воспроизводить 10-битный HEVC. То есть, пользователь сможет транслировать игру с ПК в HDR-формате. Стоп, а где взять игры с такой поддержкой? Компания Nvidia постоянно работает с игровыми разработчиками для внедрения такой поддержки, передавая им все необходимое (поддержку в драйвере, примеры кода и т. п.) для корректного рендеринга HDR-изображения, совместимого с существующими дисплеями.

На момент выпуска видеокарты, GeForce GTX 1080, поддержкой HDR-вывода обладают такие игры, как Obduction, The Witness, Lawbreakers, Rise of the Tomb Raider, Paragon, The Talos Principle и Shadow Warrior 2. Но уже в ближайшем будущем ожидается пополнение этого списка.

Изменения в многочиповом рендеринге SLI

Произошли и некоторые изменения, связанные с фирменной технологией многочипового рендеринга SLI, хотя этого никто не ожидал. SLI используется энтузиастами ПК-игр для того, чтобы повысить производительность или до экстремальных значений, установив мощнейшие одночиповые видеокарты в тандем, или для того, чтобы получить очень высокую частоту кадров, ограничившись парой решений среднего уровня, которые иногда обходятся дешевле, чем одно топовое (решение спорное, но так делают). При наличии 4K-мониторов у игроков почти не остается иных вариантов, кроме установки пары видеокарт, так как даже топовые модели зачастую не могут обеспечить комфортную игру при максимальных настройках в таких условиях.

Одним из важных компонентов Nvidia SLI являются мостики, соединяющие видеокарты в общую видеоподсистему и служащие для организации цифрового канала по передачи данных между ними. На видеокартах GeForce традиционно устанавливались двойные разъемы SLI, которые служили для соединения между двумя или четырьмя видеокартами в 3-Way и 4-Way SLI конфигурациях. Каждая из видеокарт должна была соединяться с каждой, так как все GPU отправляли отрендеренные ими кадры в главный графический процессор, поэтому и были необходимы по два интерфейса на каждой из плат.

Начиная с модели GeForce GTX 1080, для всех видеокарт Nvidia, основанных на архитектуре Pascal, два интерфейса SLI связаны вместе для увеличения производительности передачи данных между видеокартами, и такой новый двухканальный режим SLI позволяет повысить производительность и комфорт при выводе визуальной информации на дисплеи очень высокого разрешения или многомониторные системы.

Для такого режима понадобились и новые мостики, получившие название SLI HB. Они объединяют пару видеокарт GeForce GTX 1080 сразу по двум каналам SLI, хотя новые видеокарты также совместимы и со старыми мостиками. Для разрешений 1920×1080 и 2560×1440 пикселей при частоте обновления 60 Гц можно использовать стандартные мостики, но в более требовательных режимах (4K, 5K и мультимониторные системы) лучшие результаты по плавности смены кадров обеспечат только новые мостики, хотя и старые будут работать, но несколько хуже.

Также, при использовании мостиков SLI HB, интерфейс передачи данных GeForce GTX 1080 работает на скорости 650 МГц, по сравнению с 400 МГц у обычных мостиков SLI на старых GPU. Причем, для некоторых из жестких старых мостиков также доступна более высокая частота передачи данных с видеочипами архитектуры Pascal. С ростом скорости передачи данных между GPU по удвоенному интерфейсу SLI с повышенной частотой работы, обеспечивается и более плавный вывод кадров на экран, по сравнению с предыдущими решениями:

Нужно также отметить, что поддержка многочипового рендеринга в DirectX 12 несколько отличается от того, что было привычно ранее. В последней версии графического API, компания Microsoft сделала много изменений, связанных с работой таких видеосистем. Для разработчиков ПО в DX12 доступны два варианта использования нескольких GPU: режимы Multi Display Adapter (MDA) и Linked Display Adapter (LDA).

Причем, режим LDA имеет две формы: Implicit LDA (который Nvidia использует для SLI) и Explicit LDA (когда разработчик игры берет на себя задачи управления многочиповым рендерингом. Режимы MDA и Explicit LDA как раз и были внедрены в DirectX 12 для того, чтобы дать игровым разработчикам больше свободы и возможностей при использовании многочиповых видеосистем. Разница между режимами хорошо видна по следующей таблице:

В режиме LDA, память каждого GPU может быть связана с памятью другого и отображаться в виде большого общего объема, естественно, при всех ограничениях по производительности, когда данные достаются из «чужой» памяти. В режиме MDA, память каждого GPU работает отдельно, и разные GPU не могут получить прямой доступ к данным из памяти другого графического процессора. Режим LDA разработан для многочиповых систем аналогичной производительности, а режим MDA имеет меньше ограничений, и в нем могут совместно работать дискретные и интегрированные GPU или дискретные решения с чипами разных производителей. Но этот режим также требует от разработчиков больше внимания и работы при программировании совместной работы для того, чтобы GPU смогли обмениваться информацией друг с другом.

По умолчанию, SLI-система на основе плат GeForce GTX 1080 поддерживает лишь два GPU, а трех- и четырехчиповые конфигурации официально не рекомендуются к использованию, так как в современных играх становится все более сложно обеспечивать прирост производительности от добавления третьего и четвертого графического процессора. К примеру, многие игры упираются в возможности центрального процессора системы при работе многочиповых видеосистем, также в новых играх все чаще используются темпоральные (временные) техники, использующие данные из предыдущих кадров, в которых эффективная работа сразу нескольких GPU просто невозможна.

Впрочем, работа систем в других (не SLI) многочиповых системах остается возможной, как то режимы MDA или LDA Explicit в DirectX 12 или двухчиповая SLI система с выделенным третьим GPU для физических эффектов PhysX. А как же рекорды в бенчмарках, неужели в Nvidia отказываются от них совсем? Нет, конечно, но так как подобные системы востребованы в мире чуть ли не единицами пользователей, то для таких ультраэнтузиастов придумали специальный ключ Enthusiast Key, который можно скачать на сайте Nvidia и разблокировать эту возможность. Для этого нужно сначала получить уникальный идентификатор GPU, запустив специальное приложение, затем запросить Enthusiast Key на веб-сайте и, скачав его, установить ключ в систему, разблокировав тем самым 3-Way и 4-Way конфигурации SLI.

Технология синхронизации Fast Sync

Некоторые изменения произошли в технологиях синхронизации при выводе информации на дисплей. Забегая вперед, в G-Sync не появилось ничего нового, как не поддерживается и технология адаптивной синхронизации Adaptive Sync. Зато в Nvidia решили улучшить плавность вывода и синхронизацию для игр, которые показывают очень высокую производительность, когда частота кадров заметно превышает частоту обновления монитора. Это особенно важно для игр, требующих минимальных задержек и быстрого отклика и по которым проходят мультиплеерные сражения и соревнования.

Fast Sync - это новая альтернатива вертикальной синхронизации, которая не имеет визуальных артефактов в виде разрывов картинки на изображении и не привязана к фиксированной частоте обновления, что повышает задержки. В чем проблема вертикальной синхронизации в таких играх, как Counter-Strike: Global Offensive? Эта игра на мощных современных GPU работает с несколькими сотнями кадров в секунду, и у игрока есть выбор: включать вертикальную синхронизацию или нет.

В многопользовательских играх пользователи чаще всего гонятся за минимальными задержками и VSync отключают, получая хорошо видимые разрывы на изображении, крайне неприятные и при высокой частоте кадров. Если же включить вертикальную синхронизацию, то игрок получит значительный рост задержек между его действиями и изображением на экране, когда графический конвейер замедляется до частоты обновления монитора.

Так работает традиционный конвейер. Но в Nvidia решили разделить процесс рендеринга и вывода изображения на экран при помощи технологии Fast Sync. Это позволяет продолжать максимально эффективную работу для той части GPU, которая занимается рендерингом кадров на полной скорости, сохраняя эти кадры в специальном временном буфере Last Rendered Buffer.

Такой метод позволяет изменять способ вывода на экран и брать лучшее от режимов VSync On и VSync Off, получив низкие задержки, но без артефактов изображения. С Fast Sync нет управления потоком кадров, игровой движок работает в режиме отключенной синхронизации и ему не говорят подождать с отрисовкой очередного, поэтому и задержки почти такие же низкие, как у режима VSync Off. Но так как Fast Sync самостоятельно выбирает буфер для вывода на экран и выводит кадр целиком, то нет и разрывов картинки.

При работе Fast Sync используется три разных буфера, первые два из которых работают аналогично двойной буферизации в классическом конвейере. Первичный буфер (Front Buffer - FB) - это буфер, информация из которого выводится на дисплей, полностью отрисованный кадр. Вторичный буфер (Back Buffer - BB) - это буфер, в который поступает информация при рендеринге.

При использовании вертикальной синхронизации в условиях высокой частоты кадров игра ждет достижения момента обновления информации на дисплее (refresh interval), чтобы поменять местами первичный буфер с вторичным для вывода изображения цельного кадра на экран. Это замедляет процесс, а добавление дополнительных буферов как при традиционной тройной буферизации лишь добавит задержку.

С применением Fast Sync добавляется третий буфер Last Rendered Buffer (LRB), который используется для хранения всех кадров, только что отрендеренных во вторичном буфере. Название буфера говорит само за себя, в нем содержится копия последнего полностью отрисованного кадра. И когда настанет момент обновления первичного буфера, этот LRB буфер копируется в первичный целиком, а не по частям, как из вторичного при отключенной вертикальной синхронизации. Так как копирование информации из буферов неэффективно, то они просто меняются местами (или переименовываются, как будет удобнее понять), а новая логика смены буферов местами, появившаяся в GP104, управляет этим процессом.

На практике включение нового метода синхронизации Fast Sync обеспечивает все же чуть большую задержку, по сравнению с вовсе отключенной вертикальной синхронизацией - в среднем на 8 мс больше, зато выводит кадры на монитор целиком, без неприятных артефактов на экране, разрывающих изображение. Новый метод можно включить из графических настроек панели управления Nvidia в секции управления вертикальной синхронизацией. Впрочем, значением по умолчанию остается управление приложением, да и включать Fast Sync во всех 3D-приложениях просто не требуется, лучше выбрать этот метод конкретно для игр с высоким FPS.

Технологии виртуальной реальности Nvidia VRWorks

Мы уже не раз затрагивали горячую тему виртуальной реальности в статье, но речь в основном шла о повышении частоты кадров и обеспечении низких задержек, очень важных для VR. Все это очень важно и прогресс действительно есть, но пока что VR-игры выглядят далеко не столь впечатляюще, как лучшие из «обычных» современных 3D-игр. Так получается не только потому, что VR-приложениями ведущие игровые разработчики пока что не особо занимаются, но и из-за большей требовательности VR к частоте кадров, что не дает использовать многие из привычных техник в таких играх по причине высокой требовательности.

Для того, чтобы уменьшить разницу в качестве между VR-играми и обычными, в Nvidia решили выпустить целый пакет соответствующих технологий VRWorks, в который вошло большое количество API, библиотек, движков и технологий, которые позволяют значительно улучшить как качество, так и производительность VR-приложений. Как это относится к анонсу первого игрового решения на Pascal? Очень просто - в него внедрили некоторые технологии, помогающие увеличить производительность и улучшить качество, и мы о них уже писали.

И хотя дело касается далеко не только графики, сначала немного расскажем именно о ней. В набор технологий VRWorks Graphics входят уже упомянутые ранее технологии, вроде Lens Matched Shading, использующие возможность мультипроецирования, появившуюся именно в GeForce GTX 1080. Новинка позволяет получить прирост производительности в 1,5-2 раза по отношению к решениями, не имеющим такой поддержки. Также мы упоминали и другие технологии, вроде MultiRes Shading, предназначенного для рендеринга с разным разрешением в центре кадра и на его периферии.

Но куда неожиданнее был анонс технологии VRWorks Audio, предназначенной для качественного обсчета звуковых данных в 3D-сценах, особенно важного в системах виртуальной реальности. В обычных движках позиционирование источников звука в виртуальной среде рассчитывается довольно корректно, если враг стреляет справа, то и звук громче раздается с этой стороны аудиосистемы, и такой расчет не слишком требователен к вычислительной мощности.

Но в реальности звуки идут не только к игроку, но во всех направлениях и отражаются от различных материалов, аналогично тому, как отражаются лучи света. И в реальности мы слышим эти отражения, хоть и не так отчетливо, как прямые звуковые волны. Эти непрямые отражения звука обычно имитируются специальными эффектами реверберации, но это - весьма примитивный подход к задаче.

В пакете VRWorks Audio используется просчет звуковых волн аналогично трассировке лучей при рендеринге, когда путь лучей света отслеживается до нескольких отражений от объектов в виртуальной сцене. VRWorks Audio также имитирует распространение звуковых волн в окружающей среде, когда отслеживаются прямые и отраженные волны, в зависимости от угла их падения и свойств отражающих материалов. В своей работе VRWorks Audio использует известный по графическим задачам высокопроизводительный движок Nvidia OptiX, предназначенный для трассировки лучей. OptiX может использоваться для разнообразных задач, таких как расчет непрямого освещения и подготовка карт освещения, а теперь и для трассировки звуковых волн в VRWorks Audio.

Nvidia встроила точный расчет звуковых волн в свою демонстрационную программу VR Funhouse, в ней используется несколько тысяч лучей и просчитывается до 12 отражений от объектов. А для того, чтобы на понятном примере усвоить преимущества технологии, предлагаем вам посмотреть видеоролик о работе технологии на русском языке:

Важно, что подход Nvidia отличается от традиционных звуковых движков, в том числе и аппаратно ускоренного при помощи специального блока в GPU метода от главного конкурента. Все эти методы обеспечивают лишь точное позиционирование источников звука, но не рассчитывают отражения звуковых волн от объектов в 3D-сцене, хотя и могут имитировать это при помощи эффекта реверберации. И все же использование технологии трассировки лучей может быть куда реалистичнее, так как только такой подход обеспечит точную имитацию различных звуков, с учетом размеров, формы и материалов объектов в сцене. Сложно сказать, требуется ли такая точность вычислений для типичного игрока, но можно сказать точно: в VR она может добавить пользователям той самой реалистичности, которой пока что не хватает в обычных играх.

Ну а нам осталось рассказать лишь о технологии VR SLI, работающей и в OpenGL и в DirectX. Ее принцип предельно прост: двухпроцессорная видеосистема в VR-приложении будет работать так, что каждому глазу выделяется отдельный GPU, в отличие от AFR-рендеринга, привычного для SLI-конфигураций. Это значительно повышает общую производительность, столь важную для систем виртуальной реальности. Теоретически можно использовать и большее количество GPU, но их количество должно быть четным.

Такой подход потребовался потому, что AFR плохо подходит для VR, так как с его помощью первый GPU будет отрисовывать четный кадр для обоих глаз, а второй - нечетный, что ничуть не снижает задержки, критически важные для систем виртуальной реальности. Хотя частота кадров при этом будет достаточно высокой. Так что при помощи VR SLI работа над каждым кадром разделяется на два GPU - один работает над частью кадра для левого глаза, второй - для правого, а затем эти половинки кадра объединяются в целый.

Подобное разделение работы между парой графических процессоров приносит почти двукратный рост производительности, позволяющий поднять частоту кадров и снизить задержки по сравнению с системами на основе одной видеокарты. Правда, использование VR SLI требует специальной поддержки со стороны приложения, чтобы использовать этот метод масштабирования. Но технология VR SLI уже встроена в такие демонстрационные VR-приложения как The Lab от Valve и Trials on Tatooine от ILMxLAB, и это только начало - в Nvidia обещают скорое появление других приложений, а также внедрения технологии в игровые движки Unreal Engine 4, Unity и MaxPlay.

Платформа создания игровых скриншотов Ansel

Одним из самых интересных анонсов, связанных с программным обеспечением, стал выпуск технологии захвата качественных скриншотов в игровых приложениях, названной по имени одного известного фотографа - Ansel. Игры уже давно стали не просто играми, но и местом применения шаловливых рук для различных творческих личностей. Кто-то меняет скрипты к играм, кто-то выпускает качественные наборы текстур к играм, а кто-то - делает красивые скриншоты.

Компания Nvidia решила помочь последним, представив новую платформу для создания (именно создания, потому что это не такой уж простой процесс) качественных снимков из игр. Они считают, что Ansel может помочь создать новый вид современного искусства. Ведь уже есть достаточно много художников, которые проводят большую часть жизни за ПК, создавая красивые скриншоты из игр, и у них до сих пор не было удобного инструмента для этого.

Ansel позволяет не просто захватывать изображение в игре, а менять его так, как нужно создателю. При помощи этой технологии можно двигать камеру по сцене, поворачивать и наклонять ее в любом направлении для того, чтобы получить требуемую композицию кадра. К примеру, в таких играх, как шутеры от первого лица, можно только двигать игрока, больше ничего менять особо не получится, поэтому все скриншоты получаются довольно однообразными. Со свободной же камерой в Ansel можно выйти далеко за пределы игровой камеры, выбрав такой ракурс, который нужен для удачной картинки, или вовсе захватить полноценную 360-градусную стереокартину из требуемой точки, да в высоком разрешении для последующего просмотра в VR-шлеме.

Ansel работает довольно просто - при помощи специальной библиотеки от Nvidia эта платформа внедряется в код игры. Для этого ее разработчику требуется всего лишь добавить небольшой кусок кода в свой проект, чтобы позволить видеодрайверу Nvidia перехватывать данные буферов и шейдеров. Работы там совсем немного, внедрение Ansel в игру требует меньше чем одного дня для внедрения. Так, включение этой возможности в игру The Witness заняло около 40 строк кода, а в The Witcher 3 - порядка 150 строк кода.

Ansel появится с открытым пакетом для разработки - SDK. Главное, что пользователь получает вместе с ним стандартный набор настроек, позволяющих ему менять положение и угол камеры, добавлять эффекты и т. п. Платформа Ansel работает так: она ставит игру на паузу, включает свободную камеру и позволяет изменять кадр до требуемого вида, записывая результат в виде обычного скриншота, 360-градусного снимка, стереопары или просто панорамы огромного разрешения.

Единственное замечание: не все игры получат поддержку всех возможностей платформы создания игровых скриншотов Ansel. Некоторые из игровых разработчиков по тем или иным причинам не желают включать полностью свободную камеру в своих играх - например, из-за возможности использования этой функциональности читерами. Или они хотят ограничить изменение угла обзора по все той же причине - чтобы никто не получил несправедливого преимущества. Ну, или чтобы пользователи не увидели убогие спрайты на заднем плане. Все это - вполне нормальные желания создателей игр.

Одной из интереснейших возможностей Ansel является создание скриншотов просто огромного разрешения. Неважно, что игра поддерживает разрешения до 4K, например, а монитор у пользователя и вовсе Full HD. При помощи платформы снятия скриншотов можно захватить куда более качественное изображение, ограниченное скорее объемом и производительностью накопителя. Платформа с легкостью захватывает скриншоты с разрешением до 4,5 гигапикселей, со сшивкой их из 3600 кусочков!

Понятно, что на таких картинах можно рассмотреть все детали, вплоть до текста на валяющихся вдалеке газетах, если такой уровень детализации в принципе предусмотрен в игре - Ansel умеет управлять и уровнем детализации, выставляя максимальный уровень, чтобы получить лучшее качество картинки. А ведь еще можно включить суперсэмплинг. Все это позволяет создавать изображения из игр, которые можно смело печатать на больших баннерах и быть спокойным за их качество.

Интересно, что для сшивки больших изображений используется специальный аппаратно ускоренный код на основе CUDA. Ведь никакая видеокарта не сможет отрендерить многогигапиксельное изображение целиком, но она может сделать это по кусочкам, которые нужно просто объединить впоследствии, учитывая возможную разницу в освещении, цвете и прочем.

После сшивки таких панорам для всего кадра используется специальная постобработка, также ускоренная на GPU. А для захвата изображений в повышенном динамическом диапазоне можно использовать специальный формат изображений - EXR, открытый стандарт от Industrial Light and Magic, значения цветности в каждом канале которого записываются в 16-битном формате с плавающей запятой (FP16).

Этот формат позволяет менять яркость и динамический диапазон изображения постобработкой, приводя его к нужному для каждого конкретного дисплея аналогично тому, как это делается с RAW-форматами с фотокамер. Да и для последующего применения фильтров постобработки в программах обработки изображений этот формат весьма полезен, так как содержит куда больше данных, чем привычные форматы для изображений.

Но платформа Ansel и сама содержит множество фильтров для постобработки, что особенно важно потому, что она имеет доступ не только к итоговой картинке, но и ко всем буферам, использующимся игрой при рендеринге, что можно использовать для очень интересных эффектов, вроде глубины резкости. Для этого в Ansel есть специальный API для постобработки, и любой из эффектов можно включить в игру с поддержкой этой платформы.

В число постфильтров Ansel входят такие фильтры как: color curves, color space, transformation, desaturation, brightness/contrast, film grain, bloom, lens flare, anamorphic glare, distortion, heathaze, fisheye, color aberration, tone mapping, lens dirt, lightshafts, vignette, gamma correction, convolution, sharpening, edge detection, blur, sepia, denoise, FXAA и другие.

Что касается появления поддержки Ansel в играх, то тут придется немного подождать, пока разработчики ее внедрят и протестируют. Но Nvidia обещает скорое появление такой поддержки в таких известных играх, как The Division, The Witness, Lawbreakers, The Witcher 3, Paragon, Fortnite, Obduction, No Man"s Sky, Unreal Tournament и других.

Новый технологический процесс 16 нм FinFET и оптимизации архитектуры позволили видеокарте GeForce GTX 1080, основанной на графическом процессоре GP104, достичь высокой тактовой частоты в 1,6-1,7 ГГц даже в референсном виде, а работу на максимально возможных частотах в играх гарантирует новое поколение технологии GPU Boost. Вместе с увеличенным количеством исполнительных блоков, эти улучшения сделали новинку не просто самой высокопроизводительной одночиповой видеокартой за все время, но и наиболее энергоэффективным решением на рынке.

Модель GeForce GTX 1080 стала первой видеокартой, несущей на себе новый тип графической памяти GDDR5X - нового поколения высокоскоростных чипов, которое позволило достичь очень высокой частоты передачи данных. В случае модификации GeForce GTX 1080, этот тип памяти работает на эффективной частоте в 10 ГГц. В сочетании с улучшенными алгоритмами сжатия информации во фреймбуфере, это привело к росту эффективной пропускной способности памяти для этого графического процессора в 1,7 раза, по сравнению с прямым предшественником в лице GeForce GTX 980.

Компания Nvidia благоразумно решила не выпускать радикально новую архитектуру на абсолютно новом для себя техпроцессе, чтобы не столкнуться с лишними проблемами при разработке и производстве. Вместо этого они серьезно улучшили и так неплохую и весьма эффективную архитектуру Maxwell, добавив некоторые возможности. В итоге, с производством новых GPU все хорошо, и в случае модели GeForce GTX 1080 инженеры добились очень высокого частотного потенциала - в разогнанных вариантах от партнеров частота GPU ожидается вплоть до 2 ГГц! Столь впечатляющая частота стала реальна благодаря совершенному техпроцессу и кропотливой работе инженеров Nvidia при разработке графического процессора Pascal.

И хотя Pascal стал прямым последователем дела Maxwell, и эти графические архитектуры в основе своей не слишком сильно отличаются друг от друга, компания Nvidia внедрила множество изменений и улучшений, в том числе в возможности вывода изображения на дисплеи, движок кодирования и декодирования видеоданных, улучшили асинхронное исполнение различных типов вычислений на GPU, внесли изменения в многочиповый рендеринг и внедрили новый метод синхронизации Fast Sync.

Нельзя не выделить технологию мультипроецирования Simultaneous Multi-Projection, которая помогает повысить производительность в системах виртуальной реальности, получить более корректное отображение сцен на многомониторных системах, и внедрить новые техники оптимизации производительности. Но наибольший прирост в скорости получат VR-приложения, когда ими будет поддерживаться технология мультипроецирования, помогающая вдвое сэкономить ресурсы GPU при обработке геометрических данных и в полтора раза - при попиксельных вычислениях.

Среди чисто программных изменений особенно выделяется платформа для создания скриншотов в играх под названием Ansel - попробовать ее в деле будет интересно не только много играющим, но и просто интересующимся качественной 3D-графикой. Новинка позволяет продвинуть искусство создания и ретуши скриншотов на новый уровень. Ну а такие свои пакеты для разработчиков игр, как GameWorks и VRWorks, Nvidia просто продолжает улучшать шаг за шагом - так, в последнем появилась интересная возможность качественного обсчета звука, учитывающая многочисленные отражения звуковых волн с использованием аппаратной трассировки лучей.

В общем, в виде видеокарты Nvidia GeForce GTX 1080 на рынок вышел настоящий лидер, имеющий для этого все необходимые качества: высокую производительность и широкую функциональность, а также поддержку новых возможностей и алгоритмов. Первые покупатели этой видеокарты смогут оценить многие из упомянутых преимуществ сразу, а другие возможности решения раскроются чуть позже, когда появится широкая поддержка со стороны программного обеспечения. Главное, что GeForce GTX 1080 получилась весьма быстрой и эффективной, а часть проблемных мест (те же асинхронные вычисления), как мы очень надеемся, инженерам Nvidia удалось исправить.

Графический ускоритель GeForce GTX 1070

Параметр Значение
Кодовое имя чипа GP104
Технология производства 16 нм FinFET
Количество транзисторов 7,2 млрд.
Площадь ядра 314 мм²
Архитектура Унифицированная, с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX DirectX 12, с поддержкой уровня возможностей Feature Level 12_1
Шина памяти 256-битная: восемь независимых 32-битных контроллеров памяти с поддержкой GDDR5 и GDDR5X памяти
Частота графического процессора 1506 (1683) МГц
Вычислительные блоки 15 активных (из 20 в чипе) потоковых мультипроцессоров, включающих 1920 (из 2560) скалярных ALU для расчетов с плавающей запятой в рамках стандарта IEEE 754-2008;
Блоки текстурирования 120 активных (из 160 в чипе) блоков текстурной адресации и фильтрации с поддержкой FP16- и FP32-компонент в текстурах и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
Блоки растровых операций (ROP) 8 широких блоков ROP (64 пикселя) с поддержкой различных режимов сглаживания, в том числе программируемых и при FP16- или FP32-формате буфера кадра. Блоки состоят из массива конфигурируемых ALU и отвечают за генерацию и сравнение глубины, мультисэмплинг и блендинг
Поддержка мониторов Интегрированная поддержка до четырех мониторов, подключенных по интерфейсам Dual Link DVI, HDMI 2.0b и DisplayPort 1.2 (1.3/1.4 Ready)

Спецификации референсной видеокарты GeForce GTX 1070
Параметр Значение
Частота ядра 1506 (1683) МГц
Количество универсальных процессоров 1920
Количество текстурных блоков 120
Количество блоков блендинга 64
Эффективная частота памяти 8000 (4×2000) МГц
Тип памяти GDDR5
Шина памяти 256-бит
Объем памяти 8 ГБ
Пропускная способность памяти 256 ГБ/с
Вычислительная производительность (FP32) около 6,5 терафлопс
Теоретическая максимальная скорость закраски 96 гигапикселей/с
Теоретическая скорость выборки текстур 181 гигатекселей/с
Шина PCI Express 3.0
Разъемы Один разъем Dual Link DVI, один HDMI и три DisplayPort
Энергопотребление до 150 Вт
Дополнительное питание Один 8-контактный разъем
Число слотов, занимаемых в системном корпусе 2
Рекомендуемая цена $379-449 (США), 34 990 (Россия)

Видеокарта GeForce GTX 1070 также получила логичное наименование, аналогичное такому же решению из предыдущей серий GeForce. Оно отличается от своего прямого предшественника GeForce GTX 970 только измененной цифрой поколения. Новинка становится в текущей линейке компании на шаг ниже нынешнего топового решения GeForce GTX 1080, ставшего временным флагманом новой серии до выпуска решений на GPU еще большей мощности.

Рекомендованные цены на новую топовую видеоплату Nvidia составляют $379 и $449 для обычных версий партнеров Nvidia и специального издания Founders Edition, соответственно. По сравнению с топовой моделью, это очень хорошая цена с учетом того, что GTX 1070 уступает ей около 25% в худшем случае. И на момент анонса и выхода GTX 1070 становится лучшим по производительности решением в своем классе. Как и GeForce GTX 1080, модель GTX 1070 не имеет прямых конкурентов от AMD, и сравнивать ее можно разве что с Radeon R9 390X и Fury.

У графического процессора GP104 в модификации GeForce GTX 1070 решили оставить полную 256-битную шину памяти, хотя применили не новый тип памяти GDDR5X, а очень быструю GDDR5, которая работает на высокой эффективной частоте в 8 ГГц. Объем установленной на видеокарту памяти с такой шиной может быть равен 4 или 8 ГБ, и, чтобы обеспечить максимальную производительность нового решения в условиях высоких настроек и разрешениях рендеринга, модель видеокарты GeForce GTX 1070 была также оснащена 8 ГБ видеопамяти, как и ее старшая сестра. Этого объема хватит для запуска любых 3D-приложений с максимальными настройками качества на несколько лет.

Специальное издание GeForce GTX 1070 Founders Edition

При анонсе GeForce GTX 1080 в начале мая было объявлено специальное издание видеокарты под названием Founders Edition, имеющее более высокую цену, по сравнению с обычными видеокартами партнеров компании. То же самое относится и к новинке. В этом материале мы снова расскажем о специальном издании видеокарты GeForce GTX 1070 под названием Founders Edition. Как и в случае старшей модели, Nvidia решила выпустить такой вариант референсной видеокарты производителя по более высокой цене. Они утверждают, что многие игроки и энтузиасты, покупающие дорогие видеокарты топового уровня, хотят продукт с соответствующим «премиальным» видом и ощущением от него.

Соответственно, именно для таких пользователей на рынок будет выпущена видеокарта GeForce GTX 1070 Founders Edition, которая спроектирована и выполнена инженерами Nvidia из премиальных материалов и компонентов, вроде алюминиевой крышки GeForce GTX 1070 Founders Edition, а также низкопрофильной задней пластины, прикрывающей оборотную сторону печатной платы и достаточно популярной среди энтузиастов.

Как вы можете видеть по фотографиям платы, GeForce GTX 1070 Founders Edition унаследовала ровно тот же индустриальный дизайн, присущий референсному варианту GeForce GTX 1080 Founders Edition. В обеих моделях применяется радиальный вентилятор, выбрасывающий нагретый воздух наружу, что очень полезно как в маленьких корпусах, так и многочиповых SLI-конфигурациях с ограниченным физически пространством. Выдув нагретого воздуха наружу вместо его циркуляции внутри корпуса позволяет снизить температурную нагрузку, повысить результаты разгона и продлить время жизни компонентам системы.

Под крышкой референсной системы охлаждения GeForce GTX 1070 скрывается алюминиевый радиатор специальной формы с тремя встроенными тепловыми трубками из меди, отводящими тепло от самого графического процессора. Тепло, отведенное тепловыми трубками, затем рассеивается при помощи алюминиевого радиатора. Ну и низкопрофильная металлическая пластина на оборотной стороне платы также предназначена для обеспечения лучших температурных характеристик. Она также имеет убираемую секцию для лучшего движения воздуха между несколькими видеокартами в SLI-конфигурациях.

Что касается системы питания платы, то GeForce GTX 1070 Founders Edition имеет четырехфазную систему питания, оптимизированную для стабильного снабжения энергией. Компания Nvidia уверяет, что использование специальных компонентов в GTX 1070 Founders Edition позволило повысить эффективность электроснабжения, стабильность и надежность по сравнению с GeForce GTX 970, обеспечив лучшие показатели при разгоне. В собственных тестах компании графические процессоры плат GeForce GTX 1070 легко превосходили значение в 1,9 ГГц, что близко к результатам старшей модели GTX 1080.

Видеокарта Nvidia GeForce GTX 1070 будет доступна в розничных магазинах начиная с 10 июня. Рекомендуемые цены на GeForce GTX 1070 Founders Edition и решения партнеров отличаются, и в этом заключается самый главный вопрос к этому специальному изданию. Если партнеры Nvidia будут продавать свои видеокарты GeForce GTX 1070 по цене, начиная от $379 (на рынке США), то Founders Edition референсного дизайна Nvidia будет стоить уже $449. Много ли найдется энтузиастов, готовых переплачивать за, скажем прямо, сомнительные преимущества референсного варианта? Время покажет, но мы считаем, что референсная плата интересна скорее как вариант, доступный к покупке в самом начале продаж, а позднее смысл его приобретения (да еще за большую цену!) уже сводится к нулю.

Остается добавить, что печатная плата референсной GeForce GTX 1070 схожа с таковой у старшей видеокарты и обе они отличаются от устройства предыдущих плат компании. Значение типичного энергопотребления для новинки составляет 150 Вт, что меньше значения для GTX 1080 почти на 20% и близко к потреблению энергии видеокартой предыдущего поколения GeForce GTX 970. Референсная плата Nvidia имеет уже привычный набор разъемов для присоединения устройств вывода изображения: один Dual-Link DVI, один HDMI и три DisplayPort. Причем, появилась поддержка новых версий HDMI и DisplayPort, о которой мы написали выше в обзоре модели GTX 1080.

Архитектурные изменения

Видеокарта модели GeForce GTX 1070 основана на чипе GP104, первенце нового поколения графической архитектуры Nvidia - Pascal. Эта архитектура взяла в основу решения, отработанные еще в Maxwell, но в ней есть и некоторые функциональные отличия, о которых мы подробно писали выше - в части, посвященной топовой видеокарте GeForce GTX 1080.

Главным изменением новой архитектуры стал технологический процесс, по которому будут выполнены все новые графические процессоры. Применение техпроцесса 16 нм FinFET при производстве GP104 позволило значительно повысить сложность чипа при сохранении сравнительно невысокой площади и себестоимости, и первый же чип архитектуры Pascal имеет заметно большее количество исполнительных блоков, в том числе обеспечивающих новую функциональность, по сравнению с чипами Maxwell похожего позиционирования.

Видеочип GP104 по своему устройству схож с аналогичными решениями архитектуры Maxwell, и подробные данные об устройстве современных GPU вы можете найти в наших обзорах предыдущих решений компании Nvidia. Как и предыдущие графические процессоры, чипы новой архитектуры будут иметь разную конфигурацию вычислительных кластеров Graphics Processing Cluster (GPC), потоковых мультипроцессоров Streaming Multiprocessor (SM) и контроллеров памяти, и в GeForce GTX 1070 уже произошли некоторые изменения - часть чипа была заблокирована и неактивна (выделено серым):

Хотя в состав графического процессора GP104 входит четыре кластера GPC и 20 мультипроцессоров SM, в версии для GeForce GTX 1070 он получил урезанную модификацию с аппаратно отключенным одним кластером GPC. Так как каждый кластер GPC имеет выделенный движок растеризации и включает в себя пять мультипроцессоров SM, а каждый мультипроцессор состоит из 128 CUDA-ядер и восьми текстурных блоков TMU, то в этой версии GP104 активны 1920 CUDA-ядер и 120 блоков TMU из 2560 потоковых процессоров и 160 текстурных блоков, имеющихся физически.

Графический процессор, на котором основана видеокарта GeForce GTX 1070, содержит восемь 32-битных контроллеров памяти, дающих итоговую 256-битную шину памяти - ровно как в случае старшей модели GTX 1080. Подсистема памяти не была урезана для того, чтобы обеспечить достаточно высокую пропускную способность памяти с условием применения GDDR5-памяти в GeForce GTX 1070. К каждому из контроллеров памяти привязано по восемь блоков ROP и 256 КБ кэш-памяти второго уровня, поэтому чип GP104 и в этой модификации также содержит 64 блоков ROP и 2048 КБ кэш-памяти второго уровня.

Благодаря архитектурным оптимизациям и новому техпроцессу, графический процессор GP104 стал самым энергоэффективным графическим процессором на данный момент. Инженеры компании Nvidia смогли повысить тактовую частоту больше, чем они рассчитывали при переходе на новый техпроцесс, для чего им пришлось хорошо поработать, тщательно проверив и оптимизировав все узкие места предыдущих решений, не позволяющие им работать на более высокой частоте. Соответственно, GeForce GTX 1070 также работает на очень высокой частоте, более чем на 40% выше референсного значения для GeForce GTX 970.

Так как модель GeForce GTX 1070 является, по своей сути, просто чуть менее производительной GTX 1080 с GDDR5-памятью, то она поддерживает абсолютно все технологии, описанные нами в предыдущем разделе. Чтобы получить больше деталей об архитектуре Pascal, равно как и поддерживаемых ей технологиях, вроде улучшенных блоков вывода и обработки видеоданных, поддержки асинхронных вычислений Async Compute, технологии мультипроецирования Simultaneous Multi-Projection, изменениях в многочиповом рендеринге SLI и новом типе синхронизации Fast Sync, стоит ознакомиться с разделом по GTX 1080.

Высокопроизводительная GDDR5-память и ее эффективное использование

Мы выше писали об изменениях в подсистеме памяти у графического процессора GP104, на котором основаны модели GeForce GTX 1080 и GTX 1070 - контроллеры памяти, имеющиеся в составе этого GPU, поддерживают как новый тип видеопамяти GDDR5X, о котором подробно написано в обзоре GTX 1080, так и старую добрую GDDR5-память, известную нам вот уже несколько лет.

Чтобы не слишком много потерять в пропускной способности памяти в младшей модели GTX 1070 по сравнению со старшей GTX 1080, в ней оставили активными все восемь 32-битных контроллеров памяти, получив полноценный 256-битный общий интерфейс видеопамяти. Кроме этого, видеокарту оснастили самой высокоскоростной GDDR5-памятью, которая только была доступна на рынке - с эффективной частотой работы в 8 ГГц. Все это обеспечило ПСП в 256 ГБ/с, в отличие от 320 ГБ/с у старшего решения - примерно на столько же были урезаны и вычислительные возможности, так что баланс был соблюден.

Не забываем, что хотя пиковая теоретическая пропускная способность важна для производительности графических процессоров, нужно обращать внимание и на эффективность ее использования. В процессе рендеринга, множество разных узких мест может ограничивать общую производительность, не давая использовать всю имеющуюся ПСП. Чтобы минимизировать количество таких узких мест, в графических процессорах применяется специальное сжатие информации без потерь, повышающее эффективность операций чтения и записи данных.

В архитектуре Pascal было внедрено уже четвертое поколение дельта-сжатия информации буферов, позволяющее GPU более эффективно использовать имеющиеся возможности шины видеопамяти. Подсистема памяти в GeForce GTX 1070 и GTX 1080 использует улучшенные старые и несколько новых техник по сжатию данных без потерь, предназначенные для снижения требований к ПСП. Это снижает количество записываемых данных в память, улучшает эффективность использования L2-кэша и уменьшает количество данных, пересылаемых между разными точками GPU, вроде TMU и фреймбуфера.

GPU Boost 3.0 и особенности разгона

Большинство партнеров компании Nvidia уже анонсировали фабрично разогнанные решения на основе GeForce GTX 1080 и GTX 1070. А многие из производителей видеокарт создают и специальные утилиты для разгона, позволяющие использовать новую функциональность технологии GPU Boost 3.0. Одним из примеров таких утилит является EVGA Precision XOC, которая включает автоматический сканер для определения кривой соотношения напряжений и частот - в этом режиме для каждого из значений напряжения при помощи запуска теста стабильности находится стабильная частота, при которой GPU обеспечивает рост производительности. Впрочем, эту кривую можно изменять и вручную.

Технологию GPU Boost мы хорошо знаем по предыдущим видеокартам компании Nvidia. В своих графических процессорах они применяют эту аппаратную особенность, предназначенную для увеличения рабочей тактовой частоты GPU в режимах, когда он еще не достиг пределов по энергопотреблению и тепловыделению. В графических процессорах Pascal этот алгоритм претерпел несколько изменений, основным из которых стала более тонкая установка турбо-частот, в зависимости от напряжения.

Если раньше разница между базовой частотой и турбо-частотой была фиксированной, то в GPU Boost 3.0 появилась возможность установки смещений турбо-частот для каждого напряжения по отдельности. Теперь турбо-частота может устанавливаться для каждого из индивидуальных значений напряжения, что позволяет полностью выжимать все возможности разгона из GPU. Мы подробно писали об этой возможности в обзоре GeForce GTX 1080, и для этого можно использовать утилиты EVGA Precision XOC и MSI Afterburner.

Так как в методике разгона с выходом видеокарт с поддержкой GPU Boost 3.0 изменились некоторые детали, то Nvidia пришлось сделать дополнительные пояснения в инструкции по разгону новинок. Существуют разные методики разгона с различными переменными характеристиками, влияющими на итоговый результат. Для каждой конкретной системы может лучше подойти какой-то определенный метод, но основа всегда примерно одинакова.

Многие из оверклокеров для проверки стабильности системы используют бенчмарк Unigine Heaven 4.0, который отлично загружает графический процессор работой, имеет гибкие настройки и может быть запущен в оконном режиме вместе с окном утилиты для разгона и мониторинга рядом, вроде EVGA Precision или MSI Afterburner. Впрочем, такой проверки достаточно лишь для начальных прикидок, а для крепкого подтверждения стабильности разгона, его необходимо проверить в нескольких игровых приложениях, потому что разные игры предполагают отличающуюся нагрузку на различные функциональные блоки GPU: математические, текстурные, геометрические. Бенчмарк Heaven 4.0 также удобен для задачи разгона потому, что в нем есть закольцованный режим работы, в котором удобно менять настройки разгона и есть бенчмарк для оценки прироста скорости.

Nvidia советует при разгоне новых видеокарт GeForce GTX 1080 и GTX 1070 запускать окна Heaven 4.0 и EVGA Precision XOC совместно. Сначала желательно сразу же повысить скорость вращения вентилятора. И для серьезного разгона можно сразу выставлять значение скорости на 100%, что сделает работу видеокарты очень громкой, но максимально охладит GPU и остальные компоненты видеокарты, снизив температуру на минимально возможный уровень, предотвратив тротлинг (снижение частот из-за роста температуры GPU выше определенного значения).

Далее нужно установить целевое значение питания (Power Target) также на максимум. Эта настройка позволит обеспечить графический процессор максимально возможным количеством энергии, повысив уровень энергопотребления и целевую температуру GPU (GPU Temp Target). В некоторых целях, второе значение можно отделить от изменения Power Target, и тогда эти настройки можно будет настраивать индивидуально - для достижения меньшего нагрева видеочипа, например.

Следующим шагом идет увеличение значения прироста частоты видеочипа (GPU Clock Offset) - оно означает, насколько большей будет турбо-частота при работе. Это значение повышает частоту для всех значений напряжения и приводит к большей производительности. Как обычно, при разгоне нужно проверять стабильность при повышении частоты GPU небольшими шагами - от 10 МГц до 50 МГц на шаг до того, как будет отмечено зависание, ошибка драйвера или приложения или даже визуальные артефакты. При достижении такого лимита следует снизить значение частоты на шаг вниз и еще раз проверить стабильность и производительность при разгоне.

Кроме частоты GPU, можно также увеличить и частоту видеопамяти (Memory Clock Offset), что особенно важно в случае GeForce GTX 1070, оснащенной GDDR5-памятью, которая обычно неплохо разгоняется. Процесс в случае частоты работы памяти в точности повторяет то, что делается при нахождении стабильной частоты GPU, единственная разница в том, что шаги можно делать крупнее - добавлять сразу по 50-100 МГц к базовой частоте.

Кроме описанных выше шагов, можно увеличить и предел напряжения (Overvoltage), ведь более высокая частота графического процессора часто достигается при повышенном напряжении, когда работающие нестабильно части GPU получают дополнительное питание. Правда, потенциальным минусом повышения данного значения является возможность повреждения видеочипа и ускоренного выхода его из строя, поэтому нужно использовать повышение напряжения с особой осторожностью.

Любители разгона используют несколько отличающиеся методики, изменяя параметры в разном порядке. Например, некоторые оверклокеры разделяют опыты по нахождению стабильной частоты GPU и памяти, чтобы они не мешали друг другу, а потом тестируют комбинированный разгон и видеочипа и микросхем памяти, но это уже - несущественные детали индивидуального подхода.

Судя по мнениям в форумах и комментариях к статьям, некоторым пользователям не пришелся по вкусу новый алгоритм работы GPU Boost 3.0, когда частота GPU сначала задирается очень высоко, зачастую выше турбо-частоты, но потом, под воздействием роста температуры GPU или возросшего энергопотребления выше установленного предела, она может опуститься до значительно меньших значений. Это просто специфика работы обновленного алгоритма, нужно привыкнуть к новому поведению динамически изменяемой частоты GPU, но никаких негативных последствий оно не несет.

Видеокарта GeForce GTX 1070 стала второй после GTX 1080 моделью в новой линейке компании Nvidia, основанной на графических процессорах семейства Pascal. Новый технологический процесс 16 нм FinFET и оптимизации архитектуры позволили представленной видеокарте достичь высокой тактовой частоты, в чем ей помогает и новое поколение технологии GPU Boost. Даже несмотря на урезанное количество функциональных блоков в виде потоковых процессоров и текстурных модулей, их количество осталось достаточным для того, чтобы GTX 1070 стала самым выгодным и энергоэффективным решением.

Установка на младшую из пары выпущенных моделей видеокарт Nvidia на чипе GP104 памяти стандарта GDDR5, в отличие от нового типа GDDR5X, которым отличается GTX 1080, не мешает ей достичь высоких показателей производительности. Во-первых, в Nvidia решили не урезать шину памяти модели GeForce GTX 1070, а во-вторых, на нее поставили самую быструю GDDR5-память с эффективной частотой в 8 ГГц, что лишь чуть ниже 10 ГГц у применяемой в старшей модели GDDR5X. Учитывая еще и улучшенные алгоритмы дельта-сжатия, эффективная пропускная способность памяти графического процессора стала выше этого же параметра у аналогичной модели предыдущего поколения GeForce GTX 970.

GeForce GTX 1070 хороша тем, что предлагает очень высокую производительность и поддержку новых возможностей и алгоритмов при значительно меньшей цене, по сравнению со старшей моделью, анонсированной чуть ранее. Если приобретение GTX 1080 за 55 000 себе смогут позволить единицы энтузиастов, то выложить 35 000 за лишь на четверть менее производительное решение ровно с теми же возможностями сможет уже куда больший круг потенциальных покупателей. Именно сочетание сравнительно низкой цены и высокой производительности сделало GeForce GTX 1070, пожалуй, самым выгодным приобретением на момент ее выпуска.

Графический ускоритель GeForce GTX 1060

Параметр Значение
Кодовое имя чипа GP106
Технология производства 16 нм FinFET
Количество транзисторов 4,4 млрд.
Площадь ядра 200 мм²
Архитектура Унифицированная, с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX DirectX 12, с поддержкой уровня возможностей Feature Level 12_1
Шина памяти 192-битная: шесть независимых 32-битных контроллеров памяти с поддержкой GDDR5 памяти
Частота графического процессора 1506 (1708) МГц
Вычислительные блоки 10 потоковых мультипроцессоров, включающих 1280 скалярных ALU для расчетов с плавающей запятой в рамках стандарта IEEE 754-2008;
Блоки текстурирования 80 блоков текстурной адресации и фильтрации с поддержкой FP16- и FP32-компонент в текстурах и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
Блоки растровых операций (ROP) 6 широких блоков ROP (48 пикселей) с поддержкой различных режимов сглаживания, в том числе программируемых и при FP16- или FP32-формате буфера кадра. Блоки состоят из массива конфигурируемых ALU и отвечают за генерацию и сравнение глубины, мультисэмплинг и блендинг
Поддержка мониторов Интегрированная поддержка до четырех мониторов, подключенных по интерфейсам Dual Link DVI, HDMI 2.0b и DisplayPort 1.2 (1.3/1.4 Ready)

Спецификации референсной видеокарты GeForce GTX 1060
Параметр Значение
Частота ядра 1506 (1708) МГц
Количество универсальных процессоров 1280
Количество текстурных блоков 80
Количество блоков блендинга 48
Эффективная частота памяти 8000 (4×2000) МГц
Тип памяти GDDR5
Шина памяти 192-бит
Объем памяти 6 ГБ
Пропускная способность памяти 192 ГБ/с
Вычислительная производительность (FP32) около 4 терафлопс
Теоретическая максимальная скорость закраски 72 гигапикселя/с
Теоретическая скорость выборки текстур 121 гигатекселей/с
Шина PCI Express 3.0
Разъемы Один разъем Dual Link DVI, один HDMI и три DisplayPort
Типичное энергопотребление 120 Вт
Дополнительное питание Один 6-контактный разъем
Число слотов, занимаемых в системном корпусе 2
Рекомендуемая цена $249 ($299) в США и 18 990 в России

Видеокарта GeForce GTX 1060 также получила наименование, схожее с таким же решением из предыдущей серий GeForce, отличающееся от имени своего прямого предшественника GeForce GTX 960 лишь измененной первой цифрой поколения. Новинка стала в текущей линейке компании на шаг ниже вышедшего ранее решения GeForce GTX 1070, являющегося средним по скорости в новой серии.

Рекомендованные цены на новую видеоплату компании Nvidia составляют $249 и $299 для обычных версий партнеров компании и для специального издания Founder’s Edition соответственно. По сравнению с двумя старшими моделями это очень выгодная цена, так как новая модель GTX 1060 хоть и уступает топовым платам, но далеко не настолько, насколько она их дешевле. На момент анонса новинка совершенно точно стала лучшим по производительности решением в своем классе и одним из наиболее выгодных предложений в этом ценовом диапазоне.

Данная модель видеокарты семейства Pascal компании Nvidia вышла для противодействия свежему решению конкурирующей компании AMD, которая чуть ранее выпустила на рынок Radeon RX 480. Сравнивать новинку Nvidia с этой видеокартой можно, хотя и не совсем напрямую, так как они все же довольно ощутимо отличаются по цене. GeForce GTX 1060 дороже ($249-299 против $199-229), но и явно побыстрее конкурента.

Графический процессор GP106 имеет 192-битную шину памяти, поэтому объем установленной на видеокарту памяти с такой шиной может быть равен 3 или 6 ГБ. Меньшего значения в современных условиях откровенно недостаточно, и многие игровые проекты даже в Full HD-разрешении будут упираться в нехватку видеопамяти, что серьезно скажется на плавности рендеринга. Чтобы обеспечить максимальную производительность нового решения в условиях высоких настроек, модель видеокарты GeForce GTX 1060 была оснащена 6 ГБ видеопамяти, чего вполне хватит для запуска любых 3D-приложений с любыми настройками качества. Более того, на сегодня разницы между 6 и 8 ГБ просто нет, а немного денег такое решение сэкономит.

Значение типичного энергопотребления для новинки составляет 120 Вт, что меньше значения для GTX 1070 на 20% и равно потреблению энергии видеокартой предыдущего поколения GeForce GTX 960, имеющей куда меньшую производительность и возможности. Референсная плата имеет привычный набор разъемов для присоединения устройств вывода изображения: один Dual-Link DVI, один HDMI и три DisplayPort. Причем появилась поддержка новых версий HDMI и DisplayPort, о которой мы писали в обзоре модели GTX 1080.

Длина референсной платы GeForce GTX 1060 равна 9,8 дюйма (25 см), а из отличий от старших вариантов отдельно отметим то, что GeForce GTX 1060 не поддерживает конфигурацию многочипового рендеринга SLI, и не имеет специального разъема для этого. Так как плата потребляет меньше энергии, чем старшие модели, то для дополнительного питания на плату установили один 6-контактный разъем PCI-E внешнего питания.

Видеокарты GeForce GTX 1060 появились на рынке начиная со дня анонса в виде продукции партнеров компании: Asus, EVGA, Gainward, Gigabyte, Innovision 3D, MSI, Palit, Zotac. В ограниченном количестве будет выпущено и специальное издание GeForce GTX 1060 Founder’s Edition, произведенное самой компанией Nvidia, которое будет продаваться по цене $299 исключительно на сайте компании Nvidia и официально в России представлено не будет. Founder’s Edition отличается тем, что она изготовлена из высококачественных материалов и компонентов, включая алюминиевый корпус, и использует эффективную систему охлаждения, а также цепи питания с низким сопротивлением и регуляторами напряжения специального дизайна.

Архитектурные изменения

Видеокарта GeForce GTX 1060 основана на абсолютно новом графическом процессоре модели GP106, который функционально ничем не отличается от первенца архитектуры Pascal в виде чипа GP104, на котором основаны описанные выше модели GeForce GTX 1080 и GTX 1070. Эта архитектура взяла в основу решения, отработанные еще в Maxwell, но в ней есть и некоторые функциональные отличия, о которых мы подробно написали ранее.

Видеочип GP106 по своему устройству схож с топовым чипом Pascal и аналогичными решениями архитектуры Maxwell, и подробные данные об устройстве современных GPU вы можете найти в наших обзорах предыдущих решений компании Nvidia. Как и предыдущие графические процессоры, чипы новой архитектуры имеют разную конфигурацию вычислительных кластеров Graphics Processing Cluster (GPC), потоковых мультипроцессоров Streaming Multiprocessor (SM) и контроллеров памяти:

Графический процессор GP106 имеет в своем составе два кластера GPC, состоящие из 10 потоковых мультипроцессоров (Streaming Multiprocessor - SM), то есть ровно половину от имеющегося в GP104. Как и в старшем GPU, каждый из мультипроцессоров содержит по 128 вычислительных ядер, по 8 текстурных блоков TMU, по 256 КБ регистровой памяти, по 96 КБ общей памяти и по 48 КБ кэш-памяти первого уровня. В результате, GeForce GTX 1060 содержит в целом 1280 вычислительных ядер и 80 текстурных модулей - вдвое меньше, чем у GTX 1080.

А вот подсистема памяти GeForce GTX 1060 не была урезана вдвое относительно топового решения, она содержит шесть 32-битных контроллеров памяти, дающих итоговую 192-битную шину памяти. При эффективной частоте GDDR5-видеопамяти для GeForce GTX 1060, равной 8 ГГц, пропускная способность достигает 192 ГБ/с, что для решения такого ценового сегмента весьма неплохо, особенно с учетом высокой эффективности ее использования в Pascal. К каждому из контроллеров памяти привязаны восемь блоков ROP и 256 КБ кэш-памяти второго уровня, поэтому в целом полная версия графического процессора GP106 содержит 48 блоков ROP и 1536 КБ L2-кэша.

Для снижения требований к пропускной способности памяти и более эффективного использования имеющейся в архитектуре Pascal было дополнительно улучшено внутричиповое сжатие информации без потерь, которое способно сжимать данные в буферах, получая прирост в эффективности и производительности. В частности, в чипах нового семейства были добавлены новые методы дельта-сжатия с соотношением 4:1 и 8:1, обеспечивающие дополнительные 20% к эффективности ПСП по сравнению с предыдущими решениями семейства Maxwell.

Базовая частота нового GPU равна 1506 МГц - ниже этой отметки частота не должна опускаться в принципе. Типичная турбо-частота (Boost Clock) намного выше и равна 1708 МГц - это среднее значение реальной частоты, на которой работает графический чип GeForce GTX 1060 в большом наборе игр и 3D-приложений. Реальная Boost-частота зависит от игры и условий, в которых происходит тестирование.

Как и остальные решения семейства Pascal, модель GeForce GTX 1060 не просто работает на высокой тактовой частоте, обеспечивая высокую производительность, но имеет и приличный запас по возможности разгона. Первые опыты говорят о возможности достижения частот порядка 2 ГГц. Неудивительно, что партнеры компании готовят в том числе и фабрично разогнанные варианты видеокарты модели GTX 1060.

Итак, главным изменением новой архитектуры стал технологический процесс 16 нм FinFET, применение которого при производстве GP106 позволило значительно повысить сложность чипа при сохранении сравнительно невысокой площади в 200 мм², поэтому данный чип архитектуры Pascal имеет заметно большее количество исполнительных блоков по сравнению с чипом Maxwell похожего позиционирования, произведенным с применением техпроцесса 28 нм.

Если GM206 (GTX 960) с площадью в 227 мм² имел под 3 млрд. транзисторов и 1024 ALU, 64 TMU, 32 ROP и 128-битную шину, то новый GPU вместил в 200 мм² уже 4,4 млрд. транзисторов, 1280 ALU, 80 TMU и 48 ROP с 192-битной шиной. Да еще при почти в полтора раза более высокой частоте: 1506 (1708) против 1126 (1178) МГц. И это при одинаковом энергопотреблении в 120 Вт! В итоге, графический процессор GP106 стал одним из самых энергоэффективных графических процессоров, вместе с GP104.

Новые технологии Nvidia

Одной из самых интересных технологий компании, которая поддерживается GeForce GTX 1060 и другими решениями семейства Pascal, является технология Nvidia Simultaneous Multi-Projection . Мы уже писали об этой технологии в обзоре GeForce GTX 1080, она позволяет использовать несколько новых техник для оптимизации рендеринга. В частности - одновременно проецировать VR-изображение сразу для двух глаз, в разы повышая эффективность использования GPU в условиях виртуальной реальности.

Для поддержки SMP во всех графических процессорах семейства Pascal есть специальный движок, который находится в PolyMorph Engine в конце геометрического конвейера перед блоком растеризации. С его помощью GPU может одновременно проецировать геометрический примитив на несколько проекций из одной точки, при этом эти проекции могут быть стерео (т. е. поддерживается до 16 или 32 проекций одновременно). Эта возможность позволяет графическим процессорам Pascal точно воспроизводить искривленную поверхность для VR-рендеринга, а также корректно выводить изображение на многомониторные системы.

Важно, что технология Simultaneous Multi-Projection уже сейчас интегрируется в популярные игровые движки (Unreal Engine и Unity) и игры, и на сегодняшний день о поддержке технологии заявлено для более чем 30 игр, находящихся в разработке, включая такие известные проекты, как Unreal Tournament, Poolnation VR, Everest VR, Obduction, Adr1ft и Raw Data. Интересно, что хотя Unreal Tournament не является VR-игрой, но в ней SMP используется для достижения более качественной картинки и повышения производительности.

Еще одной долгожданной технологией стал мощный инструмент для создания скриншотов в играх Nvidia Ansel . Этот инструмент позволяет создавать необычные и очень качественные скриншоты из игр, с ранее недоступными возможностями, сохраняя их в очень высоком разрешении и дополняя различными эффектами, и делиться своими произведениями. Ansel позволяет буквально построить скриншот так, как этого хочет художник, разрешая установить камеру с любыми параметрами в любую точку сцены, наложить на изображение мощные постфильтры или даже сделать 360-градусный снимок для просмотра в шлеме виртуальной реальности.

Nvidia стандартизировала интеграцию пользовательского интерфейса Ansel в игры, и сделать это очень просто - достаточно добавить в код несколько строк. Ждать появления этой возможности в играх уже не нужно, оценить способности Ansel прямо сейчас можно в игре Mirror’s Edge: Catalyst, а чуть позже она станет доступна и в Witcher 3: Wild Hunt. Кроме этого, в разработке находятся множество игровых проектов с поддержкой Ansel, включая такие игры, как Fortnite, Paragon и Unreal Tournament, Obduction, The Witness, Lawbreakers, Tom Clancy’s The Division, No Man’s Sky и другие.

Также новый графический процессор GeForce GTX 1060 поддерживает пакет инструментов Nvidia VRWorks , помогающий разработчикам создавать впечатляющие проекты для виртуальной реальности. Этот пакет включает множество утилит и инструментов для разработчиков, в том числе и VRWorks Audio, позволяющий выполнять очень точный расчет отражений звуковых волн от объектов сцены при помощи трассировки лучей на GPU. Также пакет включает интеграцию в VR и физических эффектов PhysX, чтобы обеспечить физически корректное поведение объектов в сцене.

Одной из самых ярких виртуальных игр, получившей преимущество от VRWorks, стала VR Funhouse - игра в виртуальной реальности самой Nvidia, которая бесплатно доступна в сервисе Valve Steam. Эта игра основана на движке Unreal Engine 4 (Epic Games), и она работает на видеокартах GeForce GTX 1080, 1070 и 1060 в связке с VR-шлемами HTC Vive. Мало того, исходный код этой игры будет публично доступен, что позволит другим разработчикам использовать готовые идеи и код уже в своих VR-аттракционах. Поверьте нам на слово, это одна из самых впечатляющих демонстраций возможностей виртуальной реальности.

В том числе благодаря технологиям SMP и VRWorks, использование графического процессора GeForce GTX 1060 в VR-приложениях обеспечивает вполне достаточную для начального уровня виртуальной реальности производительность, и рассматриваемый GPU соответствует минимальному требуемому аппаратному уровню в том числе для SteamVR, становясь одним из наиболее удачных приобретений для использования в системах с официальной поддержкой VR.

Так как модель GeForce GTX 1060 основана на чипе GP106, который по возможностям ничем не уступает графическому процессору GP104, ставшему основой для старших модификаций, то она поддерживает абсолютно все технологии, описанные нами выше.

Видеокарта GeForce GTX 1060 стала третьей моделью в новой линейке компании Nvidia, основанной на графических процессорах семейства Pascal. Новый технологический процесс 16 нм FinFET и оптимизации архитектуры позволили всем новым видеокартам достичь высокой тактовой частоты и разместить в GPU большее количество функциональных блоков в виде потоковых процессоров, текстурных модулей и других, по сравнению с видеочипами предыдущего поколения. Именно поэтому модель GTX 1060 стала самым выгодным и энергоэффективным решением и в своем классе и вообще.

Особенно важно то, что GeForce GTX 1060 предлагает достаточно высокую производительность и поддержку новых возможностей и алгоритмов при значительно меньшей цене, по сравнению со старшими решениями на GP104. Графический чип GP106, использующийся в новой модели, обеспечивает лучшую в классе производительность и энергоэффективность. Модель GeForce GTX 1060 специально спроектирована и отлично подойдет для всех современных игр при высоких и максимальных графических настройках в разрешении 1920x1080 и даже с включенным полноэкранным сглаживанием различными методами (FXAA, MFAA или MSAA).

А для желающих получить еще более высокую производительность при наличии дисплеев со сверхвысоким разрешением, у Nvidia есть топовые модели видеокарт GeForce GTX 1070 и GTX 1080, которые также весьма хороши по производительности и энергоэффективности. И все же сочетание низкой цены и достаточной производительности весьма выгодно отличает GeForce GTX 1060 на фоне старших решений. По сравнению с конкурирующей Radeon RX 480, решение Nvidia несколько быстрее при меньшей сложности и площади GPU, и имеет значительно лучшую энергоэффективность. Правда, она продается несколько дороже, так что у каждой видеокарты есть собственная ниша.