Выпустив в сентябре 2009-го Radeon HD 5870, AMD начала новую главу в истории видеокарт. Тогда мы признали HD 5870 самой быстрой в мире, отдали ей медаль «Выбор редакции» и затаили дыхание в ожидании новых GeForce. Ждать пришлось долго: пока NVIDIA обнародовала скупые сведения о следующем поколении своих плат, AMD успела выпустить двойную Radeon HD 5970 и прочно обосноваться в нижнем и среднем ценовом сегментах.
Наконец в нашей тестовой лаборатории появились первые образцы NVIDIA GeForce GTX 4х0 — и сейчас мы готовы подробно рассказать, чем закончился бой GeForce GTX 480 с Radeon HD 5870 и HD 5970.
Архитектура процессора
Новые чипы NVIDIA устроены непросто. Недальновидные люди скажут, что NVIDIA просто взяла GPU GeForceGTX 285, впихнула в него три миллиарда транзисторов, в два раза увеличила число процессорных ядер и получила GF100 — процессор для GeForce GTX 4x0. На самом деле все куда сложнее. Да, сегодняшнее появление GF100 не сравнить с приходом G80 в 2006-м — революции не произошло, в основе GF100 лежит все та же архитектура потоковых процессоров, — но по сравнению с GT200 изменили очень много. Забегая вперед, скажем, что хотя Fermi и продвигался как суперпроцессор для работы с любыми вычислениями и поддержкой C++, но про игроков NVIDIA тоже не забыла.
Начнем с того, что в GF100 иначе скомпонованы ядра. Процессор GF100 разделен на четыре больших кластера под названием Graphics Processing Clusters. На каждый из них приходится по четыре блока SM (Streaming Multiprocessors, потоковые мультипроцессоры), на которые выделено по 32 CUDA-ядра — теперь так называют потоковые процессоры. В общей сложности на один GF100 приходится 512 CUDA-ядер против 240 на GT200. Чтобы избежать перегрева, на GF100 частоты CUDA-ядер снижены с 1476 до 1401 МГц.
Каждое из CUDA-ядер способно выполнять логические операции, операции с целыми числами и числами одинарной и двойной точности. Скорость обработки чисел двойной точности значительно выросла по сравнению с предыдущей архитектурой, GT200. Играм это не особо нужно, но благодаря этому графические процессоры NVIDIA приблизились по возможностям к центральным процессорам.Помимо CUDA-ядер, в состав SM-блока входят еще четыре компонента:
— ядра загрузки/выгрузки, на них рассчитываются адреса хранения нужной информации;
— четыре блока SFU (Special Function Units, исполнительные модули специальных функций), которые выполняют сложные математические операции: нахождение синуса, косинуса, извлечение корня;
— блоки текстурирования. В GT200 на три SM-набора приходилось восемь текстурных блоков, которые делились между SM-наборами по мере надобности. В GF100 каждый SM-набор получил четыре собственных текстурных блока. В целом блоков текстурирования стало меньше (64 на GF100 против 80 на GT200), но работают они гораздо эффективнее благодаря серьезной оптимизации архитектуры.
— самое главное — движок PolyMorph engine. Это целый блок для расчета тесселяции, главной гордости DirectX 11 (о том, что такое тесселяция, подробно рассказано в статье «AMD бьет первой» в «Игромании» №12/2009). PolyMorph engine работает параллельно с остальными системами, что серьезно ускоряет обработку графики. К примеру, PolyMorph engine получает порцию информации, обрабатывает ее и отсылает результат обратно на SM-блоки. В то время пока SM-блоки накладывают шейдеры на новые полигоны, PolyMorph engine уже обрабатывает следующий блок данных. Архитектура подсистемы памяти
Глобальные изменения претерпела архитектура кэш-памяти видеокарт. По традиции на каждом процессоре присутствует память для обмена данными между потоками вычислений, но есть и кэш первого уровня (L1-кэш) для ускорения обращений к глобальной памяти. Обе эти памяти делят между собой один блок статической памяти на кристалле (SRAM). Когда считается графика, L1-кэш особо не нужен (все вычисления стандартны), ему выдается всего 16 Кб. Оставшиеся 48 Кб идут под общую память, которая используется, например, для хранения геометрических данных при тесселляции. Когда же начинаются расчеты общего назначения, то все меняется с точностью до наоборот.
Еще сильнее модифицирована кэш-память второго уровня. Для ускорения работы GPGPU инженеры NVIDIA унифицировали L2-кэш, который теперь используется как при стандартном текстурировании, так и при операциях чтения/записи.Количество блоков растеризации увеличено в полтора раза — с 32 у GT200 до 48 у GF100. Увеличилась также эффективность обработки пикселей при использовании сглаживания (антиалиасинга); добавились новые режимы сглаживания, позволяющие использовать до 32 сэмплов на пиксель. Кроме того, в блоках растеризации подключили продвинутые режимы TMAA (Transparency Multisample Anti-Aliasing, сглаживание полупрозрачных текстур), благодаря чему оконные стекла, витрины, изгороди, стеклянные и пластиковые стаканы, столики и тому подобные объекты будут выглядеть гораздо реалистичнее.
Как это работает
Принцип работы GF100 следующий. От центрального процессора через особый интерфейс (Host Interface) приходит команда на расчет. Специальный блок вытаскивает нужные данные из основной памяти (1536 Мб GDDR5) и копирует их в буфер кадров, доступ к которому обеспечивают шесть контроллеров памяти по интерфейсу шириной 384 бита.
При обработке как графических, так и вычислительных задач (например, PhysX) важно обеспечить равномерную загрузку всех потоковых мультипроцессоров (SM) в чипе. За это отвечает двухуровневый планировщик потоков GigaThread engine: он формирует пакеты из 32 задач, распределяя их между потоковыми мультипроцессорами таким образом, чтобы нагрузка была максимально равномерной. На один SM-блок приходит по два таких пакета, которые потом отсылаются на расчет в CUDA-ядра или SFU.
Благодаря такой системе процессор не тратит время на сборы и сортировку потоков, ведь они приходят уже готовыми пакетами. К примеру, когда нужно обсчитать и PhysX, и графику, то необходимо быстро переключаться между этими двумя режимами. GigaThread engine позволяет переключаться с задержкой не больше 20 мкс, что почти в десять раз быстрее, чем на предыдущих архитектурах.
На заметку
Впервые за многие годы мы тестируем видеокарты NVIDIA с оглядкой на возможности флагманов AMD. И тут, надо сказать, паритет. У NVIDIA на руках такие козыри, как 3D Vision и доработанный PhysX, который научили экономить ресурсы графики и красиво прорисовывать воду (в одной из демонстраций обрабатывается до 120 000 частиц!). У AMD в запасе технология ATI Eyefinity, обеспечивающая работу на шести мониторах, и полная поддержка защищенных Blu-ray.
У NVIDIA есть технологии, похожие на Eyefinity. Уже давно существуют системы Quadro Plex, поддерживающие до восьми дисплеев, но они явно ориентированы не на массовую аудиторию, так как стоят сотни тысяч рублей. Более доступная технология — NVIDIA Surround — анонсирована в начале года: она позволяет подключить к компьютеру три монитора, но работает не с одной видеокартой, как Eyefinity, а с SLI-связкой.
С поддержкой Full HD на первый взгляд все в порядке. Еще на GeForce GT 220 установили новый движок ускорения декодирования VP4, который не только на отлично справляется с MPEG-1/2, H.264 и VC-1, но еще и поддерживает MPEG-4 ASP. Также видеокарты NVIDIA научились выводить звук через HDMI, чего раньше не наблюдалось. Но с проигрыванием некоторых лицензионных фильмов с закодированными дорожками все еще остались проблемы: платы NVIDIA, в отличие от карт AMD, не могут вывести звук на ресивер.
Устройство GeForce GTX 480 Видеокарты для первых тестов к нам приехали напрямую из NVIDIA, поэтому в этой статье мы рассказываем об эталонном образце со стандартной системой охлаждения.
GTX 480 на пару сантиметров короче Radeon HD 5870 (в Middle Tower влезают обе платы). Тут стоит необычная система охлаждения: вентилятор на заднем конце платы забирает холодный воздух из корпуса, прогоняет его по всей площади карты и выталкивает наружу через вентиляционное отверстие. Чтобы карта набирала как можно больше воздуха, в текстолите сделали сквозное отверстие под кулером, как на двойной GeForce GTX 295. Кожух турбины наполовину состоит из алюминиевого радиатора, охлаждающего сам процессор, GF100. На кристалл заходят пять теплопроводных трубок (четыре из которых даже выступают за пределы карточки), через них тепло отводится на два отдельных радиатора.
В отличие от Radeon HD 5870, на GTX 480 теплый воздух выдувается через полный отсек панели ввода/вывода, поэтому места для различных выходов остается мало. На референсной карте разместили всего два DVI и непривычный mini-HDMI, в то время как AMD к двум DVI добавляет DisplayPort и полноразмерный HDMI.
В остальном все достаточно стандартно. На правой стороне карточки расположены два контакта для соединения в SLI или 3-way SLI, две розетки для питания. Тепловой пакет порядочный — до 250 Вт против 188 Вт у Radeon HD 5870. Для питания GTX 480 требуется сразу две вилки — на 6-pin и 8-pin. Такие же требования, к слову, предъявляет двойная Radeon HD 5970.
А теперь немного о грустном — о технических характеристиках GTX 480. GF100 — самый большой и сложный графический процессор в мире, он очень сильно греется и потребляет немало энергии, поэтому NVIDIA пришлось немного его урезать. На старших GeForce GTX 480 недостает SM-блока — на нашей карте не 512, а 480 ядер CUDA. Остальные характеристики не пострадали.
Будет горячо
Для тестирования новой видеокарты мы собрали стенд на основе Intel Core i7-920. Процессор был установлен на материнскую плату MSI X58 Platinum, оснащенную тремя планками памяти Kingston HyperX DDR3-1666 по 2 Гб каждая. Управлялась система под Windows 7 Ultimate 64-bit. Бета-версии драйверов нам предоставила сама NVIDIA.
С новой карточкой NVIDIA соперничали два флагмана AMD — PowerColor Radeon HD 5870 и Sapphire Radeon HD 5970. Сравнивать их технические характеристики с GeForce GTX 4х0 мы не будем, строение конкурирующих видеокарт слишком разное. Говорить, например, о том, что 480 CUDA-ядер — это в три с лишним раза меньше, чем 1600 потоковых процессоров AMD Cypress, неправильно.
Если вам хочется прямого сравнения, изучите таблицы с техническими характеристиками — мы же переходим к тестированию.
Результаты тестов
Специально для этих тестов мы обновили наш стандартный набор бенчмарков, добавив к 3DMark Vantage, Devil May Cry 4, Resident Evil 5 и Crysis ряд тестов с поддержкой DirectX 11. Мы прогнали пару сцен Microsoft DirectX 11 SDK, подключили бенчмарк Unigine Heaven Benchmark 2.0, активно использующий все преимущества DirectX 11, и установили «Метро 2033» — красивую игру, которая поддерживает DX11 и очень уважает мощные компьютеры.
С настройками графики, естественно, мы тоже не мелочились. Все игры работали на максимуме возможностей: Crysis просчитывался с настройками VeryHigh, Devil May Cry 4 — с SuperHigh. При минимальном разрешении 1680х1050 анизотропная фильтрация была сразу выставлена на 16x, а антиалиасинг на 8x. Мало того, мы даже провели тесты с AA 16x — правда, из-за разных способов расчета и количества используемых сэмплов у AMD и NVIDIA эти режимы лучше не сравнивать в лоб: картинка и нагрузки слишком разные.Сначала мы запустили 3DMark Vantage. GeForce GTX 480 ему понравилась, в особенности поддержкой PhysX, и в общем зачете карта NVIDIA сильно обогнала Radeon HD 5870, но уступила Radeon HD 5970. По результатам графики 1600 потоковых процессоров на Cypress оказались эффективнее, и в столбце «GPU» у AMD появился отрыв минимум в 1000 единиц. Unigine Heaven Benchmark 2.0 по достоинству оценил движки PolyMorph engine, отвечающие за тесселяцию, и GeForce GTX 480 показала двукратное преимущество над Radeon HD 5870. То же можно сказать и про Microsoft DirectX 11 SDK: здесь GeForce GTX 480 ведет с сумасшедшим, более чем трехкратным преимуществом.
В первой же игре, Crysis, видеокарты AMD и NVIDIA буквально вцепились друг другу в горло. Там, где HD 5870 показывала 33,77 кадра в секунду, GTX 480 при поддержке 1,5 Гб видеопамяти и всей мощи ядер CUDA добавляла всего один кадр. Разрыв в 4-5 кадров появлялся только на высоких разрешениях, но даже это мизерное преимущество можно списывать на погрешность измерений.
Следующей на очереди была Resident Evil 5. Тут история повторилась: проиграв в низком разрешении 0,6 кадра, GTX 480 оторвалась сразу на 7 в более высоком. С Devil May Cry 4 у нас возникли технические сложности. В режиме DX10 тест не смог определить некоторые разрешения экрана, поэтому нам пришлось работать с версией DX9, а с карточками от AMD и вовсе ограничить себя разрешением 1920х1080 — режим 1680х1050 не определился. В итоге разница между GF100 и Cypress опять оказалась на уровне 7 fps.
Всухую GTX 480 победила HD 5870 только в «Метро 2033». В этой игре Radeon HD 5870 не смогла подняться выше 22 fps, в то время как GeForce GTX 480 со своим PolyMorph engine взяла высоту в 30 fps, превзойдя конкурента почти на 30%. Напоследок все игры у нас прошли проверку в режиме NVIDIA 3D Vision. К сожалению, мощности одной видеокарты для стереокартинки все еще не хватает — и тем, кто хочет играть в 3D с максимальными настройками, лучше подумать о SLI из двух GTX 480 (на следующей неделе на сайте появится тестирование Meijin Extreme SLI GTX 480).
После всех тестов мы провели отдельную проверку встроенных DX11 SDK-бенчмарков — все тесты, в которых используется тесселяция, на GTX 480 работали как минимум в два раза быстрее. Это значит, что с новыми технологиями платы NVIDIA справляются куда лучше, чем платы AMD, и вполне возможно, что в будущем в играх с DX11 «зеленые» видеокарты значительно оторвутся от «красных».
Конечно, тест вышел бы неполным, если бы мы не поставили на стенд двойную Radeon HD 5970. Она мигом сняла все вопросы о лидерстве: два чипа Cypress обогнали GF100 во всех тестах. Разгромного счета не получилось (к сожалению, в дело вмешался процессор Core i7-920, в который уперлась производительность системы), но дополнительные 80 fps в Devil May Cry 4, стабильный прирост в 13 fps в Crysis и убедительные 40 кадров в «Метро 2033» говорят сами за себя. Итоги сравнения
Новое поколение видеокарт NVIDIA оставило смешанные впечатления. Поддержка DirectX 11 у них организована куда лучше и эффективнее, чем у AMD. Все тесты с подключенной тесселяцией платы NVIDIA заканчивают с преимуществом в 30% и выше. Со старыми играми такого превосходства не получилось. В режиме DX9 и DX10 разрыв слишком маленький: разницу в 5-6 fps считать огромной как-то смешно.
В итоге сейчас преимущество у NVIDIA есть, но незначительное, мы ждали большего. У нас сложилось впечатление, что инженеры компании слишком много внимания уделили расчетам общего назначения. Только посмотрите на устройство графического процессора — перед нами же практически замена центральному кристаллу компьютера! Та же организация работы с памятью, перезаписываемый L2-кэш, большой L1-кэш, ускорение обработки чисел двойной точности — если бы NVIDIA захотела увеличить количество кадров в секунду, разрыв в тестах был бы более впечатляющим, но акценты смещены. Еще стоит вспомнить, что старшие GTX 480 не получили полной версии Fermi. Конечно, отрезанный блок SM — всего лишь 1/16 часть, оставшиеся 480 потоковых процессоров — это тоже очень много, но все равно неприятно.
Наконец, цена. NVIDIA рекомендует продавать GeForce GTX 480 за 18 999 рублей, однако в апреле мы видели ее за 20 500 рублей, и цена вряд ли быстро упадет ниже 20 000 рублей. Та же история была и с картами AMD, но за полгода продаж в России цена на Radeon HD 5870 упала с 18 000 до 12 000 рублей. Это на 8000 рублей дешевле GTX 480, притом что в игровых тестах HD 5870 отстает от силы на 5-6 кадров в секунду. А между тем снижаются цены на двойную Radeon HD 5970 — зимой она стоила порядка 28 000 рублей, сегодня ее отдают уже за 23 000 рублей.
Напоследок заметим лишь, что плата такого уровня покупается явно не на полгода — и NVIDIA утверждает, что видеокарты нового поколения выпускались именно с расчетом на будущее. * * *
Нет сомнений, что GF100 — самый быстрый графический процессор на планете. Да, GeForce GTX 480 объективно слабее Radeon HD 5970, но пока не так много игр могут загрузить что одну, что другую карту на полную мощность, поэтому при выборе новой платы лучше подумать о дополнительном функционале. Если вы хотите получить PhysX и 3D Vision и ждете чуда от игр с DirectX 11, то предпочтительнее взять GeForce GTX 480. Если требуется сэкономить и точно так же играть с любыми настройками и разрешениями сегодня, то лучше купить Radeon HD 5870.
|