Вход на сайт

Облако тегов

АШ-YouTube

Cerebras ― процессор для ИИ невероятных размеров и возможностей

Аватар пользователя Fanatic

Анонс процессора Cerebras ― Cerebras Wafer Scale Engine (WSE) или движка Cerebras масштаба кремниевой пластины ― состоялсяв рамках ежегодной конференции Hot Chips 31. Глядя на этого кремниевого монстра удивляет даже не то, что его смогли выпустить воплоти. Удивляет смелость замысла и труд разработчиков, рискнувших разработать кристалл площадью 46 225 квадратных миллиметров со сторонами 21,5 см. На изготовление одного процессора уходит целая 300-мм пластина. При малейшей ошибке уровень брака составляет 100 %, а цену вопроса даже трудно представить.

Кристалл Cerebras в 56,7 раза больше самого крупного в мире графического процессора NVIDIA

Кристалл Cerebras в 56,7 раза больше самого крупного в мире графического процессора NVIDIA

Выпуском Cerebras WSE занимается компания TSMC. Техпроцесс ― 16 нмFinFET. Этот тайваньский производитель тоже заслужил памятник за выпуск Cerebras. Производство подобного чипа потребовало высшего мастерства и решения массы проблем, но оно того стоило, уверяют разработчики. Чип Cerebras ― это фактически суперкомпьютер на чипе с невероятной пропускной способностью, минимальным потреблением и фантастическим параллелизмом. В настоящий момент это идеальное решение для машинного обучения, которое позволит исследователям начать решать задачи чрезвычайной сложности.

AnandTech

Источник изображения ― AnandTech

Каждый кристалл Cerebras WSE содержит 1,2 трлн транзисторов, организованных в 400 000 ИИ-оптимизированных вычислительных ядер и 18 Гбайт локальной распределённой памяти SRAM. Всё это связано ячеистой сетью с общей производительностью 100 петабит в секунду. Пропускная способность памяти достигает 9 Пбайт/с. Иерархия памяти одноуровневая. Кеш-памяти нет, перекрытия нет, задержки обращения минимальные. Это идеальная архитектура для ускорения задач, связанных с ИИ. Голые цифры: в сравнении с самыми современными графическими ядрами чип Cerebras обеспечивает в 3000 раз больший объём памяти на кристалле и в 10 000 большую скорость обмена с памятью.

Источник изображения ― AnandTech

Источник изображения ― AnandTech

Вычислительные ядра Cerebras ― SLAC (Sparse Linear Algebra Cores) ― полностью программируемые и могут быть оптимизированы для работы с любыми нейронными сетями. Более того, архитектура ядер изначально фильтрует данные, представленные нулями. Это освобождает вычислительные ресурсы от необходимости проводить холостые операции умножения на ноль, что для нагрузки разрежёнными данными означает ускорение расчётов и предельную энергоэффективность. Тем самым процессор Cerebras оказывается в сотни или даже тысячи раз эффективнее для машинного обучения в терминах задействованной площади кристалла и его потребления, чем актуальные решения для ИИ и машинного обучения.

Индивидуальная сборка процессора (Источник изображения ― AnandTech)

Индивидуальная сборка процессора (Источник изображения ― AnandTech)

Изготовление чипа подобного размера потребовало массу уникальных решений. Его даже упаковывать в корпус пришлось едва ли не вручную. Возникли проблемы с подводом питания к кристаллу и его охлаждением. Отвод тепла стал возможен только жидкостью и лишь с организацией зональной подачи с вертикальной циркуляцией. Тем не менее, все проблемы были решены и чип вышел рабочим. Будет интересно узнать о его практическом применении.

Решение проблем охлаждения и подвода питания (Источник изображения ― AnandTech)

Решение проблем охлаждения и подвода питания (Источник изображения ― AnandTech)

Авторство: 
Копия чужих материалов
Фонд поддержки авторов AfterShock

Комментарии

Аватар пользователя Fanatic
Fanatic(5 лет 6 месяцев)(11:06:52 / 20-08-2019)

Военным такая игрушка не пригодится внутри любой машины - ибо ненадёжная.

Гуглу может пригодится для какого-нибудь мега решения по онлайн отслеживанию каждого гражданина.

Государственным органам такое также не нужно - им достаточно обычных ПК.

В космосе такая дура тоже не сможет жить - ибо ТЗЧ.

Единственное, куда это точно пригодится - на лету подделывать видео и звук.

Комментарий администрации:  
*** Уличен в предвыборной дезинформации ***
Аватар пользователя RusKaz
RusKaz(5 лет 5 месяцев)(12:28:18 / 20-08-2019)

Навскидку - прогноз погоды, моделирование ядерных взрывов, разные химические реакции, процессы горения в соплах реактивных или камерах сгорания турбореактивных двигателей, оптимизация профилей винтов, лопаток турбин, проектирование фазированных решеток радиолокаторов, оптимизация топологии печатных плат, в конце - концов проектирование топологии кристаллов микросхем и да, тот самый Большой Брат, очень рад новому кирпичику в здание с полностью стеклянными стенами(распознавание образов, почерков, речи, покупок, деятельности в интернете и много другого.

Аватар пользователя Системник
Системник(4 года 7 месяцев)(13:23:20 / 20-08-2019)

прогноз погоды, моделирование ядерных взрывов, разные химические реакции, процессы горения в соплах реактивных или камерах сгорания турбореактивных двигателей, оптимизация профилей винтов, лопаток турбин, проектирование фазированных решеток радиолокаторов, оптимизация топологии печатных плат, в конце - концов проектирование топологии кристаллов микросхем

Этот чип не для этого. Такие задачи он будет решать неэффективно.

Аватар пользователя kazakh
kazakh(1 год 7 месяцев)(16:17:14 / 20-08-2019)

Такие задачи он будет решать неэффективно.

почему?

Комментарий администрации:  
*** Уличен в гнилом жаргоне ***
Аватар пользователя Системник
Системник(4 года 7 месяцев)(16:35:53 / 20-08-2019)

Не та архитектура.

Аватар пользователя ascold
ascold(7 лет 7 месяцев)(17:15:32 / 20-08-2019)

Потому что это каждое его ядро умеет фактически только производить вычисления одного типа: операции с матрицами. Наверняка есть еще аппаратная реализация активационных функций (арктангенса, сигмоида, ступеньки Хэвисайда и еще не более десятка простых нелинейных функций), должна быть еще аппаратная реализация алгоритма обратного распространения ошибки и фишек современной парадигмы рекурсивных нейронов. И все! 

Этот процессор предназначен для единственной вещи: реализации deep learning (глубоких нейросетей). 

Реализовать какие-либо другие, отличные, от выше перечисленных алгоритмов на таком железе можно только сведя их к вышеперечисленным. Логику тоже никакую там не реализовать, если только опять таки не свести ее к вышеперечисленным операциям. Конечно, теоретически, это сделать можно.. Но это такое извращение, что все лгбтшники нервно курят в сторонке!

Аватар пользователя Simurg
Simurg(2 года 7 месяцев)(20:47:13 / 20-08-2019)

Ну, считают же сейчас нейросети на CUDA, правда? :)

"Доктор мой не лыком шит, он хитёр и осторожен: - Так ведь тут всегда возможен ход обратный, - говорит"(С)

Аватар пользователя ascold
ascold(7 лет 7 месяцев)(21:01:08 / 20-08-2019)

Сравнили! Графический конвеер состоит из куда более "умных" ядер. Шейдер может содержать вполне нормальные алгоритмические операции и логика там присутствует. А нейросетевой процессор это совсем не универсальная вычислительная система. Это как раз тот случай когда в одну сторону (т.е. на универсальных ядрах организовать перемножение матриц никаких проблем), а вот в обратную (т е. на нейросетевом процессоре запустить алгоритм с ветвлением и циклами) будет сильно затруднительно, затратно и не удобно. 

Вы GLSL или HLSL когда-нибудь видели? Кроме длинны представления плавучки, да проблем с эмуляцией целочисленной арифметики (и то только на особо старом железе) вполне заурядные процедурные языки.. А следовательно и возможности ядер GPU соответсвующие.

Как будет выглядеть эмуляция обыкновенной програмки с циклом и ветвлениями на нейросетевом процессоре подсказать? Проще интерфейс на Lisp_е или Prolog_е написать (при наличии у них графических библиотек, конечно). Брррр..

Аватар пользователя Simurg
Simurg(2 года 7 месяцев)(21:07:21 / 20-08-2019)

Судя по описанию, ядра алгоритмически полные - то есть, там можно делать всё, что можно делать на процессоре общего назначения. Вопрос скорости этого - отдельный вопрос. Но можно. Нормальные условные переходы, нормальная арифметика, всё это там есть.

Аватар пользователя ascold
ascold(7 лет 7 месяцев)(10:09:44 / 21-08-2019)

4000000 алгоритмически полных вычислительных ядер?! Очень сомнительно.. В презентации написать можно что угодно. Глянуть бы на спецификацию. Они сами пишут про 1.2 трл. транзисторов и 400000 ядер, 3 млн. транзисторов на ядро с учетом памяти и каналов связи.. Там таки на борту 18 гигов и море связей. 

 

 

Аватар пользователя Simurg
Simurg(2 года 7 месяцев)(11:28:18 / 21-08-2019)

Почему нет-то? Вполне приличный 32-битный 80486 без FPU и кэша занимал всего пару сотен тысяч транзисторов. А там уже и предсказания переходов были, и внепорядковое исполнение, НЯП. Не помню, сколько в Пентиуме, но без кешей точно меньше пары миллионов. Ещё показательнее ядра, созданные с нуля, под свою RISC-систему команд: см. поделия от КМ211 - Кролик, Кварк: они реально микроскопические.

Для простого (но полноценного) 32-бит RISC ядра, созданного с нуля для управления без претензий на максимальную производительность на такт на общем коде, вполне достаточно 100 тысяч вентилей. Ну будет там на общем коде по 2 такта на команду - кого это особо волнует? Для такой числомолки нужна производительность на потоковых MMAC, она и будет. 

Аватар пользователя дровосек
дровосек(6 лет 6 месяцев)(14:16:16 / 20-08-2019)

Не разработка фазированных решеток, а обработка данных с уже имеющихся. 

Вот где результаты будут ВПЕЧАТЛЯЮЩИЕ!

Аватар пользователя дровосек
дровосек(6 лет 6 месяцев)(14:18:28 / 20-08-2019)

Сюда же можно добавить соныры и лидары, разрешающая способность повысится на порядки.

Аватар пользователя Источник

Что сказать, уровень ваших познаний нужд перечисленных Вами организаций поражает. Поражает масштабами своей дикости. 

По теме. Очень серьзеное изделие. Если заявленные в первоисточнике харктеристики соответствуют действительности, то это реальный прорыв в вычислительных мощностях. Самое впечатляющее - это скорость фактическоего обмена даннными между памятью и вычислителем.

Аватар пользователя ctpo6
Аватар пользователя PersonaNonGrata
PersonaNonGrata(5 лет 6 месяцев)(15:42:08 / 20-08-2019)

[сарказм on] крипромайнинг же [сарказм off]

Аватар пользователя Gray
Gray(5 лет 2 месяца)(17:58:00 / 20-08-2019)

Оно не так работает. Эта штука обучает сети. Которые затем (обученные) могут быть перенесены куда угодно, в том числе в защищённый обычный чип, подходящий военным.

 

Но подход конечно радикальный... Очень интересная штука получилась. 

Аватар пользователя Trikon
Trikon(7 лет 5 месяцев)(11:54:37 / 20-08-2019)

Скайнет всё ближе.

А серьёзно думаю учёные с руками оторвут, для некоторых типов задач и без ИИ, проц великолепен.

Аватар пользователя дровосек
дровосек(6 лет 6 месяцев)(12:02:59 / 20-08-2019)

Обалдеть! Дайте две!

Аватар пользователя A Lex 07
A Lex 07(2 года 2 месяца)(12:22:57 / 20-08-2019)

а денег хватит?

Аватар пользователя WM
WM(4 года 1 месяц)(14:02:34 / 20-08-2019)

Ну, в руках-то чо не подержать...

Аватар пользователя дровосек
дровосек(6 лет 6 месяцев)(23:44:40 / 20-08-2019)

Конечно же нет laugh

Аватар пользователя Konstanrom
Konstanrom(1 год 2 месяца)(12:22:59 / 20-08-2019)

На рекламной картинке гордое

Largest Chip Ever Built

доставило.

 

Аватар пользователя Simurg
Simurg(2 года 7 месяцев)(14:07:51 / 20-08-2019)

? Это реально фантастическое достижение, потому что ВСЯ площадь чипа должна быть работоспособной одновременно (в отличие от мелких чипов на большой пластине, которые можно выкинуть без ущерба для остальных).

Триллион транзисторов на чип - это фантастика, ставшая реальностью.

Аватар пользователя ASh666
ASh666(4 года 11 месяцев)(16:10:40 / 20-08-2019)

напомнило анекдот про советские микросхемы

Аватар пользователя Key Z
Key Z(2 года 8 месяцев)(12:23:45 / 20-08-2019)

Странно говорить в терминах вычислительных ядер и паралеллизма, описывая нейросеть. Можно уточнить, что имелось ввиду?

Аватар пользователя Polaris
Polaris(3 года 9 месяцев)(13:16:31 / 20-08-2019)

Процессор может реализовать совокупность нейронов и связанной с ними памяти, а его взаимодействие с соседними процессорами создает сеть таких совокупностей.
Давно ожидаемое решение.

Аватар пользователя Key Z
Key Z(2 года 8 месяцев)(13:43:07 / 20-08-2019)

У нейросети нет процессора и памяти. Получается, это просто специализированный эмулятор нейросети. Ничего нового, кроме чудовищных размеров кристалла. Демонстрация технологических возможностей без оглядки на практическую пользу.

Аватар пользователя Polaris
Polaris(3 года 9 месяцев)(00:49:04 / 21-08-2019)

Это при простейших функциях у нейрона только сопоставление и немного памяти. Полноценная функциональность и связность позволяют существенно увеличить возможности нейросети.

Аватар пользователя OratorFree
OratorFree(4 года 5 месяцев)(13:39:56 / 20-08-2019)

Ничего странного. Нейросеть это операции с матрицами. Особенность операций с матрицами возможность параллельных расчетов. Поэтому для Deep Learning юзают GPU.  

Аватар пользователя Key Z
Key Z(2 года 8 месяцев)(13:45:14 / 20-08-2019)

Тогда это просто очередной цифровой эмулятор. Не прорыв, просто большой.

Аватар пользователя OratorFree
OratorFree(4 года 5 месяцев)(14:10:47 / 20-08-2019)

Не очень понял словосочетание "цифровой эмулятор" в данном контексте. Что он эмулирует?

Для параллельных вычислений нужен многоядерный процессор. Это он есть. Ему не нужно ничего эмулировать.

Чем больше ядер(процессоров), тем больше параллельных вычислений. Больше "нейронных входов" нейросети обрабатываемых за один цикл. Ускорение  обучения/распознавания[предсказания] . Первое разумеется важнее, поскольку тогда в "продакшине" можно буде реализовать то, что возможно было теоретически, но практически не реально было реализовать из-за невменяемых сроков обучения ИИ.  

Аватар пользователя Simurg
Simurg(2 года 7 месяцев)(14:14:35 / 20-08-2019)

Любая цифровая кремниевая нейросеть может быть названа эмулятором. Это абсолютно неважно, важно - что микросхема умеет делать и с какими затратами. 

Это именно прорыв, причём, одновременно

- и технологический (сделать чип такой площади - это фантастический уровень освоения техпроцесса, причём, не то чтоб грубого, 16нм).

- и архитектурный: статическая память на чипе, сверхвысокая скорость обмена, много эффективных, заточенных под нейросети ядер.

Эта штука (предполагая, что всё сделали правильно) в сотни раз эффективнее на нейрозадачах, чем процессоры общего назначения или даже видеокарты, пусть даже суммарно той же площади. Одна эта микросхема - в десятки раз лучше суперкомпа, который с собой возит беспилотник "Яндекса". 

Аватар пользователя Key Z
Key Z(2 года 8 месяцев)(14:27:41 / 20-08-2019)

Да, это я и имел ввиду. Это просто большой конечный автомат.

Аватар пользователя Simurg
Simurg(2 года 7 месяцев)(14:30:16 / 20-08-2019)

Как и любая нейросеть.

Аватар пользователя Homo 2.0
Homo 2.0(6 лет 4 месяца)(19:43:21 / 20-08-2019)

Вы невдупляете что означает термин "конечный автомат".

Аватар пользователя Key Z
Key Z(2 года 8 месяцев)(09:07:20 / 21-08-2019)

Просветите пожалуйста.

Аватар пользователя Er0p
Er0p(4 года 5 месяцев)(12:44:53 / 20-08-2019)

Не заметил про частоту, размер на высоких частотах совсем некстати будет.

Аватар пользователя Polaris
Polaris(3 года 9 месяцев)(13:12:58 / 20-08-2019)

Частота разменивается на параллельность.

Аватар пользователя OratorFree
OratorFree(4 года 5 месяцев)(14:17:27 / 20-08-2019)

Справедливости ради, надо сказать, что все должно быть в разумных пределах. Теоретическая производительность это частота умноженная на количество ядер. Если, например, увеличить число  ядер  в 40 раз, а частоту снизить в 10 раз, то как показывает нехитрый расчет производительность вырастет только в 4 раза. Тогда рост с 10 тыс. ядер до 400 тыс. не будет иметь никакого смысла.

Аватар пользователя Источник

Вы упускаете критически важный момент - скорость обмена данными между памятью и вычислителем. Расширение шины данных память-вычислитель вдвое, грубо, позволяет во столько же раз снизить тактовую скорость для производства одного и того же объема вычислений. Да, потребуется несколько более сложная логика, но зато нивелируется ограничение на протяженность внутричиповых линий связи при сохранении высокой вычислительной способности. 

Аватар пользователя Polaris
Polaris(3 года 9 месяцев)(00:50:29 / 21-08-2019)

Количество имеет свойство переходить в качество :)

Скрытый комментарий Simurg (без обсуждения)
Аватар пользователя Simurg
Simurg(2 года 7 месяцев)(14:23:22 / 20-08-2019)

Даже в менее массивных процессорах ядра уже давно работают "автономно" - асинхронно, без общей тактовой частоты и даже некоторые блоки внутри ядер работают асинхронно от остального проца. Тут - тысячи мелких ядер, так что почти 100%, что каждый работает сам, на высокой частоте, а через весь кристалл гуляют только некоторые данные для межядерного взаимодействия. Там частота заведомо ниже, чем в ядре... но уж точно выше, чем у кучи корпусированных чипов, соединённых через плату.

Аватар пользователя barbudos
barbudos(7 лет 5 месяцев)(13:07:42 / 20-08-2019)

А в чем преимущества монокристалла перед 57-ю кристаллами той же площади?

Аватар пользователя Polaris
Polaris(3 года 9 месяцев)(13:13:35 / 20-08-2019)

В межсоединениях.

Аватар пользователя barbudos
barbudos(7 лет 5 месяцев)(13:29:22 / 20-08-2019)

Скорость обмена данных?

Аватар пользователя Simurg
Simurg(2 года 7 месяцев)(14:16:15 / 20-08-2019)

Угу. Нет точек приварки, тонких проволочек, выводов, соединений на плате, всей вот этой лабуды, из-за которой приходится снижать частоту внешней шины и городить сложные протоколы на ней.

Аватар пользователя Психокартофель

ДБ. Могли встроить систему индексации неисправных процессоров, как на Байкале для космоса, - и брак бы исчез полностью. Да и живучесть этой системы была бы феноменальной))) 

Аватар пользователя Homo 2.0
Homo 2.0(6 лет 4 месяца)(13:29:50 / 20-08-2019)

Количество нейронов в мозге человека ~100 млн. А в коре (которая собственно и генерит интеллект ~10 млн. Т.е. если на эмуляцию нейрона расходовать 10-100 транзисторов, то чисто теоретически можно ожидать интеллект примерно как у челоаека, если 1000-10000, примерно как у собаки или кошки.

Вообще-то первая мысль, это сделать две такие нейросети, залить в них в наличии сражения мира и истории, и заставить их биться друг против друга в виртуале.

Вторая мысль, это в такие же две штуки залить все данные по планетарной экономики, и заставить их биться в виртуале.

Аватар пользователя дровосек
дровосек(6 лет 6 месяцев)(14:13:28 / 20-08-2019)

Опять эта идея фикс что количество транзисторов надо довести до количества нейронов и вот тогда получится ИИ.
Откуда она берётся?

Страницы

Лидеры обсуждений

за 4 часаза суткиза неделю

Лидеры просмотров

за неделюза месяцза год

СМИ

Загрузка...