Cerebras Inference a demonstrat o viteză de procesare excepțională, rulând modelul Llama 3.1 405B la 969 tokeni pe secundă. Aceasta este cu 75 de ori mai rapid decât cel mai performant serviciu AI de la Amazon Web Services, care utilizează GPU-uri. Cerebras folosește Wafer Scale Engines de generație a treia, având o capacitate de a genera răspunsuri instantanee, cu un timp de așteptare de doar 0.24 secunde pentru primul token. Comparativ cu soluțiile Nvidia, Cerebras a depășit performanțele acestora cu 12 ori, iar în testele de generare a codului, a realizat sarcini complexe în doar câteva secunde. Această tehnologie inovatoare subliniază avansul semnificativ în procesarea AI, stabilind noi standarde în industrie.
OpenAI a considerat achiziționarea Cerebras în 2017 pentru a diminua dependența de Nvidia, conform unor documente legale din procesul intentat de Elon Musk. Discuțiile, inițiate de Ilya Sutskever, cofondator OpenAI, sugerau că Tesla ar putea facilita achiziția, dar au fost abandonate din cauza conflictelor potențiale între misiunea nonprofit a OpenAI și obiectivele comerciale ale Tesla. În ciuda interesului liderilor OpenAI, inclusiv Musk și Greg Brockman, detaliile abandonării nu sunt clare. Cerebras, care dezvoltă procesoare AI, își pregătește acum IPO-ul, având o dependență mare de un singur client, G42 din Abu Dhabi. De asemenea, OpenAI a schimbat strategia hardware, colaborând cu Broadcom pentru a dezvolta procesoare proprii, cu lansare estimată în 2026, pentru a reduce costurile și dependența de Nvidia.