Một vết nứt trong đế chế của Nvidia

2023-05-18 03:25:32

Nguồn: Viện dựa trên silicon

Tác giả: He Luheng/Boss Dai

Trong năm 2012, hai sự kiện lớn đã diễn ra trong giới AI, theo thứ tự thời gian, sự kiện đầu tiên là sự ra mắt của Google Brain, một nhóm lâu đời của Google, với tư cách là "tác phẩm đầu tay" - mạng học sâu "Google Cat " có thể nhận dạng mèo, với tỷ lệ nhận dạng 74,8%. Tỷ lệ chính xác cao hơn 0,8% so với 74% của thuật toán chiến thắng trong cuộc thi nhận dạng hình ảnh nổi tiếng ImageNet năm trước.

Nhưng những khoảnh khắc đỉnh cao của Google chỉ kéo dài vài tháng. Vào tháng 12 năm 2012, người chiến thắng ImageNet mới nhất đã được phát hành. Bậc thầy học sâu Hinton và các môn đệ của ông đã mang đến mạng thần kinh tích chập AlexNet, giúp nâng tỷ lệ nhận dạng chính xác lên 84%, từ đó bắt đầu cuộc cách mạng AI của thế hệ tiếp theo thập kỷ. Google Cat đã bị chôn vùi trong lớp bụi của lịch sử.

Hinton với hai học sinh, 2012

Không chỉ bản thân mô hình ImageNet gây sốc cho ngành. Mạng lưới thần kinh này, yêu cầu 14 triệu bức ảnh và tổng cộng 262 petaflop của phép tính dấu phẩy động, chỉ sử dụng bốn chiếc NVIDIA Geforce GTX 580 trong một tuần đào tạo. Để tham khảo, Google Cat đã sử dụng 10 triệu bức ảnh, 16.000 CPU và 1.000 máy tính [1] 。

Có tin đồn rằng Google cũng đã bí mật tham gia cuộc thi năm nay và cú sốc mà họ nhận được đã được phản ánh trực tiếp trong hành động tiếp theo: Google đã chi 44 triệu đô la để mua lại đội Hinton và ngay lập tức đặt hàng với Nvidia cho một số lượng lớn GPU cho trí tuệ nhân tạo, đào tạo, đồng thời “quét hàng” cũng là những gã khổng lồ như Microsoft, Facebook.

** Nvidia đã trở thành người chiến thắng lớn nhất và giá cổ phiếu của nó đã tăng tối đa 121 lần trong 10 năm tới. Một đế chế được sinh ra. **

Nhưng trên đế quốc, hai đám mây đen dần tụ lại. Google, công ty đã mua hàng hóa từ Nvidia vào thời điểm đó, đã có màn ra mắt ấn tượng với AlphaGo ba năm sau đó và đánh bại nhà vô địch loài người Ke Jie vào năm 2017. Những người tinh ý đã phát hiện ra rằng chip điều khiển AlphaGo không còn là GPU của Nvidia mà là chip TPU do Google tự phát triển.

Ba năm sau, kịch bản tương tự lặp lại. Tesla, từng được Huang Renxun coi là khách hàng chuẩn, cũng chia tay GPU Nvidia. Lần đầu tiên hãng tung ra chip xe FSD với NPU làm lõi, sau đó loại bỏ chip D1 được sử dụng để xây dựng các cụm đào tạo AI. Li đã mất hai trong số những khách hàng quan trọng nhất trong kỷ nguyên AI.

Đến năm 2022, chu kỳ CNTT toàn cầu sẽ bước vào giai đoạn đi xuống. Các công ty điện toán đám mây lớn sẽ lần lượt cắt giảm ngân sách mua sắm GPU cho các trung tâm dữ liệu. Làn sóng khai thác blockchain sẽ dần hạ nhiệt. Ngoài ra, lệnh cấm chip của Hoa Kỳ đối với Trung Quốc sẽ khiến không thể bán A100/H100 sang Trung Quốc Đối với card đồ họa cao cấp, hàng tồn kho của Nvidia tăng mạnh và giá cổ phiếu của hãng giảm 2/3 so với mức đỉnh.

Vào cuối năm 2022, ChatGPT ra đời và GPU, là nhiên liệu cho "thuật giả kim", lại bị cướp bóc. Thông tin đã đưa tin:** Microsoft, người khởi xướng làn sóng AI này, đang bí mật phát triển chip AI của riêng mình* [2] 。

Con chip có tên Athena này do TSMC sản xuất và sử dụng quy trình 5nm tiên tiến, số lượng đội ngũ R&D của Microsoft lên tới gần 300 người. Rõ ràng, mục tiêu của con chip này là thay thế A100/H100 đắt tiền, cung cấp một công cụ sức mạnh tính toán cho OpenAI và cuối cùng sẽ giành lấy miếng bánh của Nvidia thông qua dịch vụ đám mây Azure của Microsoft.

Microsoft hiện là khách hàng mua H100 của Nvidia nhiều nhất, thậm chí còn có tin đồn rằng hãng sẽ “bung” hết năng lực sản xuất cả năm của H100. Tín hiệu chia tay của Microsoft chắc chắn là một tia sét xanh Bạn phải biết rằng ngay cả khi Intel ở thời kỳ đen tối nhất, không một khách hàng nào của họ "dám" tự sản xuất chip CPU cho riêng mình (ngoại trừ Apple, hãng không bán ra bên ngoài) .

Mặc dù Nvidia hiện đang độc quyền 90% thị trường về sức mạnh điện toán AI với GPU+NVlink+CUDA, nhưng bản crack đầu tiên đã xuất hiện trong đế chế **. **

01, GPU không sinh ra cho AI

Ngay từ đầu, GPU đã không được tạo ra cho AI.

Tháng 10 năm 1999, Nvidia phát hành GeForce 256, chip xử lý đồ họa dựa trên quy trình 220nm của TSMC và tích hợp 23 triệu bóng bán dẫn. Nvidia đã trích xuất các chữ cái đầu "GPU" từ Bộ xử lý đồ họa và đặt tên cho GeForce 256 **"GPU đầu tiên trên thế giới" ngày nay.

Vào thời điểm này, trí tuệ nhân tạo đã im hơi lặng tiếng trong nhiều năm, đặc biệt là trong lĩnh vực mạng lưới thần kinh sâu, những người đoạt giải thưởng Turing tương lai như Geoffery Hinton và Yann LeCun vẫn đang ngồi trên ghế nhà trường và họ chưa bao giờ nghĩ đến sự nghiệp của mình. sẽ được thay đổi hoàn toàn bởi một GPU ban đầu được phát triển cho các game thủ.

GPU sinh ra để dành cho ai? hình ảnh. Chính xác hơn, nó được sinh ra để giải phóng CPU khỏi sự nặng nề của màn hình đồ họa. Nguyên tắc cơ bản của hiển thị hình ảnh là chia hình ảnh của từng khung thành các pixel riêng lẻ, sau đó thực hiện nhiều quy trình kết xuất như xử lý đỉnh, xử lý nguyên thủy, rasterization, xử lý phân đoạn, thao tác pixel, v.v., và cuối cùng hiển thị trên màn hình.

Nguồn quá trình xử lý từ pixel thành ảnh: graphics compendium

Tại sao bạn nói đây là công việc khó khăn? Làm một bài toán số học đơn giản:

Giả sử rằng có 300.000 pixel trên màn hình, được tính ở tốc độ khung hình 60 khung hình/giây, cần hoàn thành 18 triệu kết xuất mỗi giây, mỗi lần bao gồm năm bước trên, tương ứng với năm hướng dẫn, nghĩa là CPU cần phải hoàn thành 90 triệu lệnh mỗi giây để Nhận ra bản trình bày màn hình một giây.Để tham khảo, CPU hiệu năng cao nhất của Intel vào thời điểm đó chỉ có 60 triệu phép tính mỗi giây.

Không phải vì CPU yếu mà là do nó lập lịch luồng tốt nên có nhiều không gian hơn cho bộ điều khiển và bộ lưu trữ, và bộ máy tính dùng để tính toán chỉ chiếm 20% không gian. Ngược lại, GPU có hơn 80% không gian là đơn vị tính toán, mang lại khả năng tính toán siêu song song và phù hợp hơn cho công việc hiển thị hình ảnh bước cố định, lặp đi lặp lại và nhàm chán.

Cấu trúc bên trong của CPU và GPU, phần màu xanh lá cây là đơn vị tính toán

Mãi đến vài năm sau, một số học giả về trí tuệ nhân tạo mới nhận ra rằng GPU có những đặc điểm như vậy cũng phù hợp để đào tạo học sâu. Nhiều kiến trúc mạng nơ-ron sâu cổ điển đã được đề xuất ngay từ nửa sau thế kỷ 20, nhưng do thiếu phần cứng máy tính để đào tạo chúng nên nhiều nghiên cứu chỉ có thể là "trên giấy" và quá trình phát triển đã bị đình trệ trong một thời gian dài. thời gian.

Một phát súng vào tháng 10 năm 1999 đã đưa GPU đến với trí tuệ nhân tạo. Quá trình đào tạo của deep learning là thực hiện các thao tác phân cấp trên từng giá trị đầu vào theo chức năng và tham số của từng lớp của mạng thần kinh, cuối cùng thu được giá trị đầu ra, yêu cầu một số lượng lớn thao tác ma trận giống như kết xuất đồ họa-điều này tình cờ là thứ mà GPU giỏi nhất.

Một kiến trúc mạng thần kinh sâu điển hình; nguồn: hướng tới khoa học dữ liệu

Tuy nhiên, hình ảnh cho thấy mặc dù khối lượng xử lý dữ liệu rất lớn nhưng hầu hết các bước đều cố định, một khi deep neural network được áp dụng vào lĩnh vực ra quyết định, nó sẽ liên quan đến các tình huống phức tạp như cấu trúc nhánh, tham số của mỗi lớp cần được đào tạo dựa trên phản hồi tích cực và tiêu cực của dữ liệu lớn. Những khác biệt này đã tiềm ẩn những nguy cơ tiềm ẩn đối với khả năng thích ứng của GPU với AI trong tương lai.

Tổng giám đốc Amazon AI/ML ngày nay, Kumar Chellapilla là học giả đầu tiên ăn cua GPU. Năm 2006, lần đầu tiên anh sử dụng card đồ họa GeForce 7800 của Nvidia để triển khai mạng thần kinh tích chập (CNN) và nhận thấy rằng nó nhanh hơn 4 lần so với sử dụng CPU. Đây là nỗ lực sớm nhất được biết đến để sử dụng GPU cho deep learning [3] 。

Kumar Chellapilla và Nvidia Geforce 7800

Công việc của Kumar đã không thu hút được sự chú ý rộng rãi, chủ yếu là do lập trình dựa trên GPU có độ phức tạp cao. Nhưng đúng vào thời điểm này, Nvidia đã ra mắt nền tảng CUDA vào năm 2007, giúp giảm bớt rất nhiều khó khăn cho các nhà phát triển sử dụng GPU để đào tạo mạng lưới thần kinh sâu, khiến những tín đồ của deep learning có thêm hy vọng.

Sau đó vào năm 2009, Wu Enda của Stanford và những người khác đã xuất bản một bài báo đột phá [6] , GPU rút ngắn thời gian đào tạo AI từ hàng tuần xuống hàng giờ nhờ sức mạnh tính toán gấp hơn 70 lần so với CPU. Bài báo này chỉ ra con đường triển khai phần cứng của trí tuệ nhân tạo. GPU đã tăng tốc đáng kể quá trình AI từ giấy tờ thành hiện thực.

Andrew Ng (吴恩达)

Điều đáng nói là Wu Enda đã gia nhập Google Brain vào năm 2011 và là một trong những người lãnh đạo dự án Google Cat được đề cập ở phần đầu. Lý do cuối cùng khiến Google Brain không sử dụng được GPU thì người ngoài vẫn chưa biết, nhưng trước và sau khi Wu Enda rời Google để gia nhập Baidu, đã có tin đồn rằng đó là do thái độ của Google đối với GPU không rõ ràng.

** Sau vô số cuộc thăm dò của mọi người, dùi cui cuối cùng đã được trao cho bậc thầy học sâu Hinton, và thời gian đã chỉ đến năm 2012. **

Vào năm 2012, Hinton và hai sinh viên, Alex Krizhevsky và Ilya Sutskeverz, đã thiết kế một mạng thần kinh tích chập sâu, AlexNet, và dự định tham gia cuộc thi ImageNet năm nay. Nhưng vấn đề là có thể mất vài tháng để đào tạo AlexNet với CPU, vì vậy họ đã chuyển sự chú ý sang GPU.

GPU này, có ý nghĩa quyết định trong lịch sử phát triển của deep learning, chính là card đồ họa "bom hạt nhân" GTX 580 nổi tiếng. Là sản phẩm chủ lực của kiến trúc Fermi mới nhất của Nvidia, GTX 580 được nhồi nhét tới 512 nhân CUDA (108 ở thế hệ trước), trong khi sức mạnh tính toán nhảy vọt thì vấn đề tiêu thụ điện năng và tỏa nhiệt quá mức cũng khiến Nvidia bị mệnh danh là "Nhà máy sản xuất bom hạt nhân". “.

A là asen, B là mật ong. So với độ “mượt mà” khi luyện mạng thần kinh với GPU thì vấn đề tản nhiệt không có gì đáng nói. Đội Hinton đã hoàn thành xuất sắc phần lập trình với nền tảng CUDA của Nvidia, với sự hỗ trợ của 2 card đồ họa GTX 580, việc đào tạo 14 triệu bức ảnh chỉ diễn ra trong 1 tuần và AlexNet đã xuất sắc giành chức vô địch.

**Do ảnh hưởng của cuộc thi ImageNet và bản thân Hinton, tất cả các học giả về trí tuệ nhân tạo đã nhận ra tầm quan trọng của GPU ngay lập tức. **

Hai năm sau, Google đưa mô hình GoogLeNet tham gia ImageNet và giành chức vô địch với tỷ lệ chính xác là 93%, sử dụng GPU NVIDIA. Năm nay, số lượng GPU được sử dụng bởi tất cả các đội tham gia đã tăng vọt lên 110. Ngoài các cuộc thi, GPU đã trở thành "món tiêu thụ bắt buộc phải có" để học sâu, mang đến cho Huang Renxun một lượng đơn đặt hàng ổn định.

Điều này giúp Nvidia thoát khỏi cái bóng của sự thất bại trên thị trường di động, sau khi iPhone ra mắt vào năm 2007, miếng bánh chip điện thoại thông minh đã mở rộng nhanh chóng, Nvidia cũng cố gắng giành lấy một miếng bánh từ Samsung, Qualcomm và MediaTek.Sự cố tản nhiệt bị lỗi. Cuối cùng, chính lĩnh vực trí tuệ nhân tạo được GPU giải cứu đã mang lại cho Nvidia đường cong tăng trưởng thứ hai.

Nhưng xét cho cùng, GPU không phải sinh ra để huấn luyện mạng thần kinh, trí tuệ nhân tạo càng phát triển nhanh bao nhiêu thì những vấn đề này càng lộ ra bấy nhiêu.

Ví dụ, mặc dù GPU khác biệt đáng kể so với CPU, nhưng về cơ bản cả hai đều tuân theo cấu trúc von Neumann, bộ lưu trữ và hoạt động được tách biệt. Rốt cuộc, nút cổ chai hiệu quả do sự phân tách này mang lại, các bước xử lý hình ảnh tương đối cố định và có thể được giải quyết bằng nhiều thao tác song song hơn, nhưng nó rất nguy hiểm trong một mạng lưới thần kinh có nhiều cấu trúc nhánh.

Mỗi khi mạng thần kinh thêm một lớp hoặc một nhánh, nó cần tăng quyền truy cập bộ nhớ để lưu trữ dữ liệu để quay lui và thời gian dành cho việc này là không thể tránh khỏi. Đặc biệt là trong thời đại của các mô hình lớn, mô hình càng lớn thì càng cần thực hiện nhiều thao tác truy cập bộ nhớ hơn – năng lượng tiêu thụ khi truy cập bộ nhớ cao gấp nhiều lần so với điện toán.

Một sự tương tự đơn giản là GPU là một người đàn ông cơ bắp (với nhiều đơn vị tính toán), nhưng với mỗi lệnh nhận được, anh ta phải quay lại và xem hướng dẫn sử dụng (bộ nhớ).Cuối cùng, khi kích thước và độ phức tạp của mô hình tăng lên , người đàn ông Thời gian dành cho công việc thực sự rất hạn chế, thay vào đó, tôi chán ngấy việc lật giở các cuốn sách hướng dẫn đến sùi bọt mép.

Các vấn đề về bộ nhớ chỉ là một trong nhiều "sự khó chịu" của GPU trong các ứng dụng mạng thần kinh sâu. Nvidia đã nhận thức được những vấn đề này ngay từ đầu và nhanh chóng bắt tay vào "điều chỉnh kỳ diệu" GPU để phù hợp hơn với các kịch bản ứng dụng trí tuệ nhân tạo; và những người chơi AI tinh ý nhận ra ngọn lửa cũng đang lẻn vào, cố gắng sử dụng những khiếm khuyết của GPU để mở ra một góc đế chế của Huang Renxun.

** Một trận chiến tấn công và phòng thủ bắt đầu. **

02, trận chiến đen tối giữa Google và Nvidia

Đối mặt với nhu cầu quá lớn về sức mạnh điện toán AI và những khiếm khuyết bẩm sinh của GPU, Huang Renxun đã đưa ra hai bộ giải pháp song hành với nhau.

** Bộ đầu tiên là tiếp tục tích lũy sức mạnh tính toán một cách thô bạo theo con đường "nàng tiên tính toán có sức mạnh ma thuật vô biên". ** Trong thời đại mà nhu cầu về sức mạnh tính toán AI cứ sau 3,5 tháng lại tăng gấp đôi, sức mạnh tính toán là củ cà rốt treo trước mắt các công ty trí tuệ nhân tạo, khiến họ mắng mỏ Huang Renxun vì kỹ năng kiếm thuật siêu phàm của anh ta trong khi vồ lấy nó như một con chó Tất cả công suất của Nvidia.

**Nhiệm vụ thứ hai là dần dần giải quyết sự không phù hợp giữa GPU và các kịch bản trí tuệ nhân tạo thông qua "sự đổi mới cải tiến". **Những vấn đề này bao gồm nhưng không giới hạn ở mức tiêu thụ điện năng, tường bộ nhớ, tắc nghẽn băng thông, tính toán độ chính xác thấp, kết nối tốc độ cao, tối ưu hóa mô hình cụ thể... Kể từ năm 2012, Nvidia đột ngột tăng tốc độ cập nhật kiến trúc.

Sau khi Nvidia phát hành CUDA, nó đã sử dụng một kiến trúc hợp nhất để hỗ trợ hai kịch bản chính là Đồ họa và Điện toán. Kiến trúc thế hệ đầu tiên ra mắt vào năm 2007 và được đặt tên là Tesla, điều này không phải vì Huang Renxun muốn tỏ lòng ưu ái với Musk mà là để tỏ lòng kính trọng đối với nhà vật lý Nikola Tesla (thế hệ đầu tiên là kiến trúc Curie).

Kể từ đó, mỗi thế hệ kiến trúc GPU của NVIDIA đều được đặt theo tên của các nhà khoa học nổi tiếng, như thể hiện trong hình bên dưới. Trong mỗi lần lặp lại kiến trúc, Nvidia tiếp tục tăng cường sức mạnh tính toán, đồng thời cải thiện mà không "cắt đứt cơ bắp".

Ví dụ, kiến trúc Fermi thế hệ thứ hai năm 2011 có nhược điểm về tản nhiệt, trong khi kiến trúc thế hệ thứ ba Kepler năm 2012 đã chuyển ý tưởng thiết kế tổng thể từ hiệu năng cao sang tiết kiệm năng lượng để cải thiện khả năng tản nhiệt; và để giải quyết các vấn đề đã nói ở trên Đối với vấn đề "cơ bắp ngu ngốc", kiến trúc Maxwell thế hệ thứ tư vào năm 2014 đã bổ sung thêm nhiều mạch điều khiển logic bên trong để tạo điều kiện điều khiển chính xác.

Để thích ứng với bối cảnh AI, GPU được "sửa đổi thần kỳ" của Nvidia ngày càng trở nên giống CPU ở một mức độ nào đó - giống như khả năng lập lịch xuất sắc của CPU phải trả giá bằng sức mạnh tính toán, Nvidia phải tự kiềm chế xếp chồng các lõi máy tính. Tuy nhiên, dù bạn có thay đổi GPU như thế nào với gánh nặng về tính linh hoạt, sẽ khó có thể sánh được với chip chuyên dụng trong kịch bản AI.

** Người đầu tiên tấn công Nvidia là Google, công ty đầu tiên mua GPU trên quy mô lớn cho điện toán AI. **

Sau khi khoe cơ bắp với GoogLeNet vào năm 2014, Google không còn tham gia công khai vào cuộc thi nhận dạng máy nữa và âm mưu phát triển chip dành riêng cho AI. Năm 2016, Google dẫn đầu với AlphaGo, sau khi thắng Li Shishi, hãng này ngay lập tức tung ra chip TPU AI do mình tự phát triển, khiến Nvidia phải bất ngờ với kiến trúc mới "sinh ra là dành cho AI".

TPU là từ viết tắt của Đơn vị xử lý kéo căng và tên tiếng Trung là "đơn vị xử lý kéo căng". Nếu như cuộc "cải cách thần kỳ" của Nvidia đối với GPU là phá bỏ bức tường phía đông để bù đắp cho bức tường phía tây, thì TPU về cơ bản là giảm nhu cầu lưu trữ và kết nối, đồng thời chuyển không gian chip đến mức tối đa cho phép tính toán. .Cụ thể hai Đại nghĩa là:

**Đầu tiên là công nghệ định lượng. **Các phép tính trên máy tính hiện đại thường sử dụng dữ liệu có độ chính xác cao, chiếm nhiều bộ nhớ, nhưng trên thực tế, hầu hết các phép tính của mạng thần kinh không yêu cầu độ chính xác để đạt được các phép tính dấu chấm động 32-bit hoặc 16-bit. công nghệ về cơ bản là kết hợp các số 32-bit/16-bit gần đúng với số nguyên 8-bit, duy trì độ chính xác phù hợp và giảm yêu cầu lưu trữ.

Mảng thứ hai là mảng tâm thu, là mảng nhân ma trận, đây là một trong những điểm khác biệt quan trọng nhất giữa TPU và GPU. Nói một cách đơn giản, hoạt động của mạng nơ-ron yêu cầu một số lượng lớn hoạt động của ma trận, GPU chỉ có thể phân tách các phép tính ma trận thành nhiều phép tính véc tơ từng bước, mỗi khi hoàn thành một nhóm, nó cần truy cập bộ nhớ và lưu kết quả của lớp này cho đến khi tất cả các phép tính véc tơ được hoàn thành. , sau đó kết hợp kết quả của từng lớp để thu được giá trị đầu ra.

Trong TPU, hàng nghìn đơn vị tính toán được kết nối trực tiếp để tạo thành một mảng nhân ma trận. Là lõi tính toán, các phép tính ma trận có thể được thực hiện trực tiếp. Ngoại trừ việc tải dữ liệu và chức năng ngay từ đầu, không cần phải truy cập vào các đơn vị lưu trữ, mà làm giảm đáng kể quyền truy cập.Tần số tăng tốc đáng kể tốc độ tính toán của TPU, đồng thời mức tiêu thụ năng lượng và chiếm dụng không gian vật lý cũng giảm đáng kể.

So sánh thời gian truy cập CPU, GPU, bộ nhớ TPU (bộ nhớ)

TPU của Google rất nhanh và chỉ mất 15 tháng từ thiết kế, xác minh, sản xuất hàng loạt đến triển khai cuối cùng vào trung tâm dữ liệu của riêng mình. Sau khi thử nghiệm, hiệu suất và mức tiêu thụ điện năng của TPU trong CNN, LSTM, MLP và các tình huống AI khác vượt trội hơn rất nhiều so với GPU của Nvidia trong cùng thời gian. **Tất cả áp lực dồn lên Nvidia cùng một lúc. **

Bị một khách hàng lớn đâm sau lưng là điều không thoải mái, nhưng Nvidia sẽ không đứng yên và bị đánh bại, và một cuộc giằng co đã bắt đầu.

Năm tháng sau khi Google ra mắt TPU, Nvidia cũng giới thiệu kiến trúc Pascal của quy trình 16nm. Một mặt, kiến trúc mới giới thiệu công nghệ kết nối hai chiều tốc độ cao NVLink nổi tiếng, giúp cải thiện đáng kể băng thông kết nối; mặt khác, nó bắt chước công nghệ lượng tử hóa của TPU và cải thiện hiệu quả tính toán của mạng thần kinh bằng cách giảm độ chính xác của dữ liệu.

Vào năm 2017, Nvidia đã ra mắt Volta, kiến trúc đầu tiên được thiết kế dành riêng cho học sâu, lần đầu tiên giới thiệu TensorCore, được sử dụng đặc biệt cho các hoạt động ma trận - mặc dù mảng nhân 4×4 giống như mảng xung TPU 256×256 . Tỷ lệ hơi tồi tàn, nhưng nó cũng là một sự thỏa hiệp được thực hiện trên cơ sở duy trì tính linh hoạt và tính linh hoạt.

Hoạt động ma trận 4x4 do TensorCore triển khai trong Nvidia V100

Giám đốc điều hành NVIDIA tuyên bố với khách hàng: ** "Volta không phải là bản nâng cấp của Pascal, mà là một kiến trúc hoàn toàn mới."**

Google cũng chạy đua với thời gian, sau năm 2016, TPU đã được cập nhật 3 thế hệ trong vòng 5 năm, hãng ra mắt TPUv2 vào năm 2017, TPUv3 vào năm 2018 và TPUv4 vào năm 2021, đồng thời đưa dữ liệu lên mặt Nvidia. [4] : **TPU v4 nhanh hơn 1,2-1,7 lần so với A100 của Nvidia, đồng thời giảm mức tiêu thụ điện năng 1,3-1,9 lần. **

Google không bán chip TPU cho thế giới bên ngoài, đồng thời tiếp tục mua GPU của Nvidia với số lượng lớn, điều này khiến cuộc cạnh tranh chip AI giữa hai bên chỉ ở trong "chiến tranh lạnh" chứ không phải là "cạnh tranh công khai". Nhưng xét cho cùng, Google triển khai TPU trong hệ thống dịch vụ đám mây của riêng mình để cung cấp dịch vụ sức mạnh điện toán AI cho thế giới bên ngoài, điều này chắc chắn sẽ làm giảm thị trường tiềm năng của Nvidia.

Giám đốc điều hành Google Sundar Picha trình diễn TPU v4

Trong khi cả hai đang "chiến đấu trong bóng tối" thì tiến bộ trong lĩnh vực trí tuệ nhân tạo cũng đang có những bước tiến thần tốc. Vào năm 2017, Google đã đề xuất mẫu Transformer mang tính cách mạng và OpenAI sau đó đã phát triển GPT-1 dựa trên Transformer. AlexNet vào năm 2012. .

Sau khi nhận ra xu hướng mới, Nvidia đã ra mắt kiến trúc Hopper vào năm 2022, lần đầu tiên giới thiệu công cụ tăng tốc Transformer ở cấp độ phần cứng, tuyên bố rằng nó có thể tăng thời gian đào tạo mô hình ngôn ngữ lớn dựa trên Transformer lên 9 lần. Dựa trên kiến trúc Hopper, Nvidia đã tung ra "GPU bề mặt mạnh nhất" - H100.

H100 là "quái vật khâu" cuối cùng của Nvidia, một mặt giới thiệu nhiều công nghệ tối ưu hóa AI như lượng tử hóa, tính toán ma trận (Tensor Core 4.0) và công cụ tăng tốc Transformer, mặt khác hội tụ đầy đủ các thế mạnh truyền thống của Nvidia. chẳng hạn như 7296 CUDA Core, 80GB bộ nhớ HBM2 và công nghệ kết nối NVLink 4.0 lên đến 900GB/s.

Cầm H100 trên tay, Nvidia tạm thở phào nhẹ nhõm khi trên thị trường không có con chip sản xuất hàng loạt nào tốt hơn H100.

Cuộc chơi bập bênh bí mật của Google và Nvidia cũng là một thành tựu chung: Nvidia đã nhập khẩu rất nhiều công nghệ đổi mới từ Google và nghiên cứu tiên tiến của Google về trí tuệ nhân tạo cũng được hưởng lợi hoàn toàn từ sự đổi mới của GPU Nvidia. được giảm xuống mức có thể được sử dụng bởi một mô hình ngôn ngữ lớn "kiễng chân". Những người đang ở dưới ánh đèn sân khấu, chẳng hạn như OpenAI, cũng đang đứng trên vai của hai người này.

Nhưng cảm xúc thuộc về cảm xúc, và kinh doanh thuộc về kinh doanh. Cuộc chiến tấn công và phòng thủ xung quanh GPU đã khiến ngành công nghiệp chắc chắn hơn về một điều: **GPU không phải là giải pháp tối ưu cho AI và các ASIC tùy chỉnh có khả năng phá vỡ thế độc quyền của Nvidia. **Các vết nứt đã được mở và Google sẽ không phải là người duy nhất chạy theo thị hiếu.

**Đặc biệt sức mạnh tính toán đã trở thành nhu cầu chắc chắn nhất trong kỷ nguyên AGI, và ai cũng muốn ngồi cùng bàn với NVIDIA khi ăn uống. **

03, vết nứt đang mở rộng

Ngoài OpenAI, trong đợt bùng nổ AI này còn có hai công ty vượt trội, một là công ty vẽ AI Midjourney, khả năng điều khiển các phong cách vẽ khác nhau khiến vô số nghệ sĩ dựa trên carbon phải khiếp sợ; là Authropic, người sáng lập đến từ OpenAI.Robot đối thoại Claude chơi đi chơi lại với ChatGPT.

**Nhưng cả hai công ty này đều không mua GPU Nvidia để xây dựng siêu máy tính mà sử dụng các dịch vụ điện toán của Google. **

Để đáp ứng sự bùng nổ của sức mạnh tính toán AI, Google đã chế tạo một siêu máy tính (TPU v4 Pod) với 4096 TPU. , Các mô hình ngôn ngữ lớn như MUM và PaLM cũng có thể cung cấp dịch vụ giá rẻ và chất lượng cao cho các công ty khởi nghiệp AI.

GoogleTPU v4 Pod siêu máy tính

Ngoài ra còn có Tesla, người tự chế tạo siêu máy tính. Sau khi ra mắt chip FSD gắn trên xe, Tesla đã trình diễn với thế giới bên ngoài siêu máy tính Dojo ExaPOD được chế tạo với 3.000 chip D1 của riêng mình vào tháng 8 năm 2021. Trong số đó, chip D1 do TSMC sản xuất, sử dụng công nghệ 7nm và 3.000 chip D1 trực tiếp đưa Dojo trở thành máy tính có sức mạnh tính toán lớn thứ năm trên thế giới.

**Tuy nhiên, sự kết hợp của cả hai không thể so sánh với tác động do chip Athena do Microsoft tự phát triển mang lại. **

Microsoft là một trong những khách hàng lớn nhất của Nvidia, dịch vụ đám mây Azure của riêng họ đã mua ít nhất hàng chục nghìn GPU cao cấp A100 và H100, SwiftKey và các sản phẩm sử dụng AI khác.

Sau khi tính toán cẩn thận, "thuế Nvidia" mà Microsoft phải trả là một con số khổng lồ và các con chip tự phát triển gần như không thể tránh khỏi. Giống như Ali đã tính toán nhu cầu về điện toán đám mây, cơ sở dữ liệu và lưu trữ trong tương lai của Taobao Tmall và nhận thấy rằng đó là một con số khổng lồ, vì vậy nó đã quyết định bắt đầu hỗ trợ Alibaba Cloud và phát động một chiến dịch "khử IOE" mạnh mẽ trong nội bộ.

** Tiết kiệm chi phí là một khía cạnh, liên kết dọc để tạo sự khác biệt lại là khía cạnh khác. **Trong thời đại của điện thoại di động, CPU (AP), bộ nhớ và màn hình của điện thoại di động Samsung đều được tự sản xuất và bán ra, góp công lớn vào vị thế bá chủ Android toàn cầu của Samsung. Nhà sản xuất cốt lõi của Google và Microsoft cũng thực hiện tối ưu hóa cấp độ chip cho các dịch vụ đám mây của riêng họ để tạo ra sự khác biệt.

Do đó, không giống như Apple và Samsung, không bán chip cho thế giới bên ngoài, mặc dù chip AI của Google và Microsoft sẽ không được bán cho thế giới bên ngoài, nhưng họ sẽ tiêu hóa một số khách hàng tiềm năng của Nvidia thông qua “dịch vụ đám mây điện toán AI”. và Authropic là những ví dụ, ngày càng có nhiều công ty nhỏ (đặc biệt ở tầng ứng dụng AI) lựa chọn dịch vụ đám mây.

**Thị trường điện toán đám mây toàn cầu có mức độ tập trung rất cao, năm nhà sản xuất hàng đầu (Amazon AWS, Microsoft Azure, Google Cloud, Alibaba Cloud và IBM) chiếm hơn 60% và họ đều đang sản xuất chip AI của riêng mình. Trong số đó, Google đang đạt được tiến bộ nhanh nhất, IBM có nguồn dự trữ mạnh nhất, Microsoft có tác động lớn nhất, Amazon có bí mật tốt nhất và Ali gặp nhiều khó khăn nhất. **

Các nhà sản xuất lớn trong nước phát triển chip của riêng họ và cái kết của Oppo Zheku sẽ phủ bóng đen lên mọi cầu thủ bước vào sân. Tuy nhiên, các công ty lớn ở nước ngoài tự nghiên cứu và chuỗi cung ứng nhân tài và công nghệ có thể được xây dựng bằng vốn, ví dụ như khi Tesla tham gia vào FSD, họ đã tuyển dụng Jim Keller của Thung lũng Silicon, và Google đã phát triển TPU và mời trực tiếp Turing, người đoạt giải thưởng, nhà phát minh kiến trúc RISC Giáo sư David Patterson.

Ngoài các nhà sản xuất lớn, một số công ty vừa và nhỏ cũng đang cố gắng giành lấy miếng bánh của Nvidia, chẳng hạn như Graphcore từng có mức định giá 2,8 tỷ đô la Mỹ và Cambrian nội địa cũng thuộc loại này. Bảng dưới đây liệt kê các công ty thiết kế chip AI khởi nghiệp nổi tiếng hơn trên thế giới.

Khó khăn đối với các công ty khởi nghiệp chip AI là nếu không có sự đầu tư liên tục của các công ty lớn có tiềm lực tài chính mạnh, họ không thể tự sản xuất và tự bán như Google, trừ khi con đường kỹ thuật là duy nhất hoặc lợi thế đặc biệt mạnh mẽ, về cơ bản là không có cơ hội chiến thắng khi chiến đấu với Nvidia.Những lợi thế về chi phí và sinh thái của Nvidia gần như có thể xoa dịu mọi nghi ngờ của khách hàng.

** Tác động của công ty khởi nghiệp đối với Nvidia còn hạn chế và nỗi lo lắng tiềm ẩn của Huang Renxun vẫn là những khách hàng lớn không trung thực. **

Tất nhiên, các nhà sản xuất lớn vẫn không thể tách rời Nvidia. Chẳng hạn, TPU của Google dù đã được cập nhật lên thế hệ thứ 4 nhưng vẫn cần mua GPU với số lượng lớn để cung cấp sức mạnh tính toán kết hợp với TPU; hãy chọn mua 10.000 GPU từ NVIDIA.

Tuy nhiên, Huang Renxun đã trải qua tình bạn nhựa của các nhà sản xuất lớn ở Musk. Năm 2018, Musk tuyên bố công khai rằng ông sẽ phát triển chip xe hơi của riêng mình (DRIVE PX của Nvidia đã được sử dụng vào thời điểm đó). trong khi. Sau đó, Musk đưa ra lời "thanh minh" nhưng 1 năm sau Tesla vẫn rời Nvidia không ngoảnh lại [5] 。

Các nhà máy lớn chưa bao giờ tỏ ra khoan dung trong việc tiết kiệm chi phí. Mặc dù chip của Intel được bán cho B-end trong kỷ nguyên PC, nhưng người tiêu dùng có nhiều quyền tự chủ lựa chọn và các nhà sản xuất cần quảng cáo "Intel Inside"; nhưng trong kỷ nguyên điện toán đám mây, những gã khổng lồ có thể chặn tất cả thông tin phần cứng cơ bản và họ cũng sẽ mua trong tương lai Với sức mạnh tính toán 100TFlops, người tiêu dùng có thể biết phần nào đến từ TPU và phần nào đến từ GPU không?

Vì vậy, Nvidia cuối cùng phải đứng trước câu hỏi: **GPU đúng là không sinh ra để dành cho AI, nhưng liệu GPU có phải là giải pháp tối ưu cho AI? **

Trong 17 năm qua, Huang Renxun đã tách GPU khỏi cảnh xử lý hình ảnh và trò chơi đơn lẻ, biến nó thành một công cụ sức mạnh điện toán đa năng. Các kịch bản mới tiếp tục "sửa đổi một cách kỳ diệu" GPU, cố gắng tìm sự cân bằng giữa "tính tổng " và "đặc hiệu".

Trong hai thập kỷ qua, Nvidia đã giới thiệu vô số công nghệ mới làm thay đổi ngành công nghiệp: nền tảng CUDA, TensorCore, RT Core (dò tia), NVLink, nền tảng cuLitho (in thạch bản điện toán), độ chính xác hỗn hợp, Omniverse, động cơ Transformer ... Những các công nghệ đã giúp Nvidia từ một công ty sản xuất chip hạng hai trở thành cổ tay Nanbo về giá trị thị trường của toàn ngành, điều này không gây cảm hứng.

Nhưng một thế hệ nên có một kiến trúc điện toán của một thời đại. Sự phát triển của trí tuệ nhân tạo đang tiến nhanh như vũ bão, và những đột phá về công nghệ được tính bằng giờ. Nếu bạn muốn AI thâm nhập vào đời sống con người như khi PC/smartphone trở nên phổ biến, thì sức mạnh tính toán Chi phí có thể cần giảm 99% và GPU thực sự có thể không phải là câu trả lời duy nhất.

**Lịch sử cho chúng ta biết rằng một đế chế dù thịnh vượng đến đâu cũng phải cẩn thận với vết nứt không rõ ràng đó. **

Người giới thiệu

[1] Phân loại ImageNet với Mạng thần kinh tích chập sâu, Hinton

[2] Microsoft sẵn sàng chip AI khi chi phí học máy tăng cao, thông tin

[3] Mạng thần kinh chuyển đổi hiệu suất cao để xử lý tài liệu

[4] Cloud TPU v4 của Google cung cấp ML quy mô exaFLOPS với hiệu quả hàng đầu trong ngành

[5] Tham vọng AI của Tesla, Viện nghiên cứu Tokawa

[6] Học không giám sát sâu quy mô lớn sử dụng bộ xử lý đồ họa

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
1/3
1Gate ETH Staking APY 5%
15467 Phổ biến
2Show My Alpha Points
34407 Phổ biến
3SOL Futures Reach New High
17750 Phổ biến
4ETH ETF Sees 12 Weeks of Inflows
5726 Phổ biến
5Crypto Market Rebound
171905 Phổ biến

Ghim

sơ đồ trang web