Tips Berguna

Jaringan untuk superkomputer

Pin
Send
Share
Send
Send


Komputasi terdistribusi adalah salah satu cara untuk berkontribusi pada beberapa proyek menarik. Saat komputer Anda diam, bagikan daya dengan proyek SETI, yang mencari peradaban luar angkasa. Dalam hal ini, komputer Anda akan menganalisis data dan informasi satelit yang diterima dari teleskop.

Artikel ini akan membantu Anda bergabung dengan proyek (seperti SETI) yang melibatkan komputasi terdistribusi. Artikel ini juga memperkenalkan Anda ke BOINC, perangkat lunak komputasi terdistribusi.

Anda membutuhkan komputer. Jika Anda sudah memilikinya, buka bagian Sumber dan Tautan dan instal perangkat lunak BOINC. Jika Anda tidak tertarik dengan proyek SETI, di bawah ini Anda akan menemukan daftar proyek lainnya.

Kalau banyak uang

Secara terpisah, kami mencatat jajaran prosesor yang sangat mahal, tetapi produktif pada soket Intel Xeon LGA1567.
Prosesor teratas dalam seri ini adalah E7-8870 dengan sepuluh inti 2,4 GHz. Harganya $ 4616. Untuk CPU seperti itu, HP dan Supermicro sedang dirilis! delapan prosesor! sasis server. Delapan 10-core Xeon E7-8870 prosesor 2,4 GHz dengan dukungan HyperThreading 8 * 10 * 2 = 160 utas, yang ditampilkan dalam Windows Task Manager sebagai seratus enam puluh grafik pemuatan prosesor, matriks 10x16.

Agar delapan prosesor sesuai dengan kasus ini, mereka tidak langsung ditempatkan pada motherboard, tetapi pada papan terpisah yang menempel pada motherboard. Foto menunjukkan empat motherboard dengan prosesor yang dipasang di motherboard (masing-masing dua). Ini adalah solusi Supermicro. Dalam solusi HP, setiap prosesor memiliki papannya sendiri. Biaya solusi HP adalah dua hingga tiga juta, tergantung pada jumlah prosesor, memori, dan banyak lagi. Sasis Supermicro berharga $ 10.000, yang lebih menarik. Selain itu, Supermicro dapat menempatkan empat kartu ekspansi coprocessor di port PCI-Express x16 (ngomong-ngomong, masih ada ruang untuk adaptor Infiniband untuk merakit sekelompok ini), tetapi hanya dua di HP. Jadi, untuk membuat superkomputer, platform delapan prosesor dari Supermicro lebih menarik. Foto berikut dari pameran menunjukkan superkomputer lengkap dengan empat papan GPU.

Namun, itu sangat mahal.

Jaringan komunikasi

Efektivitas superkomputer dalam banyak aplikasi sangat ditentukan oleh profil bekerja dengan memori dan jaringan. Profil bekerja dengan memori biasanya dijelaskan oleh lokalisasi spasial-temporal panggilan - oleh ukuran panggilan dan sebaran alamat mereka, dan profil bekerja dengan jaringan dijelaskan oleh distribusi node dengan pesan yang dipertukarkan, nilai tukar dan ukuran pesan.

Kinerja superkomputer pada tugas-tugas dengan pertukaran data intensif antara node (masalah pemodelan, masalah pada grafik dan grid tidak teratur, perhitungan menggunakan matriks jarang) terutama ditentukan oleh kinerja jaringan, sehingga penggunaan solusi komersial konvensional (misalnya, Gigabit Ethernet) sangat tidak efisien. Namun, jaringan nyata selalu merupakan solusi kompromi, dalam pengembangan yang prioritasnya ditetapkan antara harga, kinerja, konsumsi energi dan persyaratan lain yang sebagian besar saling bertentangan: upaya untuk meningkatkan satu karakteristik dapat menyebabkan penurunan yang lain.

Jaringan komunikasi terdiri dari node, yang masing-masingnya memiliki adapter jaringan yang terhubung ke satu atau lebih router, yang pada gilirannya saling terhubung oleh saluran komunikasi berkecepatan tinggi (tautan).

Fig. 1. Topologi 4D-torus (3x3x3x3)

Struktur jaringan, yang menentukan bagaimana tepatnya simpul-simpul sistem saling berhubungan, ditentukan oleh topologi jaringan (biasanya kisi, torus atau pohon tebal) dan seperangkat parameter struktural: jumlah pengukuran, jumlah tingkat pohon, dimensi sisi torus, jumlah sakelar pada tingkat pohon, jumlah simpul jaringan di tingkat pohon, jumlah simpul jaringan port pada router, dll. Gambar 1 menunjukkan contoh topologi torus empat dimensi 3x3x3x3.

Arsitektur router menentukan struktur dan fungsionalitas blok yang bertanggung jawab untuk transfer data antara node jaringan, serta properti yang diperlukan dari protokol saluran, jaringan, dan lapisan transport, termasuk routing, arbitrase, dan algoritma kontrol aliran data. Arsitektur adapter jaringan menentukan struktur dan fungsi blok yang bertanggung jawab untuk interaksi antara prosesor, memori dan jaringan, khususnya, operasi MPI didukung pada tingkat ini, RDMA (Remote Direct Memory Access - akses langsung ke memori node lain tanpa partisipasi prosesornya), konfirmasi penerimaan oleh simpul lain dari paket, penanganan situasi luar biasa, agregasi paket.

Untuk menilai kinerja jaringan komunikasi, tiga karakteristik yang paling sering digunakan: bandwidth (jumlah data yang ditransfer per unit waktu), keterlambatan komunikasi (waktu transfer data melalui jaringan), kecepatan pesan (biasanya, mereka secara terpisah mempertimbangkan tingkat pengiriman saat mengirim, menerima dan mengirimkan paket antara unit internal router).

Untuk kelengkapan, karakteristik ini diukur pada berbagai jenis lalu lintas, misalnya, ketika satu node mengirim data ke yang lain, atau, sebaliknya, semua node mengirim data ke satu, atau ketika semua node mengirim data ke tujuan acak. Persyaratan fungsionalitas dikenakan pada jaringan modern:

  • implementasi yang efektif dari perpustakaan Shmem, sebagai opsi untuk mendukung model komunikasi satu arah, dan GASNet, yang menjadi dasar implementasi banyak bahasa PGAS,
  • implementasi MPI yang efisien (biasanya ini membutuhkan dukungan efektif dari mekanisme penyangga cincin dan ucapan terima kasih untuk paket yang diterima),
  • dukungan efektif untuk operasi kolektif: penyiaran (mengirim data yang sama secara bersamaan ke banyak node), reduksi (menerapkan operasi biner, misalnya penambahan, ke set nilai yang diterima dari node yang berbeda), mendistribusikan elemen array ke set node (sebar), merakit array elemen, terletak di node yang berbeda (berkumpul),
  • dukungan efektif untuk operasi sinkronisasi antar-simpul (setidaknya sinkronisasi penghalang), interaksi efektif dengan jaringan sejumlah besar proses pada sebuah node, dan memastikan pengiriman paket yang andal.

Dukungan efektif dari adaptor bekerja dengan memori host secara langsung tanpa keterlibatan prosesor juga penting.

Jaringan berkecepatan tinggi asing

Semua jaringan komunikasi dapat dibagi menjadi dua kelas: komersial dan kebiasaan, dikembangkan sebagai bagian dari sistem komputer dan hanya tersedia dengan mereka. Di antara jaringan komersial, pasar dibagi antara InfiniBand dan Ethernet - dalam daftar Top500 (Juni 2011), 42% sistem menggunakan InfiniBand dan 45% menggunakan Gigabit Ethernet. Pada saat yang sama, jika InfiniBand berfokus pada segmen sistem berkinerja tinggi yang dirancang untuk tugas komputasi yang kompleks dengan sejumlah besar komunikasi, maka Ethernet secara tradisional menempati ceruk di mana pertukaran data antara node tidak kritis. Dalam superkomputer, jaringan Ethernet, karena biaya rendah dan ketersediaannya, sering digunakan sebagai jaringan layanan tambahan untuk mengurangi gangguan lalu lintas kontrol dan lalu lintas tugas.

Jaringan Inifiniband pada awalnya difokuskan pada konfigurasi dengan topologi Fat tree, tetapi versi terbaru dari switch dan router (terutama diproduksi oleh QLogic) mendukung topologi torid multidimensi (menggunakan Toring-2QoS Routing Engine), serta topologi hibrida dari torus 3D dan pohon gendut. Superkomputer Sandia RedSky, dirakit pada awal 2010 dan sekarang berada di posisi ke-16 di Top500, adalah salah satu proyek skala besar pertama dengan jaringan InfiniBand dan topologi 3D torus (6x6x8). Juga, banyak perhatian sekarang diberikan pada dukungan efektif dari operasi RDMA dan perpustakaan Shmem (khususnya, Shmem Qlogic).

Popularitas InfiniBand adalah karena biaya yang relatif rendah, ekosistem perangkat lunak yang dikembangkan dan dukungan efektif untuk MPI. Namun, InfiniBand memiliki kelemahan: tingkat pengiriman pesan yang rendah (40 juta pesan per detik dalam solusi terbaru dari Mellanox), efisiensi transmisi paket pendek yang rendah, penundaan yang relatif besar (lebih dari 1,5 μs untuk transmisi node-to-node dan tambahan 0,1- 0,5 μs per node transit), dukungan lemah untuk topologi toroidal. Secara umum, dapat dikatakan bahwa InfiniBand adalah produk untuk pengguna massal, dan selama pengembangannya dibuat kompromi antara efisiensi dan fleksibilitas.

Kita juga dapat mencatat jaringan Extoll, yang sedang dipersiapkan untuk diluncurkan di pasar - pengembangan Universitas Heidelberg di bawah kepemimpinan Profesor Ulrich Bruening. Penekanan utama dalam pengembangan jaringan ini adalah untuk meminimalkan keterlambatan dan meningkatkan laju pengiriman dalam komunikasi satu arah. Direncanakan bahwa Extoll akan memiliki topologi torus 3D dan menggunakan tautan optik dengan bandwidth 10 Gb / s per lane (saluran transmisi data serial di dalam tautan) dan lebar 12 jalur per tautan. Sekarang ada prototipe jaringan Extoll pada FPGA: R1 - berdasarkan Virtex4, R2 Ventoux - tata letak dua simpul berdasarkan Virtex6. Bandwidth satu arah per tautan adalah 600 MB / s (untuk R1). Dua antarmuka (HyperTransport 3.0 dan PCI Express gen3) dengan prosesor juga akan didukung, yang akan memungkinkan pengintegrasian jaringan ini ke dalam platform Intel dan AMD. Extoll mendukung beberapa cara untuk mengatur rekaman satu arah, MMU-nya sendiri (Memory Management Unit, blok terjemahan alamat virtual ke alamat fisik) dan operasi atom.

Tidak seperti jaringan komersial, jaringan kustom menempati pangsa pasar yang jauh lebih kecil, namun mereka digunakan dalam superkomputer paling kuat dari Cray, IBM, SGI, Fujitsu, NEC dan Bull. Saat mendesain jaringan khusus, pengembang memiliki lebih banyak kebebasan dan mencoba menggunakan pendekatan yang lebih progresif karena rendahnya daya tarik pasar dari produk akhir, terutama memecahkan masalah mendapatkan kinerja maksimum pada kelas tugas tertentu.

Superkomputer K Computer menggunakan jaringan komunikasi Tofu (TOrus FUsion) yang dipatenkan, yang merupakan torus 3D yang dapat diskalakan yang node-nya berisi grup-grup 12 node (grup-grup node dihubungkan oleh 12 jaringan dengan torus 3D, dan setiap node dari grup ini memiliki output sendiri. Jaringan torus 3D). Node dalam masing-masing kelompok saling berhubungan oleh torus 3D dengan sisi 2x3x4 tanpa duplikat tautan, yang setara dengan torus 2D dengan sisi 3x4 (jadi kami mendapatkan torus 5D dengan dua dimensi tetap). Dengan demikian, simpul jaringan Tofu memiliki 10 tautan dengan throughput satu arah masing-masing 40 Gb / s. Sinkronisasi penghalang node dan reduksi (integer dan floating point) didukung dalam perangkat keras.

Tujuan utama dalam pengembangan superkomputer Tianhe-1A adalah untuk mencapai efisiensi energi yang tinggi, untuk mengembangkan prosesor dan jaringan mereka sendiri yang lebih unggul dari InfiniBand QDR. Superkomputer ini terdiri dari 7168 node komputasi yang terhubung oleh jaringan Arch dengan desain sendiri dengan topologi pohon yang tebal. Jaringan ini dibangun dari router 16-port, bandwidth tautan satu arah - 8 GB / s, tunda - 1,57 μs. Operasi RDMA didukung dan operasi kolektif dioptimalkan.

Perwakilan klasik dari sistem yang menggunakan topologi toroidal untuk menggabungkan node komputasi adalah sistem untuk seri IBM Blue Gene, dalam dua generasi pertama - Blue Gene / L (2004) dan Blue Gene / P (2007) - menggunakan topologi torus 3D. Jaringan di Blue Gene / P memiliki tautan yang relatif lemah dengan bandwidth satu sisi sebesar 0,425 GB / s, yang merupakan urutan besarnya lebih rendah dari bandwidth tautan InfiniBand QDR kontemporer, namun, dukungan berbasis perangkat keras untuk sinkronisasi penghalang dan operasi kolektif (pada jaringan mirip pohon) memungkinkan skalabilitas yang baik pada aplikasi nyata. Selain itu, semua antarmuka dan unit perutean terintegrasi ke dalam mikroprosesor BPC (Blue Gene / P Chip), yang secara signifikan mengurangi keterlambatan pengiriman pesan. Jaringan komunikasi generasi berikutnya Blue Gene / Q memiliki topologi 5D-tor, dan tidak seperti pendahulunya, Blue Gene / Q tidak memiliki jaringan terpisah untuk sinkronisasi penghalang dan operasi kolektif. Chip Blue Gene / Q untuk pertama kalinya menjadi multi-core-multi-thread - empat utas perangkat keras per inti dengan 16 core, yang memungkinkan melemahnya persyaratan jaringan dan memastikan toleransi keterlambatan. Throughput tautan telah ditingkatkan menjadi 2 GB / s, tetapi masih kecil dibandingkan dengan Cray Gemini atau Extoll. Throughput rendah dalam sistem ini diratakan oleh dimensi besar torus (sejumlah besar tautan) dan, sebagai akibatnya, oleh diameter kecil jaringan (secara signifikan lebih kecil dari jaringan dengan topologi torus 3D dengan jumlah node yang sama). Sumber yang tersedia melaporkan pembuatan dua superkomputer Transgenaflops Blue Gene / Q: Sequoia dengan kinerja 20 PFLOPS dan Mira - 10 PFLOPS. Kita dapat menyimpulkan bahwa Blue Gene / Q berfokus pada tugas-tugas yang akan menggunakan puluhan dan ratusan ribu node komputasi dengan lalu lintas jaringan tipe "semua untuk semua".

Penganut lain dari pendekatan untuk membangun jaringan komunikasi dengan topologi toroidal adalah Cray, yang terus menggunakan topologi 3D, sambil meningkatkan throughput dan jumlah tautan yang menghubungkan node-node tetangga. Generasi saat ini dari jaringan toroidal Cray adalah jaringan Cray Gemini. Satu router Gemini sesuai dengan dua router dari generasi SeaStar2 + sebelumnya, yaitu, sebenarnya untuk dua node jaringan, oleh karena itu dalam Gemini bukannya 6 link 10 digunakan untuk terhubung ke node tetangga (2 melayani untuk menghubungkan dua adapter satu sama lain).

Komponen (adapter jaringan, sakelar, router) jaringan untuk superkomputer, tidak seperti prosesor, seringkali lebih mahal, dan akses ke sana lebih terbatas. Misalnya, sekarang sakelar untuk jaringan InfiniBand, yang merupakan jaringan komersial utama untuk superkomputer, diproduksi oleh hanya dua perusahaan, yang keduanya dikendalikan oleh Amerika Serikat. Ini berarti bahwa dengan tidak adanya perkembangan mereka sendiri di bidang jaringan berkecepatan tinggi, penciptaan superkomputer modern di negara mana pun kecuali AS, Cina atau Jepang dapat dengan mudah dikendalikan.

Jaringan domestik

Pengembangan jaringan komunikasi untuk digunakan dalam superkomputer dilakukan oleh sejumlah organisasi domestik: RFNC VNIIEF (ada sangat sedikit informasi tentang perkembangan ini dalam sumber terbuka), Institut Sistem Perangkat Lunak dari Akademi Ilmu Pengetahuan Rusia dan RSK SKIF, RAS IPM dan Research Institute Kvant (jaringan MVS-Express) ").

Jaringan komunikasi 3D untuk superkomputer Rusia-Italia SKIF-Aurora sepenuhnya dibangun menggunakan Altera Stratix IV FPGA, yang menjelaskan bandwidth per link agak kecil - 1,25 GB / s (sumber daya FPGA sangat terbatas).

Dalam jaringan MVS-Express, PCI Express 2.0 digunakan untuk mengintegrasikan node komputasi, dan node terhubung melalui switch 24-port. Jaringan ini memiliki topologi yang dekat dengan Fat tree. Adaptor jaringan di node komputasi memiliki satu port dengan lebar 4 lajur, sebagai akibatnya throughput puncak satu arah per link adalah 20 Gbit / detik tanpa memperhitungkan overhead pengkodean. Keuntungan menggunakan PCI Express di MVS-Express adalah dukungan efisien dari memori bersama dengan kemungkinan komunikasi satu arah. Akibatnya, jaringan nyaman untuk mengimplementasikan perpustakaan Shmem dan bahasa PGAS (UPC, CAF).

Dengan dukungan dari Kementerian Perindustrian dan Perdagangan Federasi Rusia, NICEVT OJSC bekerja pada pengembangan jaringan komunikasi Angara dengan topologi 4D-tor, yang dapat menjadi dasar untuk menciptakan teknologi dalam negeri untuk pengembangan superkomputer.

Jaringan "Angara"

Tujuan utama pengembangan jaringan Angara:

  • dukungan efektif untuk komunikasi satu arah (put / get) dan bahasa PGAS (sebagai sarana utama pemrograman paralel),
  • Dukungan MPI yang efektif
  • rilis kristal sendiri (untuk mencapai kecepatan transfer data tinggi dan penundaan rendah),
  • transmisi paket gagal-aman adaptif,
  • kerja efektif dengan prosesor dan chipset modern.

Pada tahap pertama pengembangan jaringan ini (2006), simulasi berbagai opsi jaringan dilakukan dan keputusan utama dibuat pada topologi, arsitektur router, algoritma routing dan arbitrasi. Selain topologi toroidal, jaringan Cayley dan "pohon tebal" juga dipertimbangkan. Torus empat dimensi dipilih karena peruteannya yang lebih sederhana, skalabilitas yang baik, dan konektivitas tinggi dibandingkan dengan tori yang lebih kecil. Pemodelan jaringan memungkinkan untuk mempelajari secara rinci pengaruh berbagai parameter arsitektur jaringan pada karakteristik kinerja utama, untuk memahami pola lalu lintas tugas dengan akses intensif yang tidak teratur ke memori. Akibatnya, ukuran buffer optimal, jumlah saluran virtual dipilih, dan kemacetan potensial dianalisis.

Pada tahun 2008, prototipe pertama dari sebuah router FPGA muncul - tata letak jaringan enam node pada Virtex4 terhubung ke torus 2x3, di mana fungsi dasar dari router itu di-debug, transmisi data toleran-kesalahan berhasil, driver dan perpustakaan tingkat rendah ditulis dan di-debug, perpustakaan Shmem diangkut dan MPI Sekarang meluncurkan tata letak generasi ketiga, yang terdiri dari sembilan simpul yang terhubung dalam torus dua dimensi 3x3. Собран стенд с двумя узлами для тестирования новых разъемов и каналов передачи данных, предполагаемых к использованию с будущими кристаллами маршрутизатора ВКС. При разработке принципов работы сети ряд деталей был позаимствован из работ и , а также в том или ином виде из архитектур IBM Blue Gene и Cray SeaStar.

Сеть «Ангара» имеет топологию 4D-тор. Поддерживается детерминированная маршрутизация, сохраняющая порядок передачи пакетов и предотвращающая появление дедлоков (взаимных блокировок), а также адаптивная маршрутизация, позволяющая одновременно использовать множество путей между узлами и обходить перегруженные и вышедшие из строя участки сети. Perhatian khusus diberikan untuk mendukung operasi kolektif (penyiaran dan reduksi) yang diimplementasikan menggunakan subnet virtual yang memiliki topologi pohon yang ditumpangkan pada torus multidimensi. Jaringan pada tingkat perangkat keras mendukung dua jenis penulisan jarak jauh, membaca, dan operasi atom (penambahan dan eksklusif ATAU). Skema eksekusi membaca jarak jauh (mengirim permintaan dan menerima tanggapan) ditunjukkan pada Gambar. 2 (rekaman jarak jauh dan operasi atom dilakukan dengan cara yang sama). Dalam blok terpisah, logika diimplementasikan untuk mengumpulkan pesan yang diterima dari jaringan untuk meningkatkan pangsa data yang berguna per transaksi saat mentransmisikan melalui antarmuka dengan host (host adalah jembatan prosesor-memori-jembatan).

Fig. 2. Skema pembacaan jarak jauh di jaringan Angara

Pada lapisan data link, transmisi paket gagal-aman didukung. Ada juga mekanisme untuk mem-bypass saluran komunikasi dan node yang gagal dengan membangun kembali tabel routing. Untuk melakukan berbagai operasi layanan (khususnya, mengkonfigurasi / membangun kembali tabel routing) dan melakukan beberapa perhitungan, prosesor layanan digunakan. Antarmuka host menggunakan PCI Express.

Fig. 3. Struktur simpul komputasi dengan adaptor jaringan / router "Angara"

Blok utama router:

  • antarmuka dengan sistem host, bertanggung jawab untuk menerima dan mengirim paket pada antarmuka host,
  • unit injeksi dan ejeksi yang membentuk paket untuk dikirim ke jaringan dan mem-parsing header paket yang berasal dari jaringan,
  • unit pemrosesan permintaan yang memproses paket yang membutuhkan informasi dari memori sistem host (misalnya, membaca atau operasi atom),
  • unit jaringan operasi kolektif yang memproses paket yang terkait dengan operasi kolektif, khususnya, melakukan operasi pengurangan, menghasilkan paket permintaan siaran,
  • unit operasi layanan yang memproses paket yang pergi ke dan dari coprocessor layanan,
  • sebuah saklar yang menghubungkan input dari berbagai saluran virtual dan input dari injector dengan output ke berbagai arah dan ejector,
  • saluran komunikasi untuk mengirim dan menerima data ke arah tertentu,
  • unit transmisi data untuk mengirim paket ke arah tertentu, dan unit penerima dan perutean untuk menerima paket dan memutuskan nasib masa depan mereka.

Interaksi host (kode dieksekusi pada prosesor pusat) dengan router dilakukan dengan menulis ke alamat memori yang dipetakan ke alamat daerah sumber daya router (input / output yang dipetakan memori). Hal ini memungkinkan aplikasi untuk berinteraksi dengan router tanpa partisipasi kernel, yang mengurangi biaya pengiriman paket, karena beralih ke konteks kernel dan kembali membutuhkan lebih dari seratus siklus clock. Untuk mengirim paket, salah satu wilayah memori digunakan, yang dianggap sebagai buffer cincin. Ada juga wilayah terpisah untuk melakukan operasi tanpa menyalin memori-memori (data dibaca dari memori dan ditulis oleh adaptor jaringan komunikasi melalui operasi DMA) dan wilayah dengan register kontrol. Akses ke sumber daya tertentu dari router dikendalikan oleh modul nuklir.

Untuk mencapai efisiensi yang lebih besar, diputuskan bahwa hanya satu tugas komputasi yang harus dilakukan pada satu node, ini menghilangkan overhead yang terkait dengan penggunaan memori virtual, menghindari gangguan tugas, menyederhanakan arsitektur router karena kurangnya MMU penuh dan menghindari semua karyanya keterlambatan komunikasi, serta menyederhanakan model keamanan jaringan, menghilangkan dari itu keamanan proses berbagai tugas pada satu node. Solusi ini tidak memengaruhi fungsionalitas jaringan sebagaimana dimaksudkan terutama untuk tugas-tugas berukuran besar (berbeda dengan InfiniBand, jaringan universal untuk tugas dengan berbagai ukuran). Keputusan serupa dibuat di IBM Blue Gene, di mana pembatasan pada keunikan tugas diperkenalkan untuk bagian tersebut.

Pada tingkat perangkat keras, pekerjaan simultan dengan router banyak thread / proses dari satu tugas didukung - ini diimplementasikan dalam bentuk beberapa saluran injeksi yang tersedia untuk digunakan oleh proses melalui beberapa ring buffer untuk merekam paket. Jumlah dan ukuran buffer ini dapat berubah secara dinamis.

Mode pemrograman utama untuk jaringan Angara adalah penggunaan bersama MPI, OpenMP dan Shmem, serta GASNet dan UPC.

Setelah verifikasi dan prototipe jaringan selesai, direncanakan untuk merilis chip VLSI. Batch prototipe VLSI akan dirancang untuk debugging solusi teknologi dasar, proses teknologi, dan verifikasi eksperimental hasil simulasi. Prototipe akan berisi semua fungsi dasar, bekerja dengan antarmuka PCI Express gen2 x16 dan tautan dengan throughput 75 Gb / s.

Direncanakan untuk mempromosikan jaringan Angara ke pasar dalam dua versi: sebagai jaringan komersial terpisah dalam bentuk kartu PCI Express untuk sistem cluster dengan prosesor dan chipset standar, dan sebagai bagian dari sistem blade empat-soket berdasarkan prosesor AMD yang dikembangkan di NICEVT.

Tonton videonya: How To Make SuperComputer with WinNy (Oktober 2020).

Pin
Send
Share
Send
Send