FTGPGPU - Genel Amaçlı Grafik Islemci Birimi Uygulamaları Için Donanım Hatası Toleransı Analizi

140 60

Proje Grubu: EEEAG Sayfa Sayısı: 67 Proje No: 119E011 Proje Bitiş Tarihi: 15.02.2022 Metin Dili: Türkçe İndeks Tarihi: 11-10-2022

FTGPGPU - Genel Amaçlı Grafik Islemci Birimi Uygulamaları Için Donanım Hatası Toleransı Analizi

Öz:
Genel amaçlı hesaplamalar için grafik islemci birimlerinin (GPGPU) kullanımı, donanım hatalarının kritikligini arttırmakta, programların geçici hata hassasiyetini degerlendirmek ve uygun hata toleransı tekniklerini kullanmak daha önemli hale gelmektedir. Hataya en hassas program bölgelerinin korunması yoluyla, hem performansı, hem de güvenilirligi hedefleyen sistemler için ayrıntılı bölgesel hata hassasiyeti analizi çok önemlidir. Bu projede, GPGPU uygulamalarının geçici donanım hatası hassasiyetinin ölçülmesi, analiz edilmesi ve bu analizlerin sonuçlarının program özellikleri ile iliskilendirilmesi, seçimli hata toleransı yöntemi gelistirilmesi yoluyla kullanılması amaçlanmıstır. Projenin ilk katkısı, GPGPU uygulamlarının geçici hata hassasiyetlerinin bölgesel olarak belirlenmesi için yazılım ile donanım iliskisini saglayacak sekilde assembly seviyesinde hata ayıklayıcı tabanlı bir hata enjeksiyonu ve hata yayılımı analizi aracı gelistirilmesidir. Bu araç kullanılarak farklı yapıdaki, farklı özelliklere sahip GPGPU programlarının belirlenen kod bölgelerine hata enjeksiyonu saglayan deneyler yapılmıs, kod bölgelerinin hata hassasiyetleri ve olusan hatanın program süresince farklı veri yapılarına yayılımı incelenmistir. Projenin ikinci katkısı, GPGPU program kod parçalarının özellikleri ile bu kodlar çalısırken meydana gelebilecek hatalara hassasiyetleri arasındaki iliskinin incelenmesidir. GPGPU programlarındaki kod parçacıklarının performans ve mimari özellikleri profilleme ve simulasyon yöntemleriyle elde edilmis, ilk adımda gelistirilen hata enjeksiyonu aracıyla belirlenen kod parçalarına hata enjekte ederek uygulanan deney sonuçlarında sessiz veri bozunumu, çökme ve dogru çalısma durumları belirlenmistir. Program özellikleri-hata hassasiyeti ikilisi arasındaki iliski incelenerek program özellikleri verilen bir GPGPU uygulamasının hata hassasiyet degerleri makine ögrenmesi yöntemleriyle tahmin edilmistir. Gelistirilen tahminleme modelleriyle sessiz veri bozunumu için %82, çökme durumları için %87, dogru çalısma durumları için %96 dogruluk oranlarıyla tahminleme basarısı saglanmıstır. Projenin üçüncü katkısı, hataya daha hassas kod bölgelerinin çoklanmasına dayalı seçimli hata toleransı yöntemi gelistirilmesidir. Program gelistirici veya kullanıcı tarafından kaynak kodda isaretlenen kod bölgelerinin çoklanması seklinde gerçeklenen derleyici seviyesinde gelistirilen hata toleransı yapısı, belirtilen kernel fonksiyonlarının çoklanmasını artıklı kernel fonksiyonu olarak veya tek kernel fonksiyonu altında artıklı is parçacıgı olarak veya CUDA stream teknigi ile mümkün kılmaktadır. Böylece uygulamanın paralellik ve veri kullanımı özelliklerine göre farklı çoklama yürütme durumları seçilebilmekte, kaba taneli (coarsegrained) bir yapıda çıktı kontrolü ile performanslı bir sekilde çoklama saglanmaktadır.
Anahtar Kelime: Geçici donanım hatası güvenilirligi GPU mimarileri GPGPU uygulamaları

Konular: Mühendislik, Elektrik ve Elektronik

-

Öz:
As the use of graphics processing units for general-purpose calculations (GPGPU) increases the criticality of the hardware errors, it becomes more important to evaluate the transient error vulnerability of the programs and to perform appropriate fault tolerance techniques. Detailed regional soft error vulnerability analysis is essential for systems targeting both performance and reliability, by protecting the most vulnerable program regions. In this project, we aim to measure and analyze soft error vulnerability of GPGPU programs, and based on the analysis results, we correlate error characteristics with program features and develop a selective fault tolerance method. The first contribution of the project is the development of an assembly-level debugger-based fault injection and error propagation analysis tool that enables regional soft error vulnerability analysis by associating software code regions and hardware components. By utilizing the tool, we carry out fault injection experiments by targeting the determined code regions of GPGPU programs with different structures and different features. We evaluate soft error vulnerability of the target code regions and error propagation through the data structures during the faulty program execution. The second contribution of the project is the analysis of the relationship between the GPGPU program features and their vulnerability to soft errors. We obtain the performance and architectural features of the code snippets in GPGPU programs, and perform fault injection experiments by utilizing our fault injection tool to collect silent data corruption, crash and correct execution rates. By examining the relationship between program features and error vulnerability rates, we predict the error vulnerability values of a GPU application by machine learning methods. Our prediction models achieve prediction accuracy rates of 96.6%, 82.6%, and 87% for masked fault rates, SDCs, and crashes, respectively. The third contribution of the project is the development of a selective fault tolerance method based on the redundancy of more vulnerable code regions. Our compiler-level fault tolerance framework performs redundant multithreading for the code regions marked in the source code by the program developer or the user, and enables the redundant execution of the specified kernel functions as a redundant kernel function or as a redundant thread under a single kernel function or with the CUDA stream technique. Thus, the target execution can be configured with different redundant execution schemes according to the parallelism and data usage characteristics of the application, and the redundancy is maintained in a high-performance manner with coarse-grained output control
Anahtar Kelime:

Konular: Mühendislik, Elektrik ve Elektronik
Erişim Türü: Erişime Açık
APA ÖZ I (2022). FTGPGPU - Genel Amaçlı Grafik Islemci Birimi Uygulamaları Için Donanım Hatası Toleransı Analizi. , 0 - 67.
Chicago ÖZ Işıl FTGPGPU - Genel Amaçlı Grafik Islemci Birimi Uygulamaları Için Donanım Hatası Toleransı Analizi. (2022): 0 - 67.
MLA ÖZ Işıl FTGPGPU - Genel Amaçlı Grafik Islemci Birimi Uygulamaları Için Donanım Hatası Toleransı Analizi. , 2022, ss.0 - 67.
AMA ÖZ I FTGPGPU - Genel Amaçlı Grafik Islemci Birimi Uygulamaları Için Donanım Hatası Toleransı Analizi. . 2022; 0 - 67.
Vancouver ÖZ I FTGPGPU - Genel Amaçlı Grafik Islemci Birimi Uygulamaları Için Donanım Hatası Toleransı Analizi. . 2022; 0 - 67.
IEEE ÖZ I "FTGPGPU - Genel Amaçlı Grafik Islemci Birimi Uygulamaları Için Donanım Hatası Toleransı Analizi." , ss.0 - 67, 2022.
ISNAD ÖZ, Işıl. "FTGPGPU - Genel Amaçlı Grafik Islemci Birimi Uygulamaları Için Donanım Hatası Toleransı Analizi". (2022), 0-67.
APA ÖZ I (2022). FTGPGPU - Genel Amaçlı Grafik Islemci Birimi Uygulamaları Için Donanım Hatası Toleransı Analizi. , 0 - 67.
Chicago ÖZ Işıl FTGPGPU - Genel Amaçlı Grafik Islemci Birimi Uygulamaları Için Donanım Hatası Toleransı Analizi. (2022): 0 - 67.
MLA ÖZ Işıl FTGPGPU - Genel Amaçlı Grafik Islemci Birimi Uygulamaları Için Donanım Hatası Toleransı Analizi. , 2022, ss.0 - 67.
AMA ÖZ I FTGPGPU - Genel Amaçlı Grafik Islemci Birimi Uygulamaları Için Donanım Hatası Toleransı Analizi. . 2022; 0 - 67.
Vancouver ÖZ I FTGPGPU - Genel Amaçlı Grafik Islemci Birimi Uygulamaları Için Donanım Hatası Toleransı Analizi. . 2022; 0 - 67.
IEEE ÖZ I "FTGPGPU - Genel Amaçlı Grafik Islemci Birimi Uygulamaları Için Donanım Hatası Toleransı Analizi." , ss.0 - 67, 2022.
ISNAD ÖZ, Işıl. "FTGPGPU - Genel Amaçlı Grafik Islemci Birimi Uygulamaları Için Donanım Hatası Toleransı Analizi". (2022), 0-67.