GPU 메모리 경합 감소를 위한 워프 스케줄링 기법과 캐쉬 유용성 평가 기반의 우회 접근 기법 :

김광복

추천

검색

자료유형: 학위논문

저자정보: 김광복 (전남대학교, 전남대학교 대학원)

지도교수: 김철홍

발행연도: 2019

저작권: 전남대학교 논문은 저작권에 의해 보호받습니다.

이용수2

이 논문의 연구 히스토리 (3)

2019

GPU 성능 향상을 위한 지연시간 숨김 기반 워프 스케줄링

김광복 , 김종면 , 김철홍 한국컴퓨터정보학회논문지 2019.04 학술저널

GPU 메모리 경합 감소를 위한 워프 스케줄링 기법과 캐쉬 유용성 평가 기반의 우회 접근 기법

김광복 전자컴퓨터공학과 2019.01 학위논문

2017

GPU 성능 향상을 위한 MSHR 정보 기반 워프스케줄링 기법

김광복 , 김종면 , 김철홍 한국차세대컴퓨팅학회 논문지 2017.01 학술저널

이 논문의 후속연구가 궁금하신가요?
연관 학술논문 또는 학술발표를 통해 보다 발전된 연구결과를 확인하실 수 있습니다.
이 논문의 연구 히스토리 확인하기

초록· 키워드

오류제보하기

GPU는 병렬처리가 가능한 강력한 하드웨어 자원을 기반으로 높은 처리량을 제공한다. 하지만 과도한 메모리 요청이 발생하는 경우 캐쉬 효율이 낮아져 GPU 성능이 크게 감소할 수 있다. 캐쉬에서의 경합이 심각하게 발생한 경우 동시 처리되는 스레드의 수를 감소시킨다면 캐쉬에서의 경합이 완화되어 전체 성능을 향상시킬 수 있다. 본 연구에서는 캐쉬에서의 경합 정도에 따라 동적으로 병렬성을 조절할 수 있는 워프 스케줄링 기법을 제안한다. 기존 워프 스케줄링 정책 중 LRR은 GTO에 비해 워프 수준의 병렬성이 높다. 따라서 제안하는 워프 스케줄러는 L1 데이터 캐쉬 경합 정도를 반영하는 MSHR(Miss Status Holding Register) 이 낮은 자원 활용률을 보일 때 LRR 정책을 적용한다. 반대로 MSHR 자원 활용률이 높을 때는 워프 수준의 병렬성을 낮추기 위해 GTO 정책을 적용하여 워프 우선순위를 결정한다. LRR(Loose Round Robin) 워프 스케줄링 정책을 적용한 GPU 구조는 높은 병렬성과 워프 사이의 균등한 작업처리를 보인다. 하지만 기존 LRR 정책은 다수의 워프들이 균등하게 이슈됨에 따라 다수의 워프가 동시에 긴 지연시간을 발생시키는 경향을 보인다. 긴 지연시간동안 동시 수행할 워프가 준비되지 않는다면 GPU의 처리량은 크게 감소한다. 본 연구에서는 긴 지연시간을 발생시키는 명령어 이후에 다른 명령어를 동시 수행함으로써 지연시간을 효과적으로 숨길 수 있는 워프 스케줄링 기법을 제안한다. 제안하는 기법은 동적으로 스케줄링 정책을 선택하기 때문에 기존의 고정된 LRR과 GTO에 비해 높은 IPC 성능과 캐쉬 효율을 보여준다. 실험 결과 MSHR 사용 기반의 동적 워프 스케줄링 기법은 LRR 정책에 비해 약 12.8%, GTO 정책에 비해 약 3.5% IPC 향상을 보인다. 또한, 지연시간 숨김 활용 기반의 워프 스케줄링 기법은 LRR 정책에 비해 약 12.7%, GTO 정책에 비해 약 5.6% 성능 향상을 보인다.
최신 GPU 구조는 L1 데이터 캐쉬의 병목 문제를 상당히 완화시키는 정책과 구조를 채택함으로써 처리량을 상당히 향상시킨다. 하지만, 캐쉬 미스율은 대부분의 응용 프로그램에 대해 여전히 50% 이상의 높은 수치를 보이고 있다. 캐쉬 미스율은 캐쉬 효율에 대한 합리적인 척도이지만 GPU 성능에 반드시 비례하진 않는다. 또한, 본 연구의 실험 결과에 따르면 온-칩 캐쉬가 반드시 GPU 성능 향상에 도움이 되지 않는다. 본 연구에서는 L1 데이터 캐쉬의 사용 여부에 따라 성능 이득을 예측하기 위해 미스율만을 사용하는 것은 부정확하다는 문제점을 극복하기 위한 두 번째 성능 이득 결정 요소를 제안한다. 최신 GPU 캐쉬를 사용하면 병목 현상이 완화되기 때문에 이전 아키텍처에 비해 높은 병렬성으로 얻는 이득이 증가한다. 따라서 제안된 우회 기법은 캐쉬 효율성과 처리량 간의 균형을 측정하여 캐쉬 사용 여부를 동적으로 결정한다. 캐쉬의 처리량은 워프 풀에서의 워프 점유 정보를 기반으로 예측할 수 있다. 작업 부하가 상당히 높거나 낮은 미스율을 보이지 않아 단순히 미스율을 기반으로 캐쉬 이득을 예측할 수 없는 경우 워프 점유율을 기반으로 최종 우회를 결정한다. 만약 워프 이슈 단계에서 충분한 워프를 사용할 수 없는 경우, 캐쉬에서도 낮은 병렬성이 예측되므로 L1 데이터 캐쉬는 오랜 사이클동안 동작하지 않도록 한다. 제안된 2레벨 우회 기법은 최신 GPU 구조에 대해 기존 병목현상 기반 또는 미스율 기반의 우회보다 높은 성능을 보이며, 최신 GPU 구조에 비해 평균 7.2% 성능 향상을 보인다.

Recent graphic processing units (GPUs) provide high throughput by using powerful hardware resources. However, massive memory accesses cause GPU performance degradation due to cache inefficiency. Therefore, the performance of GPU can be improved by reducing thread parallelism when cache suffers memory contention. Dyamic warp scheduler which controls thread parallelism according to degree of cache contention. Usually, the greedy then oldest (GTO) policy for issuing warp shows lower parallelism than loose round robin (LRR) policy. Therefore, the proposed warp scheduler employs the LRR warp scheduling policy when Miss Status Holding Register(MSHR) utilization is low. On the other hand, the GTO policy is employed in order to reduce thread parallelism when MSHRs utilization is high. Our proposed technique shows better performance compared with LRR and GTO policy since it selects efficient scheduling policy dynamically. According to our experimental results, our proposed technique provides IPC improvement by 12.8% and 3.5% over LRR and GTO on average, respectively. And, long latency hiding based warp scheduling technique improves GPU performance by 12.7% and 5.6% over LRR and GTO on average, respectively.
On-chip caches of graphics processing units (GPUs) have contributed to improved GPU performance by reducing long memory access latency. However, cache efficiency remains low despite the fact that recent GPUs have considerably mitigated the bottleneck problem of the L1 data cache and have employed an advanced cache architecture. Moreover, depending on the characteristics of the workload, the L1 data cache can be harmful to GPU performance. Although the cache miss rate is a reasonable metric for cache efficiency, it is not necessarily proportional to GPU performance. In this study, a second key determinant is introduced to overcome the problem of predicting the advantages of L1 data cache based on the assumption that miss-rate only is not accurate. With an up-to-date GPU cache architecture, throughput has become more important than in previous architectures because bottlenecks have been alleviated. Thus, the proposed technique estimates the benefit of the cache by measuring the balance between cache efficiency and throughput. The throughput of the cache is predicted based on the warp occupancy information in the warp pool. Then, the warp occupancy is used for a second bypass phase when workloads show an ambiguous miss rate. If sufficient warps are not available, in our proposed architecture, the L1 data cache is turned off for a long period. The proposed two-level bypassing technique outperforms the conventional bottleneck-based bypassing techniques. Our two-level bypassing technique can be applied to recent GPU models and improves the performance by 7.2% on average compared to the baseline architecture.

1. 서론 1
2. 연구 배경 4
가. 기존 GPU 구조 4
나. GPU 메모리 계층 7
다. 워프 스케줄링 기법에 따른 병렬성 9
라. 워프 스케줄링 연구 11
마. 캐쉬 관리 기법 16
3. MSHR 활용률 기반 동적 워프 스케줄링 기법 19
가. 메모리 경합 측정 19
나. MSHR 사용 기반 동적 워프 스케줄러 구현 20
4. 지연시간 숨김 기반 워프 스케줄링 기법 25
가. 지연시간 숨김 25
나. 워프 내 데이터 지역성 활용 28
5. 캐쉬 유용성 평가 기반의 우회 접근 기법 32
가. GPU 캐쉬 효율 32
나. 캐쉬 우회 기법의 개요 34
다. 캐쉬의 효율성 분석 36
라. 2단계 우회 결정 기법 38
마. 하드웨어 구현 39
6. 모의실험 환경 및 결과 42
가. MSHR 활용률 기반 동적 워프 스케줄링 기법의 실험 방법 42
나. MSHR 활용률 기반 동적 워프 스케줄링 기법의 실험 결과 분석 44
다. 지연시간 숨김 기반 워프 스케줄링 기법의 실험 방법 49
라. 지연시간 숨김 기반 워프 스케줄링 기법의 실험 결과 분석 51
마. 캐쉬 유용성 평가 기반의 우회 접근 기법의 실험 방법 56
바. 캐쉬 유용성 평가 기반의 우회 접근 기법의 실험 결과 분석 58
7. 결론 65
참 고 문 헌 67
영 문 초 록 72

최근 본 자료

전체보기

구분	그룹	데이터 항목
AI 학습용 데이터	원문	원문 PDF 파일
AI 학습용 데이터	원문 + 메타 (기본/상세)	원문 PDF 파일 및 서지정보 CSV
대량 구매용 데이터	B2B 구독 방식	특정 자료 한정으로 원문 접근 권한 부여
대량 구매용 데이터	URL 전달 방식	바로 PDF 뷰어를 열람할 수 있는 URL 제공

구분	그룹	데이터 항목
AI 학습용 데이터	기본 메타	발행기관명, 간행물명, 권호명, 권(vol), 호(issue), 통권, 발행연도, 발행월, 논문명, 저자명, 시작페이지, 종료페이지, 전체페이지, 상세페이지URL
상세 메타 데이터	발행기관 메타	발행기관 이명, 영문명, 창립연도, 홈페이지URL, 발행기관 소개
	간행물 메타	부제목, 간행물 유형, ISSN, ISBN, 최초발행연도, 폐간연도, 간행빈도, 발행주기, 등재사항, 이용수, 피인용수, 권호수, 논문수, 표지이미지
	논문 메타	작성 언어, 부제목, 대등제목, 목차, 키워드, 초록, 이미지, 참고문헌, 이용수, 피인용수, 논문활용도, DBpia통합주제분류, KDC분류, DDC분류, 한국연구재단분류, UCI, DOI
	저자 메타	소속기관, 소속부서, 직급, 연구분야, 연구키워드, 이용수, 피인용수, 저자 논문활용도

구분	그룹	데이터 항목
※ 결합형/맞춤형 메타 데이터는 신청 내용에 따라 다양하게 제공 가능
이용순위 정보	주제분야별 많이 이용된 논문	“인문학”에서 많이 이용된 논문 TOP100
	이용기관별 많이 이용된 논문	“중고등학교”에서 많이 이용된 논문 TOP100
	세부기관별 많이 이용된 논문	“서울대학교”에서 많이 이용된 논문 TOP100
	키워드별 많이 이용된 논문	“Chat GPT”에서 많이 이용된 논문 TOP100
키워드 정보	많이 이용된 키워드	특정기간/분야/저널 내 많이 이용된 키워드
	많이 발행된 키워드	특정기간/분야/저널 내 많이 발행된 키워드
	많이 검색된 키워드	특정기간/분야/저널 내 많이 검색된 키워드
	연구 트렌드 키워드	특정 키워드 연관 연구동향 분석 데이터 키워드

논문 기본 정보

이 논문의 연구 히스토리 (3)

초록· 키워드

목차

최근 본 자료

댓글(0)