논문 상세보기

한국정보처리학회> 정보처리학회논문지. 컴퓨터 및 통신시스템> 분산 딥러닝에서 통신 오버헤드를 줄이기 위해 레이어를 오버래핑하는 하이브리드 올-리듀스 기법

KCI등재

분산 딥러닝에서 통신 오버헤드를 줄이기 위해 레이어를 오버래핑하는 하이브리드 올-리듀스 기법

Hybrid All-Reduce Strategy with Layer Overlapping for Reducing Communication Overhead in Distributed Deep Learning

김대현 ( Daehyun Kim ) , 여상호 ( Sangho Yeo ) , 오상윤 ( Sangyoon Oh )
  • : 한국정보처리학회
  • : 정보처리학회논문지. 컴퓨터 및 통신시스템 10권7호
  • : 연속간행물
  • : 2021년 07월
  • : 191-198(8pages)
정보처리학회논문지. 컴퓨터 및 통신시스템

DOI


목차

1. 서 론
2. 관련 연구
3. 레이어 오버래핑 기반 하이브리드 올리듀스 기법
4. 성능 평가
5. 결론 및 향후 연구
References

키워드 보기


초록 보기

분산 딥러닝은 각 노드에서 지역적으로 업데이트한 지역 파라미터를 동기화는 과정이 요구된다. 본 연구에서는 분산 딥러닝의 효과적인 파라미터 동기화 과정을 위해, 레이어 별 특성을 고려한 allreduce 통신과 연산 오버래핑(overlapping) 기법을 제안한다. 상위 레이어의 파라미터 동기화는 하위 레이어의 다음 전파과정 이전까지 통신/계산(학습) 시간을 오버랩하여 진행할 수 있다. 또한 이미지 분류를 위한 일반적인 딥러닝 모델의 상위 레이어는 convolution 레이어, 하위 레이어는 fully-connected 레이어로 구성되어 있다. Convolution 레이어는 fully-connected 레이어 대비 적은 수의 파라미터를 가지고 있고 상위에 레이어가 위치하므로 네트워크 오버랩 허용시간이 짧고, 이를 고려하여 네트워크 지연시간을 단축할 수 있는 butterfly all-reduce를 사용하는 것이 효과적이다. 반면 오버랩 허용시간이 보다 긴 경우, 네트워크 대역폭을 고려한 ring all-reduce를 사용한다. 본 논문의 제안 방법의 효과를 검증하기 위해 제안 방법을 PyTorch 플랫폼에 적용하여 이를 기반으로 실험 환경을 구성하여 배치크기에 대한 성능 평가를 진행하였다. 실험을 통해 제안 기법의 학습시간은 기존 PyTorch 방식 대비 최고 33% 단축된 모습을 확인하였다.
Since the size of training dataset become large and the model is getting deeper to achieve high accuracy in deep learning, the deep neural network training requires a lot of computation and it takes too much time with a single node. Therefore, distributed deep learning is proposed to reduce the training time by distributing computation across multiple nodes. In this study, we propose hybrid allreduce strategy that considers the characteristics of each layer and communication and computational overlapping technique for synchronization of distributed deep learning. Since the convolution layer has fewer parameters than the fully-connected layer as well as it is located at the upper, only short overlapping time is allowed. Thus, butterfly allreduce is used to synchronize the convolution layer. On the other hand, fully-connecter layer is synchronized using ring all-reduce. The empirical experiment results on PyTorch with our proposed scheme shows that the proposed method reduced the training time by up to 33% compared to the baseline PyTorch.

UCI(KEPA)

I410-ECN-0102-2022-500-000814972

간행물정보

  • : 공학분야  > 전자공학
  • : KCI등재
  • :
  • : 월간
  • : 2287-5891
  • : 2734-049X
  • : 학술지
  • : 연속간행물
  • : 2012-2022
  • : 499


저작권 안내

한국학술정보㈜의 모든 학술 자료는 각 학회 및 기관과 저작권 계약을 통해 제공하고 있습니다.

이에 본 자료를 상업적 이용, 무단 배포 등 불법적으로 이용할 시에는 저작권법 및 관계법령에 따른 책임을 질 수 있습니다.

11권5호(2022년 05월) 수록논문
최근 권호 논문
| | | |

KCI등재

1통합메모리 장치에서 CPU-GPU 데이터 전송성능 연구

저자 : 권오경 ( Oh-kyoung Kwon ) , 구기범 ( Gibeom Gu )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 컴퓨터 및 통신시스템 11권 5호 발행 연도 : 2022 페이지 : pp. 133-138 (6 pages)

다운로드

(기관인증 필요)

초록보기

최근 고성능컴퓨팅, 인공지능 분야에서 GPU 장치 사용이 일반화되고 있지만, GPU 프로그래밍은 여전히 어렵게 여겨진다. 특히 호스트(host) 메모리와 GPU 메모리를 별도로 관리하기 때문에 성능과 편의성 방면에서 연구가 활발히 진행되고 있다. 이에 따라 여려가지 CPU-GPU 메모리 전송 방법들이 연구되고 있다. 한편 CPU와 GPU 및 통합메모리(Unified memory) 등 하나의 실리콘 패키지로 묶는 SoC(System on a Chip) 제품들이 최근에 많이 출시되고 있다. 본 연구는 이러한 통합메모리 장치에서 CPU, GPU 장치간 데이터를 사용하고 전송시 성능관련 비교를 하고자 한다. 기존 CPU내 호스트 메모리와 GPU 메모리가 분리된 환경과는 다른 특징을 보여준다. 여기서는 통합메모리 장치인 NVIDIA SoC칩들과 NVIDIA SMX 기반 V100 GPU 카드에서 CPU-GPU 간 데이터 전송 프로그래밍 기법별로 성능비교를 한다. 성능비교를 위해 워크로드는 HPC 분야의 수치계산에서 자주 사용하는 2차원 행렬 전치 커널이다. 실험을 통해 CPU-GPU 메모리 전송 프로그래밍 방법별 GPU 커널 성능차이, 페이지 잠긴 메모리와 페이지 가능 메모리를 사용했을 경우 전송 성능차이, 전체(Overall) 성능비교, 마지막으로 워크로드 크기별 성능비교를 하였다. 이를 통해 통합메모리칩인 NVIDIA Xavier에서 I/O 캐시일관성 지원을 통해 SoC 칩내 통합메모리에 대한 이점을 극대화 할 수 있음을 확인할 수 있었다.


Recently, as GPU performance has improved in HPC and artificial intelligence, its use is becoming more common, but GPU programming is still a big obstacle in terms of productivity. In particular, due to the difficulty of managing host memory and GPU memory separately, research is being actively conducted in terms of convenience and performance, and various CPU-GPU memory transfer programming methods are suggested. Meanwhile, recently many SoC (System on a Chip) products such as Apple M1 and NVIDIA Tegra that bundle CPU, GPU, and integrated memory into one large silicon package are emerging. In this study, data between CPU and GPU devices are used in such an integrated memory device and performance-related research is conducted during transmission. It shows different characteristics from the existing environment in which the host memory and GPU memory in the CPU are separated. Here, we want to compare performance by CPU-GPU data transmission method in NVIDIA SoC chips, which are integrated memory devices, and NVIDIA SMX-based V100 GPU devices. For the experimental workload for performance comparison, a two-dimensional matrix transposition example frequently used in HPC applications was used. We analyzed the following performance factors: the difference in GPU kernel performance according to the CPU-GPU memory transfer method for each GPU device, the transfer performance difference between page-locked memory and pageable memory, overall performance comparison, and performance comparison by workload size. Through this experiment, it was confirmed that the NVIDIA Xavier can maximize the benefits of integrated memory in the SoC chip by supporting I/O cache consistency.

KCI등재

2MEC 시스템에서 태스크 파티셔닝 기법의 성능 비교

저자 : 문성원 ( Sungwon Moon ) , 임유진 ( Yujin Lim )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 컴퓨터 및 통신시스템 11권 5호 발행 연도 : 2022 페이지 : pp. 139-146 (8 pages)

다운로드

(기관인증 필요)

초록보기

최근 사물 인터넷의 발전과 함께 차량과 IT 기술의 융합되어 자율주행과 같은 고성능의 어플리케이션들이 등장하면서 멀티 액세스 엣지 컴퓨팅(MEC)이 차세대 기술로 부상하였다. 이런 계산 집약적인 태스크들을 낮은 지연시간 안에 제공하기 위해, 여러 MEC 서버(MECS)들이 협력하여 해당 태스크를 수행할 수 있도록 태스크를 파티셔닝하는 기법들이 많이 제안되고 있다. 태스크 파티셔닝과 관련된 연구들은 모바일 디바이스에서 태스크를 파티셔닝하여 여러 MECS들에게 오프로딩을 하는 기법과 디바이스에서 MECS로 오프로딩한 후 해당 MECS에서 파티셔닝하여 다른 MECS들에게 마이그레이션하는 기법으로 나누어볼 수 있다. 본 논문에서는 오프로딩과 마이그레이션을 이용한 파티셔닝 기법들을 파티셔닝 대상 선정 방법 및 파티셔닝 개수 변화에 따른 서비스 지연시간, 거절률 그리고 차량의 에너지 소비량 측면에서의 성능을 분석하였다. 파티셔닝 개수가 증가할수록 지연시간의 성능은 향상하나, 거절률과 에너지 소모량의 성능은 감소한다.


With the recent development of the Internet of Things (IoT) and the convergence of vehicles and IT technologies, high-performance applications such as autonomous driving are emerging, and multi-access edge computing (MEC) has attracted lots of attentions as next-generation technologies. In order to provide service to these computation-intensive tasks in low latency, many methods have been proposed to partition tasks so that they can be performed through cooperation of multiple MEC servers(MECSs). Conventional methods related to task partitioning have proposed methods for partitioning tasks on vehicles as mobile devices and offloading them to multiple MECSs, and methods for offloading them from vehicles to MECSs and then partitioning and migrating them to other MECSs. In this paper, the performance of task partitioning methods using offloading and migration is compared and analyzed in terms of service delay, blocking rate and energy consumption according to the method of selecting partitioning targets and the number of partitioning. As the number of partitioning increases, the performance of the service delay improves, but the performance of the blocking rate and energy consumption decreases.

KCI등재

3산업제어시스템에서 랜덤리스트를 이용한 블록체인 기반 접근제어 방식에 관한 연구

저자 : 강명조 ( Kang Myung Joe ) , 김미희 ( Kim Mi Hui )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 컴퓨터 및 통신시스템 11권 5호 발행 연도 : 2022 페이지 : pp. 147-156 (10 pages)

다운로드

(기관인증 필요)

초록보기

다양한 산업을 관리하고 유지하는 산업제어시스템은 주로 외부와의 연결 없이 폐쇄적으로 운영됐지만 최근 인터넷의 발전과 ICT 기술의 도입으로 외부나 공격자의 산업제어시스템에 접근이 쉬워졌다. 잘못된 접근이나 공격은 산업제어시스템의 주요 속성인 가용성을 해칠 수 있으며, 가용성이 침해될 경우 큰 피해가 발생할 수 있다. 본 논문에서는 산업제어시스템에서 명령을 내릴 때 랜덤리스트를 생성해 검증그룹을 구성하여 명령을 검증 후 실행하며, 명령 실행 결과를 이용해 검증을 진행한 검증그룹에 피드백을 적용하는 신뢰 점수 기법을 도입한다. 이를 통해 명령 검증 요청과정에서 랜덤 생성에 발생하는 오버헤드를 줄일 수 있으며, 검증 과정에 유연성을 부여하고 시스템의 가용성을 보장할 수 있다. 시스템의 성능 분석을 위해 스마트 계약 배포 시 걸리는 시간과 가스 사용량, 명령 검증 시 가스 사용량을 측정했다. 그 결과, 기존시스템과 비교해 랜덤리스트를 생성하지만, 스마트 계약 배포에 걸리는 시간은 거의 차이가 없음을 확인했고 스마트 계약 배포에 사용되는 가스는 랜덤리스트 생성과정에서 약 1.4배 증가함을 확인했다. 하지만, 명령 검증 과정에서 명령 검증과 신뢰 점수 기법의 연산을 함께 진행함에도 랜덤 연산을 하지 않아 검증 1회당 약 9% 적은 가스를 사용해 검증 과정에 가용성을 보장한다.


Industrial control systems that manage and maintain various industries were mainly operated in closed environment without external connection, but with the recent development of the Internet and the introduction of ICT technology, the access to the industrial control system of external or attackers has become easier. Such incorrect approaches or attacks can undermine the availability, a major attribute of the industrial control system, and violation of availability can cause great damage. In this paper, when issuing commands in an industrial control system, a verification group is formed using a random list to verify and execute commands, and a trust score technique is introduced that applies feedback to the verification group that conducted verification using the command execution result. This technique can reduce overhead generated by random generation in the process of requesting command verification, give flexibility to the verification process, and ensure system availability. For the performance analysis of the system, we measured the time and gas usage when deploying a smart contract, gas usage when verifying a command. As a result, we confirmed that although the proposed system generates a random list compared to the legacy system, there was little difference in the time when it took to deploy smart contract and that the gas used to deploy smart contract increased by about 1.4 times in the process of generating a random list. However, the proposed system does not perform random operations even though the operation of command verification and confidence score technique is performed together during the command verification process, thus it uses about 9% less gas per verification, which ensures availability in the verification process.

KCI등재

4운동 과정 추적의 자동화를 위한 전이 규칙 모델의 구현

저자 : 정다니엘 ( Daniel Chung ) , 고일주 ( Ilju Ko )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 컴퓨터 및 통신시스템 11권 5호 발행 연도 : 2022 페이지 : pp. 157-166 (10 pages)

다운로드

(기관인증 필요)

초록보기

운동은 건강한 삶의 영위에 필요하지만 코로나19와 같은 전염병 유행 상황에서 비대면 환경에서 진행되는 것이 권장된다. 그러나 기존의 비대면 방식의 운동 콘텐츠에서는 운동 동작의 인식은 가능하지만 이를 해석해서 피드백 정보를 제공해주는 과정이 자동화되지 않았기 때문에 피드백이 트레이너의 눈대중으로 이루어지는 한계가 있다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해서 운동 내용 및 이를 구성하는 동작을 추적하기 위해 공식화된 규칙을 만드는 방법을 제안한다. 이러한 규칙을 만들기 위해서는 전체적인 운동 내용의 진행 규칙을 먼저 만들고, 운동을 구성하는 동작의 추적 규칙을 만든다. 동작의 추적 규칙은 동작을 여러 단계로 나누고 단계를 나누는 키 프레임 자세를 정의하는 것에서 출발하여 키 프레임 자세로 대표되는 상태와 상태 간의 전이 규칙을 만듦으로써 생성될 수 있다. 이렇게 생성한 규칙은 모션 캡쳐 장비를 이용한 자세 및 동작 인식 기술의 사용을 전제로 하며 이러한 기술 적용의 자동화를 위한 논리적인 전개에 사용된다. 본 논문에서 제안한 규칙을 사용하면 운동 과정에서 나타나는 동작을 인식하는 것뿐만 아니라 동작의 전 과정에 대한 해석의 자동화가 가능하여 인공지능 트레이닝 시스템 등 보다 진보된 콘텐츠 제작이 가능해진다. 이에 따라 운동 과정에 대한 피드백의 질을 높일 수 있다.


Exercise is necessary for a healthy life, but it is recommended that it be conducted in a non-face-to-face environment in the context of an epidemic such as COVID-19. However, in the existing non-face-to-face exercise content, it is possible to recognize exercise movements, but the process of interpreting and providing feedback information is not automated. Therefore, in this paper, to solve this problem, we propose a method of creating a formalized rule to track the contents of exercise and the motions that constitute it. To make such a rule, first make a rule for the overall exercise content, and then create a tracking rule for the motions that make up the exercise. A motion tracking rule can be created by dividing the motion into steps and defining a key frame pose that divides the steps, and creating a transition rule between states and states represented by the key frame poses. The rules created in this way are premised on the use of posture and motion recognition technology using motion capture equipment, and are used for logical development for automation of application of these technologies. By using the rules proposed in this paper, not only recognizing the motions appearing in the exercise process, but also automating the interpretation of the entire motion process, making it possible to produce more advanced contents such as an artificial intelligence training system. Accordingly, the quality of feedback on the exercise process can be improved.

1
권호별 보기
같은 권호 다른 논문
| | | | 다운로드

KCI등재

1분산 딥러닝에서 통신 오버헤드를 줄이기 위해 레이어를 오버래핑하는 하이브리드 올-리듀스 기법

저자 : 김대현 ( Daehyun Kim ) , 여상호 ( Sangho Yeo ) , 오상윤 ( Sangyoon Oh )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 컴퓨터 및 통신시스템 10권 7호 발행 연도 : 2021 페이지 : pp. 191-198 (8 pages)

다운로드

(기관인증 필요)

초록보기

분산 딥러닝은 각 노드에서 지역적으로 업데이트한 지역 파라미터를 동기화는 과정이 요구된다. 본 연구에서는 분산 딥러닝의 효과적인 파라미터 동기화 과정을 위해, 레이어 별 특성을 고려한 allreduce 통신과 연산 오버래핑(overlapping) 기법을 제안한다. 상위 레이어의 파라미터 동기화는 하위 레이어의 다음 전파과정 이전까지 통신/계산(학습) 시간을 오버랩하여 진행할 수 있다. 또한 이미지 분류를 위한 일반적인 딥러닝 모델의 상위 레이어는 convolution 레이어, 하위 레이어는 fully-connected 레이어로 구성되어 있다. Convolution 레이어는 fully-connected 레이어 대비 적은 수의 파라미터를 가지고 있고 상위에 레이어가 위치하므로 네트워크 오버랩 허용시간이 짧고, 이를 고려하여 네트워크 지연시간을 단축할 수 있는 butterfly all-reduce를 사용하는 것이 효과적이다. 반면 오버랩 허용시간이 보다 긴 경우, 네트워크 대역폭을 고려한 ring all-reduce를 사용한다. 본 논문의 제안 방법의 효과를 검증하기 위해 제안 방법을 PyTorch 플랫폼에 적용하여 이를 기반으로 실험 환경을 구성하여 배치크기에 대한 성능 평가를 진행하였다. 실험을 통해 제안 기법의 학습시간은 기존 PyTorch 방식 대비 최고 33% 단축된 모습을 확인하였다.

KCI등재

2MVDC 시스템연계 디지털변전소 자동화 연구

저자 : 장순호 ( Jang Soon Ho ) , 구자익 ( Koo Ja Ik ) , 문초롱 ( Mun Cho Rong )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 컴퓨터 및 통신시스템 10권 7호 발행 연도 : 2021 페이지 : pp. 199-204 (6 pages)

다운로드

(기관인증 필요)

초록보기

디지털변전소는 전력망 지능화를 위해 감시, 계측, 제어·보호, 운전 등 변전소를 구성하는 전력설비 기능과 통신방식을 국제표준인 IEC61850 기반으로 디지털화한 변전소를 말한다. 지능화된 운영시스템을 기반으로 효율적인 전력설비의 감시제어가 가능하며, 사고 발생 시 자동 복구 기능과 원격제어가 가능해 신속한 전력 장애 복구가 가능하다. 디지털 기술의 발달과 친환경 신재생에너지 및 전기차의 도입이 확대 되면서 직류 배전시스템의 보급이 확대될 전망이다. MVDC는 기존 송전계통에 적용되는 HVDC와 수용가에서의 LVDC 사이의 전압 레벨 및 전송용량을 갖는 직류 선로를 활용한 시스템이다. 대부분의 전력설비들이 교류 중심인 기존변전소의 기존 선로를 직류 선로로 변환하면 송전 손실 감소 및 더 큰 전류 용량이 확보된다. 디지털변전소의 프로세스 버스는 베이 레벨과 프로세스 레벨의 설치된 장치 간을 연결하는 이더넷스위치 등의 통신장비로 구성된 통신 네트워크이다. 기존 디지털변전소에 MVDC 연계를 위해 프로세스 레벨을 교류부와 직류부로 나누어 두 개의 버스로 구성을 하였고 감시, 제어만 아니라 진단 IED와 연계되어 종합적으로 관리할 수 있는 시스템을 제안하였다.

KCI등재

3OHT 작업 계획을 위한 실시간 스케줄링 시스템 개발

저자 : 이복주 ( Lee Bok-ju ) , 박희문 ( Park Hee-mun ) , 권용환 ( Kwon Yong-hwan ) , 한경아 ( Han Kyung-ah ) , 서경민 ( Seo Kyung-min )

발행기관 : 한국정보처리학회 간행물 : 정보처리학회논문지. 컴퓨터 및 통신시스템 10권 7호 발행 연도 : 2021 페이지 : pp. 205-214 (10 pages)

다운로드

(기관인증 필요)

초록보기

반도체 물류 공정은 스마트 제조를 위해 물류 자동화 시스템을 운영한다. 물류 자동화 시스템 중 하나인 OCS(OHT Control System)는 천장에 설치된 레일을 따라 이동하는 OHT(Overhead Hoist Transport)를 자율적으로 제어하는 시스템이다. 본 논문은 반도체 물류 공정에서 효율적인 작업 계획을 위한 실시간 스케줄링 시스템을 제안한다. 제안 시스템의 주된 역할은 OHT 할당 및 최적경로 생성이며, 전체 OCS에서 별도의 독립된 시스템으로 개발하여 시스템의 수정 및 확장이 용이하도록 구성하였다. 시스템 개발을 위해 반도체 물류의 기능 요구사항을 식별하고, 명령 유형에 따른 OHT 제어 시나리오를 정의하였다. 그리고 시스템 간 연동 확장성을 위해 국제반도체장비재료협회(SEMI) 규격을 적용하여 시퀀스 다이어그램과 인터페이스 메시지를 설계하였다. 기능 요구사항과 설계 문서를 바탕으로 개발된 스케줄링 시스템은 Main 시스템 및 데이터베이스와 실시간 연동되어 OHT의 최적할당 및 경로제어를 수행한다. 개발 시스템의 기능 검증을 위해 실제 반도체 물류 현장에서 OCS Main 시스템과 통합시험을 수행하였다. 6가지의 기본 시나리오와 2가지의 예외 시나리오에서 개발 시스템이 OHT 최적할당과 경로제어를 성공적으로 수행함을 검증하였다.

1
발행기관 최신논문
자료제공: 네이버학술정보
발행기관 최신논문
자료제공: 네이버학술정보

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

보관함

내 보관함
공유한 보관함

1:1문의

닫기