ACROFAN

[OSS 2016 바르셀로나] Building Large Scale Private Clouds with OpenStack and Ceph

기사입력 : 2016년 10월 31일 13시 06분
ACROFAN=권용만 | yongman.kwon@acrofan.com SNS
오픈스택 재단(Openstack Foundation)은 10월 25일부터 28일까지 스페인 바르셀로나의 바르셀로나 컨벤션 센터 (Centre de Convencions Internacional de Barcelona, CCIB) 일원에서 ‘오픈스택 서밋 바르셀로나(Openstack Summit Barcelona)’를 개최했다. 이번 서밋은 50개국 이상, 5천명 이상의 사용자가 참가해, 다양한 분야에서의 오픈스택 활용 사례 소개, 차기 버전의 방향 결정 등이 진행되었다.

이번 서밋에서 강조된, 현재 오픈스택이 주로 활용되는 방향으로는 엔터프라이즈 빅데이터와 미디어 산업군을 위한 클라우드 환경, 통신 사업자들을 위한 NFV 등을 구현하기 위한 환경, 과학계에서 연구를 위한 인프라 활용 등이 꼽혔다. 또한 오픈스택을 활용하고 있는 산업군의 폭도 더욱 넓어져, 이제 오픈스택 사용자 중 IT 산업의 비중은 20% 정도에 그치며 대형 엔터프라이즈 환경에서의 오픈스택 도입 추세도 가속화되고, 구축 규모도 커지고 있는 것으로 소개되었다.

이번 오픈스택 서밋 바르셀로나에서 진행된 세션 ‘Building Large Scale Private Clouds with OpenStack and Ceph’ 는 월마트의 프라이빗 클라우드와 스토리지 구축 사례를 소개했다. 이 세션에서 월마트는 현재 세계 최대 규모의 오픈스택 인프라를 운영하고 있기도 하며, 자사의 경험에 따른 다양한 애플리케이션의 요구사항을 충족하고, 유연성을 확보하기 위한 Ceph 스토리지 구성을 추천했다. 또한 향후 올 SSD 노드 구성이나 기술적 과제에 대해서도 함께 언급했다.

 
▲ 월마트의 오픈스택 활용 사례는 세계 최대 규모로 손꼽힌다

현재 월마트의 오픈스택 인프라 규모는 6개 이상의 데이터센터에서 17만 개 이상의 프로세서 코어를 갖추고 있고, 오픈스택 리전은 20~30개 정도를 갖추었으며, 프로덕션 환경은 Liberty 버전으로 구성되었고, 관리와 배포를 위한 Ansible 을 사용하고 있는 것으로 소개되었다. 그리고 월마트의 PaaS 전략은 플랫폼 차원에서의 애플리케이션 라이프사이클 매니지먼트를 갖춘 ‘OneOps’로, 인프라 내에서 60개 이상의 오픈소스 제품이 활용되고 있고, 4만개 이상의 배포와 10만개 이상의 자동 복구 이벤트 등이 일어나고 있다고 덧붙였다.

한편 월마트는 Ceph에도 중요 기여자 중 하나로 꼽히며, 대규모의 Ceph 스토리지를 그들의 오픈스택 인프라에 활용하고 있다. 이들의 초기 오픈스택 클라우드에는 일시적인(ephemeral) 스토리지를 활용했는데, 이는 스케일링 문제나 성능 문제, 앱 레이어에서의 리커러비 문제 등과 함께, 클라우드 앱과의 궁합 문제도 있었고, 아직도 활용되는 전통적인 앱에서의 활용 측면도 아쉬운 부분이라고 소개했다.

이에 월마트는 클라우드를 위한 지속적(persistent) 스토리지 구축을 고려했는데, 이는 전통적인 RDBMS 타입의 애플리케이션에도 대응할 수 있다는 점이 특징으로 꼽혔다. 그리고 이 스토리지는 크게 VM을 위한 전통적인 블록 스토리지, 전통적인 오브젝트 스토리지, 빅데이터를 위한 대규모 오브젝트 스토리지의 세 개 영역으로 나뉘어 구성되었다고 설명했다. 이와 함께 이전의 Ceph 구성 경험 측면에서는, 고밀도 구성에서의 문제와 함께 블록 스토리지에는 더 이상 하드 디스크를 추천하지 않고, 장애 대응을 위해 작은 클러스터 구성을 피하고자 했다고 덧붙였다.

 
▲ 월마트는 향후 SSD 기반 블록 스토리지 Ceph 노드를 좀 더 저밀도 분산형으로 계획하고 있다

현재 월마트가 쓰는 블록 스토리지를 위한 올 SSD Ceph 노드는 노드별 두 개 프로세서로 24코어 48쓰레드, 128GB 메모리, 10개 SATA SSD와 낮은 레이턴시의 저널링(Journaling)을 위한 1개의 NVMe 드라이브, 듀얼 10Gb 네트워크 인터페이스로 구성되어 있다고 소개되었다. 그리고 현재 문제점으로 가장 먼저 꼽힌 것은 듀얼 프로세서 구성에서 오는 NUMA 이슈로, 삼성전자가 선보인 24개 NVMe 구성의 레퍼런스 시스템 디자인 등에서도 추가적인 튜닝을 통해 20~30% 성능 향상을 기대할 수 있을 것이라 덧붙였다.

또한 현재 사용하는 듀얼 10Gb 네트워크의 대역폭도 충분치 않으며 향후엔 25Gb 구성을 계획하고 있고, 10개의 SSD를 위한 듀얼 디스크 컨트롤러도 그리 효율적이지 않으며 될 수 있으면 단일 컨트롤러로 가는 편이 좋다고 지적했다. 이와 함께, 전통적인 서버 제조사들의 제품은 현재 인프라에 요구되는 만큼 충분히 혁신적이지 못하다는 점도 덧붙였다. 이에 향후의 올 SSD Ceph 노드 구성 계획은 단일 프로세서와 가격이 낮아진 올 NVMe 구성, 저내구성 플래시나 단일 전원공급장치 이용 등 좀 더 간소화된 모습을 보이는 것이 특징이다.

이 간소화 측면의 핵심은 분산 처리를 통해 노드 교체로 장애를 해결할 수 있는 디자인이며, 단일 소켓과 더 낮은 프로세서 코어 수, 단일 전원공급장치 등으로 노드 비용을 낮출 수 있는 효과도 있다. 또한 스토리지 티어링 구성으로 성능과 내구성 측면의 균형을 조율함으로써, 굳이 데이터센터용 고내구성 SSD를 사용하지 않아도 된다고 덧붙였다. 현재 해결해야 될 문제로는 적은 큐 깊이 워크로드에서의 낮은 지연시간, 자동화 도구 측면, 그리고 커널과 RBD 캐시 버그 등이 꼽혔다.

 
▲ 한편 빅데이터 인프라에는 여전히 하드 드라이브가 효과적이라는 평가다

월마트의 빅데이터 인프라는 인스턴스 단위의 애플리케이션이 컴퓨트 자원을 할당받고, 이들이 스위프트(Swift) API를 통해 공용 오브젝트 스토리지에 접근하는 형태로 구성되어 있으며, 이 구성의 규모는 점차 늘어나고 있다. 그리고 이를 위한, 하드 드라이브 구성의 Ceph 노드 구성은 올 SSD 구성과 유사하게 24코어 48쓰레드와 128GB 메모리, 12개의 SATA 드라이브와 1개의 NVMe 혹은 SSD 캐시 드라이브, 듀얼 10Gb 혹은 25Gb 네트워킹을 가지고 있다.

그리고 빅데이터에서의 Ceph 활용에 있어서 해결해야 할 과제로는 Ceph Jewel의 RGW 버그가 꼽혔으며, 10.2.2에서 10.2.3으로 버전이 올라가면서 48개의 RGW 버그가 해결되었다고 소개했다. 또한 RGW의 연결 수 제한을 극복하기 위한 클러스터 확장이나, 30Gbps 이상으로의 지속적인 대역폭 확장 문제 등과 함께, SwiftFS의 버그 등도 해결해야 할 과제로 꼽혔다. 이와 함께 향후에는 ‘마닐라(Manila)’ 등의 파일 기반 스토리지나 하이퍼컨버지드 형태의 스토리지 도입으로 상면 면적 절감, 컨테이너를 위한 지속적 스토리지 구축 등을 고려하고 있다고 덧붙였다.

Copyright ⓒ Acrofan All Right Reserved.

디지털 마케팅의 새로운 장을 만들다! 신개념 퍼포먼스마케팅 플랫폼 '텐핑'

[명칭] 아크로팬   [제호] 아크로팬(ACROFAN)    [발행인] 유재용    [편집인] 유재용    [청소년보호책임자] 유재용
Copyright © ACROFAN All Right Reserved