DevOps
[Mac] Docker 설치하기 (with Docker for Desktop)
Docker는 리눅스 컨테이너를 관리하는 기술로 macOS와 Window에서 네이티브로 사용할 수 없다. 하지만 mac과 window에서도 Docker for Desktop을 사용하여 도커를 사용할 수 있게 되었다. Docker for Desktop은 docker, docker-compose 모두 포함되어 있으며 GUI를 제공한다. 도커 데스크탑을 이용하는 게 편하긴 하지만 모든 기능을 다 사용 가능한 것은 아니기 때문에 리눅스에서 사용하는 게 제일 best! 이번에는 Docker for Desktop을 설치하여 도커를 설치해보려고 한다. Docker for Desktop 설치하기 Install Docker Desktop on Mac docs.docker.com 위의 페이지에서 설치할 수 있으며 또는 아..
[Mac M1] Ubuntu 설치하기
1. Ubuntu Server for ARM를 다운로드한다. https://ubuntu.com/download/server/arm Ubuntu for ARM | Download | Ubuntu Download Ubuntu Server for ARM with support for the very latest ARM-based server systems powered by certified 64-bit processors. ubuntu.com 2. 아래 링크에서 Assets를 클릭한 후, UTM.dmg를 다운로드 받아 설치한다. https://github.com/utmapp/UTM/releases Releases · utmapp/UTM Virtual machines for iOS and macOS. Cont..
[Spark] RDD(Resillient Distributed Data)란?
Spark 의 데이터 구조 Spark 의 데이터 구조는 아래와 같이 크게 3가지 종류로 분류할 수 있다. RDD (Resillient Distributed Data) Dataframe Dataset 이 중 RDD는 Spark에 가장 먼저 도입된 데이터 구조이다. RDD 개념 RDD(Resillient Distributed Data)란? Resillient (회복력 있는, 변하지 않는) 메모리 내부의 데이터가 손실되었을 때, 유실된 파티션을 재연산해 데이터를 복구할 수 있음 Distributed (분산된) 스파크 클러스터를 통하여, 메모리에 분산되어 저장됨 Data 파일, 정보 등의 데이터 즉, RDD 는 여러 분산 노드에 걸쳐 저장되는, 변경이 불가능한 데이터의 집합이다. 따라서, RDD 를 변경하기 위..
데이터 엔지니어링이란?
데이터 엔지니어링이란 데이터를 가져와 분석하기 좋은 형태로 가공하는 것이다. 데이터 가공 작업을 ETL(Extractingm Transforming, Loading) 작업이라 하며, 데이터를 추출, 변형, 저장하는 작업이다. 요즘에는 기존의 ETL 방식에서 ELT 방식의 아키텍쳐로 변환하고 있다. 시스템의 복잡도에 따라 데이터 추출과 적재를 한번에 하기도 한다. 데이터 아키텍쳐 분야를 크게 6가지로 나누어 보면 아래의 표로 나타낼 수 있다. Source 비즈니스와 운영 데이터 생성 Ingestion & Transformation 운영 시스템에서 데이터 추출 (E) 추출된 데이터를 저장하고 스키마 관리 (L) 데이터를 분석할 수 있도록 변환 (T) Storage 데이터를 쿼리와 처리 시스템이 쓸 수있도록저..