[240319] 스파크(spark): 배경 및 기본 구조, 기능
[spark를 이용한 빅데이터 분석 by 안창배 튜터] [1] 스파크(spark): 컴퓨터와 데이터, 메모리, 클라우드 [2] 스파크(spark): 병렬/분산처리, 샘플링, 분할, Dask, 자동화 1. Spark란? 1) 스파크 등장 배경 - 과거엔 대규모 연산 및 데이터 처리를 프로세서 성능 향상에 맡겼으나, 물리적 방열 등 단일 CPU 기능 개선에는 한계가 있었음 - 하여, 모든 코어가 같은 속도로 동작하는 병렬 CPU 코어를 더 많이 추가하는 방향으로 발전 선회 - 데이터 수집 비용이 저렴해져 데이터 클러스터에서 처리해야 할 만큼 거대해짐 2) 스파크의 역사 - 요약: 스파크는 많은 변화를 겪어 왔으며, 최소 2022년 이후 자료를 살펴보는 것을 추천 - UC 버클리 대학교에서 2009년 스파크 ..
[240315] 스파크(spark): 컴퓨터와 데이터, 메모리, 클라우드
[spark를 이용한 빅데이터 분석 by 안창배 튜터] 1. 왜 스파크일까? - 스파크 Apache Spark 란? [상세 정의] └ SQL, 스트리밍, 머신러닝 및 그래프 처리를 위한 기본 제공 모듈이 있는 대규모 데이터 처리용 통합 분석 엔진 └ 클라우드의 Apache Hadoop, Apache Mesos, Kubernetes에서 자체적으로 혹은 다양한 데이터 소스에 대해 실행 가능 └ 쉽게 말해, 대용량 데이터를 다루는 것에 특화된 프레임 워크 └ (cf) Apache는 오픈소스를 제공하는 재단인데, 스파크도 관리하고 있음 - 스파크를 배우는 이유 └ 기술적이고, 난이도가 높고, 실제로 쓰리라는 보장은 없으나 · Pyspark: Python을 기반으로 하여 별도의 언어 공부가 필요 없음 · 대용량 ..