본문 바로가기

분류 전체보기

(131)
[240201-02] 머신러닝 - 회귀/분류 모델링 심화, 비지도 학습, 딥러닝 [머신러닝의 이해와 라이브러리 활용 심화 by 임정 튜터] 1. 데이터 분석(예측모델링) 프로세스 https://datananalysis.tistory.com/71 2. 회귀, 분류 모델링 심화(알고리즘) 1) 의사결정나무(Decision Tree, DT) : 의사결정규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석 방법 - 의사결정나무 시각화 예시 - 타이타닉 데이터 성별 기준 - 주요 명칭 └ 루트 노드(Root Node): 의사결정나무의 시작점. 최초의 분할조건 └ 리프 노드(Leaf Node): 루트 노드로부터 파생된 중간 혹은 최종 노드 └ 분류기준(criteria): sex는 여성 0, 남성 1로 인코딩. 여성이면 좌측 노드로, 남성이면 우측 노드로 ..
[240201] 머신러닝 - EDA, 데이터 전처리(이상치/결측치/인코딩/스케일링/데이터분리) [머신러닝의 이해와 라이브러리 활용 심화 by 임정 튜터] 1. 데이터 분석(예측모델링) 프로세스 1) 데이터 수집 ▶ 데이터 수집에 따른 프로세스 - 실제 데이터 수집은 개발을 통해 데이터를 적재하고 수집하는 데이터 엔지니어링 역량이 필요 - 주로 데이터 분석가는 이미 존재하는 데이터를 추출해 리포팅 혹은 머신러닝을 통한 예측을 담당 ① Data Source - OLTP Database: 온라인 쇼핑, 주문 등 동시에 발생하는 다수의 트랜잭션(데이터베이스 작업의 단위) 처리 유형 * OnLine Transaction Processing의 약자 - Enterprise Applications: 회사 내 데이터 (ex 고객 관계 데이터, 제품 마케팅 세일즈) - Third - Party: Google Ana..
[240131] SQL: 코드카타 118 & 파이썬: 코드카타 28 [SQL 코드카타] 585. Investments in 2016 https://leetcode.com/problems/investments-in-2016/ 1) 어떤 문제가 있었나 ① 2015년에 투자한 액수가 다른 유저 1명 이상과 같고, ② 위도경도는 다른 유저와 같지 않은, 유저/들의 2016년 투자금 합계 구하기 2) 내가 시도해본 건 무엇인가 위도경도를 concat으로 합치고, cross join 하여 where 로 문제의 조건을 추출해보고자 했으나 실패 3) 어떻게 해결했나 tiv_2015와 위도경도를 각각 group by 하여 count한 값을 with 절로 빼고, 메인 쿼리에서 모두 조인 후 조건절 추가 with tiv_2015 as (select tiv_2015, count(*) 2015..
[240130-31] 머신러닝 - 선형회귀, 로지스틱회귀 [머신러닝의 이해와 라이브러리 활용 기초 by 임정 튜터] 1. 머신러닝의 기초 1) 머신러닝 정의 및 발전 배경 ▶ 머신러닝 용어 정리 - AI: 인간의 지능을 요구하는 업무를 수행하기 위한 시스템 └ Machine Learning: 관측된 패턴을 기반으로 의사 결정을 하기 위한 알고리즘. 다른 말로 하면 대용량 데이터의 패턴을 인식하고 이를 바탕으로 예측, 분류하는 방법론 · Deep Learning: 인공신경망을 이용한 머신러닝 - Data Science: AI를 포괄하여 통계학과 컴퓨터공학을 바탕으로 발전한 융합 학문(근거/데이터 기반 의사결정) - Data Analysis: 데이터 집계, 통계 분석, 머신러닝을 포함한 행위 ▶ 머신러닝의 발전 ① 통계의 발전: 비용(돈과 시간)의 한계로, 표본집..
[240130] SQL: 코드카타 117 & 파이썬: 코드카타 27 [SQL 코드카타] 602. Friend Requests II: Who Has the Most Friends https://leetcode.com/problems/friend-requests-ii-who-has-the-most-friends/description/ 1) 어떤 문제가 있었나 친구 초대 및 승락 리스트에서 친구가 가장 많은 사람의 id와 친구수 구하기 2) 내가 시도해본 건 무엇인가 3) 어떻게 해결했나 union all로 requester_id와 accepter_id 를 교차하여 연결 후 with 절로 빼고, 메인 쿼리에서 친구수가 가장 많은 id랑 친구수만 추출 with union_table as (select requester_id, accepter_id from RequestAccep..
데이터 분석 기초: 개인 과제 풀이 및 해설 정리 과제 목표 - 주어진 데이터는 1년 동안 Github public repository(개발자들의 코드 저장소)의 푸시 횟수입니다. └ Github의 공개 저장소에 대한 기록은 모두에게 공개되어 있으며, Bigquery에 데이터베이스 형태로도 저장되어 있습니다. - 아래 데이터는 2019년 2월 1일 ~ 2020년 1월 14일, 약 1년간 각 일자별 Push(코드 업데이트) 횟수입니다 └ 각 개인 별 데이터는 취합되었기 때문에 확인이 어려우며, 전 세계의 데이터이기 때문에 하루에도 수십만회 Push가 이루어집니다. - 본 과제의 목표는 요일 별 Push 횟수에 유의미한 차이가 있는지 확인하는 것입니다. └ 이를 위한 데이터의 기본적인 전처리가 과제이며, 실제 통계 분석은 예시로 제공됩니다. Question..
파이썬: 개인 과제(필수) 풀이 및 해설 정리 문제 1. 제품 재고 관리 - 배경: 당신은 소매점에서 근무하며 제품의 재고 관리를 담당하고 있습니다. 제품의 재고는 매주 갱신되며, 재고가 부족하거나 과잉인 제품을 식별하는 것이 중요합니다. - 목표: 주어진 제품의 재고 데이터를 분석하여, 재고가 기준치 미안인 제품과 기준치 초과인 제품을 식별하는 프로그램을 작성하세요. - 데이터: └ 재고 데이터는 이중 리스트로 제공되며 첫 번째 전달인자로 받습니다 · 이중 리스트의 각 요소는 [제품명, 현재 재고량] 형식의 리스트입니다. · 예: [['Apple', 30], ['Banana', 20], ['Orange', 50]] └ 재고 기준치는 함수에서 두 번째 인자(하나의 기준치)로 받습니다. 기준치 이하면 재고가 부족한 것으로, 기준치 이상이면 재고가 과잉..
[240129] SQL: 코드카타 116 & 파이썬: 코드카타 25~26 [SQL 코드카타] 1321. Restaurant Growth https://leetcode.com/problems/restaurant-growth/ 1) 어떤 문제가 있었나 레스토랑의 현재 일자 + 이전 6일간의 총 매출과 매출 평균을 구하는 문제로 sum, avg 윈도우 함수 내 moving average로 간단하게 값을 구하려고 했으나 실패 > 현재 총 7일 누적된 값을 내야 하는데, 첫 날짜부터 마지막 날짜까지 쭉 추출됨 2) 내가 시도해본 건 무엇인가 윈도우 함수 활용한 쿼리를 form 절 서브쿼리로 넣고, where로 날짜 조건을 걸었으나 값이 2개인 날짜의 합계 값이 누락됨 #오답 select visited_on, amount, average_amount from (SELECT visited..