01.빅데이터_분석

빅데이터분석기사-part 01 빅데이터 분석기획-

마르쿠스 아우렐리우스 2022. 7. 15. 14:46
반응형

chapter 03

section 02

데이터 적재 및 저장

데이터 적재 완료 테스트 정형 데이터 체크리스트,테이블의 개수,속성의 개수,레코드의 개수,NoSQL 데이터베이스 저장방식 종류,key-value,column-oriented,document 데이터베이스,빅데이터 저장시스템 선정을 위한 분석 요소,기능성 비교분석,분석대상 데이터 유형,기존 시스템과의 연계성,빅데이터 저장시스템 선정을 위한 기능성 비교분석 요소,트랜잭션 일관성,확장성,데이터모델,스트리밍 대이터 특징,대용량성,실시간성,무중단성,key-value 데이터베이스,확장성 뛰어남,질의응답시간 빠름,키와 값의 쌍으로 저장하는 방식,단순한 데이터 모델,데이터 수집 목적,플루언티드,스크라이브,로그스태시,하둡 분산파일 시스템
하둡 아파치 진영,분산 처리를 위한 파일 시스템,데이터 복제 기법 사용,블록으로 분산하여 저장,기본 크기는 64MB,하둡의 장점,비정형 데이터 저장 및 분석에도 효율적,오픈소스 하둡은 무료로 사용할 수 있으며 지술지원이 용이하지 않다,병렬처리 결과,과부하나 병목현상 줄어듬,장비의 수를 증가시킬수록 성능이 향상,Input-Splitting-Mapping-Shuffling-Reducing-Final result,NoSQL 기술,관계형 데이터베이스보다 유연한 데이터의 저장 및 검색 제공,확장성,가용성 제공,일관성과 가용성 포기,지속성을 제공,ACID 특성 중 일부만을 지원,column-oriented 데이터베이스 특징,연관된 데이터 읽는데 유리한 구조,하나의 레코드를 변경하려면 여러 곳을 수정,압축 효율이 좋다,범위 질의에 유리하다,document-oriented 데이터베이스,문서마다 다른 스키마,레코드 간의 관계 설명이 가능,개념적으로 관계형 데이터베이스와 비슷하다,
relational 데이터베이스 특징,무결성과 정확성 보장,일관성 필요하다,정규화된 테이블과 소규모 트랜잭션,확장성 한계,클라우드 분산 환경에 부적합,CAP 이론,분산 환경에서 일관성,다른 노드에 영향을 주지 않아야 하는 가용성,데이터 손실하더라도 지속성,NoSQL 데이터베이스 지속성 보장,시스템별 필요 조건,관계형 데이터베이스 일관성,가용성,대용량 분산 파일 시스템은 일관성과 지속성이 보장,비동기식 서비스는 가용성과 지속성이 보장,일관성,가용성,지속성 모두 보장은 어렵다,NoSQL의 기술적 특성,표준 SQL 질의 언어제공하지 않는다,고정된 데이터 스키마 없이 키 값을 이용,다양한 형태의 데이터 제장 및 접금이 가능하다,응용 시스템의 다운 타임이 없도록 하는 동시에 대용량 데이터의 생성 및 갱신,대규모 질의에도 고성능 응답 속도를 제공할 수 있는 메모리 기반 캐싱 기슬을 적용하는 것이 중요,빅데이터 저장시스템 선정을 위한 기능성 비교분석 항목 중 트랙잰션 일관성에 대한 설명,데이터 수정,삭제 작업이 빈번하게 일어나는 환경에서 중요도가 높다,트랜잭션의 일관성이 중요한 분야에서는 RDBMS를 선택,트랜잭션이 안전하게 수행된다는 것을 보장하기 위한 ACID 요소 중 하나의 성질,
빅데이터 저장시스템 선정을 위한 기능성 비교분석 항목 중 질의 지원,MongoDB는 SQL과 유사한 문법에 기반을 두어 쉽게 학습할 수 있는 인터페이스 지원,CouchDB,Hbase나 HyperTable은 자체 질의 지원 기능은 제공하지 않으나 Hive를 통해 SQL과 유사한 형태의 질의기능,key-value 데이터베이스의 대표 격인 Redis 풍부한 질의기능 제공,대용량 실시간 서비스 데이터 저장 시 고려해야 할 내용,빅데이터 저장 계획 수립에 반영,대용량의 특성과 무중단 서비스를 보장하는 저장 체계를 구축,실시간 서비스를 웹 페이지로 제공하는 것이 필요한 환겨에서는 Redis와 같은 메인 메모리 저장 시스템을 저장소로 사용,스파크는 내장된 저장소를 제공하지 않으므로 외부 저장 시스템과의 연계가 필수적이다.

반응형