본문 바로가기
카테고리 없음

빅데이터분석기사-part 02빅데이터 탐색-

by 마르쿠스 아우렐리우스 2022. 7. 18.
반응형

chapter 01

데이터 전처리

section 01

데이터 정제

데이터 정의,단위,관측값,변수,원자료,RAW DATA,분석 전 자료,질적자료,정성적 자료,서열자료,명목자료,정성적 자료,범주형 자료,명목자료,질적자료의 한 종류,서열자료,질적자료,정성적 자료,구간자료,수치자료,서열자료 의미 포함,비율자료,수치자료의 한 종류,수치환된 변수에 비율의 개념 도입,비율자료,사칙연산 가능,명목자료,성별,연령대,비율자료,키,몸무게,월수입,서열자료,성적 순위,구간자료,온도,데이터의 정제,추출하고 통합하는 과정,데이터를 수집,저장,변환,품질확인,관리
데이터 정제의 과정과 요소,데이터를 수집,원하는 형태로 변환,원하는 장소에 저장,저장된 데이터의 활용가능성을 타진하기 위한 품질확인,필요한 시기와 목적에 따라 사용이 원활하도록 관리의 과정이 필요,이상치,다른 측정값들과 비교하여 현저한 차이를 보이는 샘플 또는 변수 값,수치의 크기에 의미를 부영할 수 있는 자료,수치자료,정량적 자료,정량자료,결측값의 종류,완전 무작위 결측,대규모 데이터에서 단순 무작위 표본추출을 통해 처리 가능,무작위 결측,비 무작위 결측,데이터의 누락,완전 무작위 결측,여성은 체중 공개를 꺼림,무작위 결측,젊은 여성은 체중공개를 꺼림,무작위 결측,무거운 사람은 체중 공개를 꺼림,비 무작위 결측,

*평균 대치법-추정량 표준오차의 과소 추정을 보완하는 대치법으로 Hot-deck 방법이라고 한다

*단순확률 대치법

*이상치-비무작위성을 가지고 나타나게 되면 데이터의 정상성 감소를 초래하며 이는 데이터 자체의 신뢰성 저하로 연결될 가능성이 있다.

반응형