- 데이터 분석은 왜 하는가
첫번째 이유는 데이터가 있기 때문에 놔두면 아까운 자원이기에 사용한다.
두번째는 혁신을 통한 경쟁력 향상이다. 데이터를 분석하여 새로운 가치를 생산하는 것이기 때문에 결론적으론 돈으로 귀결되는 것 같다. - 빅데이터 플랫폼을 구성하는 하둡 에코시스템이란?
빅데이터 플랫폼이란 빅데이터를 수집, 저장, 분석하는 프로세스와 시스템을 말한다.
여기서 에코 시스템이란 빅데이터 플랫폼을 기반으로 한 유기적인 연계 체계와 생태계이다.
하둡은 먼저 아파치 소프트웨어 재단에서 개발된 오픈소스 소프트웨어이며 대규모 데이터를 저장 처리 분석을 해주는 플랫폼이다.
분산 컴퓨팅 환경을 구성하는게 주요포인트며 서버의 성능이 좋지 않아도 수평적 확장을 이용한 분산 저장시스템으로 빅데이터 분석에 이용된다. - 데이터 마이닝은 주로 정형 데이터를 분석하는 반면에 데이터 과학은 빅데이터를 분석한다.
데이터 과학자는 빅데이터를 분석하기 위하여 어떤 능력을 개발하여야 하는지 설명하세요.
데이터 과학자는 빅데이터를 분석하기 위하여 빅데이터의 신기술들을 이해해야 한다. 데이터 과학은 1.빅데이터 2.데이터과학자 3.기술 세가지로 구성되며 결국은 데이터 과학자가 자원을 활용할 기술능력을 개발해야한다. 그 기술능력과 더불어 수학과 통계지식, 그리고 현업지식 그리고 신기술들의 충분한 이해도가 데이터 과학자가 지녀야할 역량이라고 한다.
'23년 가을학기 > 빅데이터 분석' 카테고리의 다른 글
1. 4차 산업혁명과 데이터 과학 (0) | 2023.09.06 |
---|