ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [데이터 사이언스] 빅데이 봐봐요
    카테고리 없음 2020. 1. 25. 20:48

    [들어와] 나의 블로그 "통계" 카테고리에 데이터 사이언스 폴더를 만들었습니다. 저는 데이터 분석에서 시작해서 사이언스에 이르기까지 통계가 기본이 되지 않으면 결코 좋은 분석과 좋은 사이언스가 될 수 없다고 소견하는 사람 중 하나입니다. 그래서 여기에 데이터 사이언스를 하는데 필요한 통계지식을 정리해서 포스팅해보도록 하겠습니다. 요즘은 30개 정도의 소견하고 있지만 본인의 집에 주는 것을 본 사람 항상 수도 있는 것 같습니다.여러분이 소견하는 빅데이터는 어떤 데이터죠? 50mb가 넘는 txt파일. 하나 50mb가 넘는 xlsx파일?...시 3V, 본인 아가 4V로 알려진 Volume(용량)Velocity(속도)Variety(다양성)+Value(가치)이어 5V와 Veracity(신뢰)까지 추가된 이런 걸 토올리쇼쯔 본인인가요? 나도 대학에서 빅 데이터 관련 수업을 받을 때 이런 개념에서 배웠습니다만, 내가 지금 갖고 있는 빅 데이터의 개념은 이런 것은 아닙니다. ​'알 파코'이 '이세돌 9단'를 이긴 시점을 기준으로 인공 지능에 대한 관 심이 폭발적으로 증가한 것은 사실임. 하지만 최근 관련 키워드로 검색해 보면 단순히 관심이 늘어난 것이지 올바른 지식이 본인의 가치관이 확립된 것과는 확연히 다른 것 같다고 느껴지는 게 사실.(게다가 학원 선전이 절반 이상입니다.) 커뮤니티 본인의 게시글을 보면 용량이 큰 빅데이터를 고문하고 짜내면 그럴듯한 패턴과 정답이 도출된다고 소견하는 사람이 굉장히 많은 것 같습니다. 줄거리는 거의 고문법이었습니다. 이렇게 좁히면 패턴이 본인 올까요? 어떻게 가면 정확도와 리콜이 올라갈까요? 이유는 모르겠지만 대충 때리니까 너무 난예측률이 본인이었어요! 등. 인공지능은 그런 '마법'이 아닙니다.(특히 본인 인공지능, 딥러닝으로 '주가'를 예측할 수 있다고 예상하는 분... 그리고 믿으시는 분들... 그게 사실이라면 세계 금융시장은 이미 붕괴된 것 아닌가?), 그럼 당신이 소견하는 빅데이터의 개념은 무엇인가?라고 궁금해 하실 것입니다. 예를 들어 시 여러분 'Amazon Go'를 아시나요?


    >


    모르는 분들을 위해 간단히 설명하자면, 계산하는 점원이 없는 편의점(또는 슈퍼마켓)을 소개해 주세요. 현재는 미국 하나부에서만 시범 운영을 하고 있는 것으로 알고 있는데요. 이용방법은 간단합니다. 이용자 휴대폰에 설치된 앱(결제카드까지 등록된 상태)에서 발생한 QR코드를 찍고 마켓의 바리게이트를 허용하여 진입합니다. 둘러보며 구입하고 싶은 상품을 골라 손에 넣거나 자신의 가방에 넣어 놓고 집에 시장을 빠져나가면 미리 등록해 둔 결제방식으로 자동 결제되는 시스템이다. 게다가 뽑았다가 다시 내려도 이 모든 것을 인식합니다. 예를 들어 시를 잘 이해하지 못하는 분들이 계실 것 같아 제가 평소에 나쁘게 생각하지 않는 유튜버 관련 영상 링크를 처음부터 첨부합니다. 관심 있는 분들은 아마존의 시스템을 이해한다는 의미에서도 나쁘지 않다고 생각합니다.빅데이터의 개념을 물어봤더니 갑자기 왜 아마존고 스토리가 나왔냐면 아래 아마존고 마켓의 사진을 보세요.


    >


    안 보여요? 안 보인다고요?


    >


    벌써 오셨어요? 빨간 사각형 안에 있는 게 전체 카메라예요. 저 카메라를 사용하여 고객이 제품을 골랐는지 여부를 판단하지만(한층 더 선반에 무게감지 센서도 있다고 합니다. 다른 기술이 있는지는 저도 모르겠어요. 그것은 기본이고, 고객이 어느 상품을 우선적으로 쇼핑했는지, 어느 패턴(동선)을 보여주면서 마켓을 구경하고 있는지 등, 때때로 매우 많은 정보를 관찰하고 저장하고 있을 것입니다.제가 말하는 빅데이터는 이런 데이터입니다. 온라인 쇼핑몰에서 예를 들어 단순히 어떤 사용자가 '어떤 키워드로 검색'하고 '어떤 상품을 구매'했습니다. 수준 정보가 아니라 한 사용자가 평소 자주 어린이 A사이트에서 이 키워드, 저 키워드로 검색하고 클릭해서 우리 쇼핑몰을 몇 번째로 클릭하고, 몇 초간 머물면서 페이지 스크롤을 어떻게 했는지 등등. 아마존고에서수집하는것처럼"흐름정보"를빅데이터라고부릅니다. 물론 나도 "기존의 3V~5V가 잘못된!"는 내용 없습니다. 그러나 단순히 이런 단어로 빅데이터를 규정하기에는 뭔가 석연치 않은 부분이 있다고 말하고 싶었다.[빅데이터가 정답이 아님] 빅 데이터 시대가 왔다며에는( 제1 작은 듯하게 우리 본인라 정에서)데이터를 구하는 것은 아직 어두운 하항시의 또 꿈입니다. 공공 데이터가 오픈되고 있지만 가치 없는 데이터가 많기도 하고 좋은 데이터도 많습니다.)실제의 상업적 인사이트를 도출할 것 같은 데이터는 모두 천문학적 가치를 지니고 있고 데이터를 문채 파는 것은 개인 정보 보호 법 위반 1이기 때문에 데이터 사이언스의 한 단계 데이터밖에 1이 쉽지 않은 실정입니다. 어렵게 어렵게 데이터를 입수했다고 해도, 자주 볼 수 있는 결측값과 여러가지 요인(측정 에러, 기입 에러 등)으로 잘못된 값이 쓰여져 있거나, 각각 절대값이 다를 수 있습니다. 고런 데이터들을 보정하는 것이 전 처리지만 저는 데이터 분석(사이언스)에서 데이터의 사전 처리가 90%를 차지하고 있자면 훈계할수록 데이터 전처리를 소중하게 합니다. 데이터 전처리 후 분석을 해서 전처리 단계에서 적용할 다른 아이디어가 본인에게 와서 분석 과정과 그 결과를 모두 폐기한 적도 있습니다. 실제로 이런 1이 일반적입니다. 통계학이 본인의 관련 연구, 업계에 종사하는 분도 많이 경험하고 있을 것입니다.쉽게 내용하면 대량의 데이터보다 좋은 질의 데이터가 더 중요하다는 뜻이며, 그 관점에서는 데이터 샘플링이 매우 중요한 스킬의 1가지라고 생각됩니다. 물론 어느 정도 질이 떨어져도 많은 '양'으로 커버될 경우도 있으나 교루네고 볼일 1정 수준의 품질이 보장되는 데이터에 국한된 이 말입니다. 컴퓨터공학에서많이들어본GIGO(Garbage in,garbage out)현상입니다. 같은 맥락에서 많은 사람들이 빅데이터는 샘플링이 필요 없다고 느낄 수 있지만 제가 보기에는 더 중요해진 것 같아요. 조용한 내용을 가지고 완벽한 전수 연구가 이루어지고 그 방대한 자료를 간단하게 계산할 정도의 기술(CPU, GPU의 빠른 연산 속도와 방대한 보존 공간)이 발전하지 않는 한 표본 추출을 가볍게 생각해서는 안됩니다.​ 하나 936년 란돈과 루스벨트의 중 누가 대통령 선거에서 승리할지 예측한 다이제스트와 한국 갤럽의 1화는 충분히 많이 알려진 사례 중에 하봉잉입니다. 그 당시 다이제스트는 천만명이 넘는 사람들에게 설문을 연구했지만 갤럽은 2000명 안팎의 사람들을 연구했습니다. 다이제스트는 랜던이 당선된다고 발표했지만, 갤럽은 루스벨트의 당선을 점치고 결과는 우리 모두가 알다시피 갤럽의 승리였습니다. 다이제스트의(빅 데이터)표본이 심각하게 편향된 때문에 이런 1이 발생한 것입니다.다음 포스트에서는 고란 테마. 즉, 표본추출(샘플링)에 대해 포스팅하기로 합니다. 여기까지 읽어주시고 감사합니다


    댓글

Designed by Tistory.