Data-writing 8

인생 대박을 위한 로또 번호 추천하기

한동안 데이터를 개인의 생활에 어떻게 활용할 것인가에 대한 고민과, 데이터 분석 결과 활용의 효과성에 의문을 갖으며 상당기간 데이터 분석과 거리를 두어 왔습니다. 한 6개월 지나니 배운 게 도둑질이라고 다시금 데이터 분석에 대한 흥미가 조금씩 살아나기 시작하네요. 이전까지는 데이터 활용을 기술적인 관점에서 바라봤었다면, 앞으로는 흥미를 잃지 않고 개인의 일상에서 어떻게 활용할 수 있는지를 바탕으로 직접 활용하는 데이터 분석들을 포스팅해보고자 합니다. 배경 최근 로또 당첨 예측 서비스를 제공하며 거짓 당첨 후기 등을 동원해 10년간 사기 행각을 벌인 일당이 적발된 사건이 있었습니다. 기사를 보면 데이터 분석을 통해 로또번호 예측 서비스를 제공하면서 자신들이 제공한 번호에서 다수의 1등이 나온 것처럼 속여 ..

Data-writing 2022.10.22

데이터를 이용한 상품 트렌드 파악하기

배경 최근 인터넷 플렛폼 사업자들은 소상공인들이 온라인으로 진출할 수 있도록 정말 많은 지원을 하고 있으며, 특히 네이버 스마트스토어는 사실상 비용 없이 쇼핑몰을 열 수 있도록 서비스를 설계하여 적극적으로 생태계 확대를 위해 노력 해 오고 있습니다. 이처럼 쇼핑몰 개설이 쉬워지면서 기존의 소상공인 뿐만 아니라, 일반 개인 심지어 학생들 까지도 온라인 쇼핑몰 사업에 뛰어드는 등 누구 에게나 열린 온라인 장터 시대가 되었습니다. 저희 가정에도 최근 쇼핑몰을 시작한 가족이 있습니다. 옆에서 지켜보니 온라인은 경계가 없는 만큼 일반 개인들과의 무한 경쟁에서 그치는 것이 아닌, 체급이 다른 기업들과도 경쟁하는 만큼 많은 부분에서 역량의 부족함이 발생하게 됩니다. 이번 글에서는 판매 아이템 선정 과정에서 과거의 판..

Data-writing 2021.09.22

데이터분석 전문가(ADP) 실기 후기

지금까지 총 5회 ADP 실기를 보면서, 정리해야지 생각만 하고 미뤄두었던 ADP 실기 이야기를 써보고자 합니다. 5번의 실기 응시 데이터 분석 및 Kaggle을 접하기 시작한 2018년, 해당 분야에 대해 어떻게 공부 해야 할지 정보가 없던 시절이었기에 관련 분야를 전반적으로 아우르는 ADP 필기/실기 공부가 좋은 지침이 될 거라는 생각을 가지고 공부를 시작한 것이 벌써 3년이 되어가고 있네요. 전공자도 아니고, 관련된 커리어에 종사하고 있지 않기에 조금은 힘을 빼고 ADP 자격증을 응시하다보니, 실기만 벌써 5번을 보았습니다.(회당 7만원...ㅠㅠ) 데이터 관련 분야로 학업을 시작하고, 최근 시험을 응시 하면서 그간 미뤄왔던 ADP 이야기를 기록 하고자 합니다. 시험의 난이도 ADP의 실기는 오픈북인..

Data-writing 2021.03.28

대본으로 놀아보기 #4 대본 요약하기(실패기)

드라마 W 대본을 활용한 데이터 분석 및 활용 ※ 실제 구현 코드는 github상의 jupyter notebook을 참고하시기 바랍니다. 이전 포스팅에서는 gensim의 summerize 기능을 활용한 textrank 기반하여 문장을 만들어 보았습니다. 위 방식으로는 존재하는 문장들 중 관계있는 문장을 차례대로 나열하는데 그쳐 이번에는 다른 방식으로 대본을 요약해 보고자 합니다. 1. LSTM 모델 Keras 창시자에게 배우는 딥러닝 책에서는 LSTM을 활용하여 소설을 학습하여 새로운 문장을 구성하는 예시가 나옵니다. 이를 활용하여 대본을 학습하여 새로운 문장을 만드는 방법으로 대본 요약을 시행 해 보고자 합니다. 본 모델은 음절(문자)를 기반으로 분석하여 다음 문자가 무엇이 올지 예측하는 방법으로 문장..

Data-writing 2020.01.17

대본으로 놀아보기 #3 대본 감성분석, 연관분석, 토픽추출

드라마 W 대본을 활용한 데이터 분석 및 활용 ※ 실제 구현 코드는 github상의 jupyter notebook을 참고하시기 바랍니다. 이전까지(포스팅#1, 포스팅#2) 대본 분석을 위한 대본 정제, 자연어 태깅 등을 수행 하였습니다. 이번 포스팅에서는 앞에서 해본 기법들 위에 감성분석, 연관분석, 토픽추출을 해보고자 합니다. 1. 감성분석 감성 분석을 위해선 어떤 문장이 어떤 감성을 가지고 있는지를 판단하기 위한 자료를 확보하고, 이를 모델에 학습해서 우리가 원하는 문장에 예측시켜야 합니다. 이를 위해 우리는 네이버 영화리뷰로 만든 감성분석 데이터셋을 활용 합니다.(링크) 20,000개의 영화 리뷰에 대하여 별점을 기준으로 긍정(1), 부정(0)으로 구분해 놓은 자료 입니다. 이 리뷰를 형태소 별로 ..

Data-writing 2020.01.11

대본으로 놀아보기 #2 대본 태깅 및 탐색적 자료분석

드라마 W 대본을 활용한 데이터 분석 및 활용 ※ 실제 구현 코드는 github상의 jupyter notebook을 참고하시기 바랍니다. 이전 포스팅에서 한글파일로 되어있는 대본을 사용 가능한 테이블 형식으로 변환 하였습니다. 이번에는 대본의 문장을 태깅하여 이중 명사를 활용하여 자료분석을 수행 해보고자 합니다. 1. 데이터 불러오기 이전 포스팅에서 저장했던 대본을 불러와서 사용 합니다. 테이블 형식으로 저장되어 있기 때문에 내용과 인물등이 구분되어 활용하기 편한 상태입니다. 2. 문자 태깅 및 명사 추출 문장을 활용하기 위해서는 문장의 형태소 분석을 통해 각 형태소에 맞는 정보를 입히는 태깅 작업이 필요 합니다. 한글문장의 경우 파이썬에서는 일반적으로 공개된 것중에는 KoNLPy를 많이 사용 합니다. ..

Data-writing 2020.01.04

대본으로 놀아보기 #1 대본 정제 및 저장

드라마 W 대본을 활용한 데이터 분석 및 활용 ※ 실제 구현 코드는 github상의 jupyter notebook을 참고하시기 바랍니다. 최근 데이터 분석 및 활용 기술의 발달로 데이터만 확보하면 다양한 것들을 해볼 수 있습니다. 기본적인 데이터분석 기법들로 웹상에 공개된 데이터를 가지고 놀아볼 방법을 찾던 중, 감사하게도 송재정 작가님께서 드라마 W의 대본을 공개 해 놓은것을 발견 하였습니다.(링크) 공개해 주신 대본은 실제 촬영에 활용된 대본으로 일정한 양식을 갖춰 작성되있어 활용 가능할 것으로 판단하여 이를 활용하기로 하였습니다. 이번 포스팅에서는 공개된 대본 한글파일을 데이터 분석에 활용 가능하도록 추출하는 내용을 담아보고자 합니다. 1. 처리방법 구상 공개된 데이터는 한글파일로 되어 있는데, 데..

Data-writing 2019.12.30

시대별 음악의 흐름

네이버 뮤직 '시대별 음악' 차트로 보는 1980년대~2010년대 음악 그 시절, 그때 당신의 배경음악은 무엇이었나요? 고요함에 익숙지 않은 현대인에게 음악이란 삶에 자연스럽게 흐르고 있는 무엇이었는지도 모릅니다. 어릴 적 놀이공원으로 가던 차 안에서 흐르던 음악, 좋아하는 게임을 하며 매번 틀어두었던 음악, 친구들과 함께 길을 걷다가 흐르던 음악 등, 추억을 떠올리면 특정 음악들이 겹쳐져 연상됨을 알 수 있습니다. 이를 반대로 적용하면 특정 음악이 우리를 과거의 추억으로 데려가기도 하지요. 본 글에서는 1980년대 부터 2010년대 까지 10년 단위로 정리된 네이버 음악 - 시대별 음악 차트를 훑어보려고 합니다. 큰 흐름 속에서 몰랐던 사실을 수치적으로 파악해 보며, 과거의 추억도 함께 만나보실 수 있..

Data-writing 2019.05.25
반응형