konlpy 2

대본으로 놀아보기 #3 대본 감성분석, 연관분석, 토픽추출

드라마 W 대본을 활용한 데이터 분석 및 활용 ※ 실제 구현 코드는 github상의 jupyter notebook을 참고하시기 바랍니다. 이전까지(포스팅#1, 포스팅#2) 대본 분석을 위한 대본 정제, 자연어 태깅 등을 수행 하였습니다. 이번 포스팅에서는 앞에서 해본 기법들 위에 감성분석, 연관분석, 토픽추출을 해보고자 합니다. 1. 감성분석 감성 분석을 위해선 어떤 문장이 어떤 감성을 가지고 있는지를 판단하기 위한 자료를 확보하고, 이를 모델에 학습해서 우리가 원하는 문장에 예측시켜야 합니다. 이를 위해 우리는 네이버 영화리뷰로 만든 감성분석 데이터셋을 활용 합니다.(링크) 20,000개의 영화 리뷰에 대하여 별점을 기준으로 긍정(1), 부정(0)으로 구분해 놓은 자료 입니다. 이 리뷰를 형태소 별로 ..

Data-writing 2020.01.11

대본으로 놀아보기 #2 대본 태깅 및 탐색적 자료분석

드라마 W 대본을 활용한 데이터 분석 및 활용 ※ 실제 구현 코드는 github상의 jupyter notebook을 참고하시기 바랍니다. 이전 포스팅에서 한글파일로 되어있는 대본을 사용 가능한 테이블 형식으로 변환 하였습니다. 이번에는 대본의 문장을 태깅하여 이중 명사를 활용하여 자료분석을 수행 해보고자 합니다. 1. 데이터 불러오기 이전 포스팅에서 저장했던 대본을 불러와서 사용 합니다. 테이블 형식으로 저장되어 있기 때문에 내용과 인물등이 구분되어 활용하기 편한 상태입니다. 2. 문자 태깅 및 명사 추출 문장을 활용하기 위해서는 문장의 형태소 분석을 통해 각 형태소에 맞는 정보를 입히는 태깅 작업이 필요 합니다. 한글문장의 경우 파이썬에서는 일반적으로 공개된 것중에는 KoNLPy를 많이 사용 합니다. ..

Data-writing 2020.01.04
반응형