Short Introduction
워드 클라우드(word cloud)란 한마디로 ‘핵심단어를 시각화하는 기법‘입니다. 문서의 키워드, 개념 등을 직관적으로 파악할 수 있도록 핵심 단어를 시각적으로 돋보이게 하는 기법입니다. 이 기법을 통하여 특정 단어와 가장 관련도가 높은 단어를 찾아 그 단어가 나온 이유까지 찾아볼 예정입니다.
Content
- 프로젝트 진행 동기
워드클라우드는 사실 여러 곳에서 사실 많이 접할 수 있는데 문득 만들어보고 싶다는 생각이 들어 이번 프로젝트를 생각하게 되었습니다. 만드는 것에서 그치는 것이 아니라 이를 통해 그 단어와의 관련성이 왜 높게 나왔는지까지 분석해 보려고 합니다.
- 프로젝트의 진행 과정
인스타그램과 트위터와 같은 SNS의 게시물을 크롤링하여 데이터 수집을 하였습니다. 그 뛰 연도별, 그리고 월별 게시물 수의 추이를 분석하였습니다. 해시태그 추출, 형태소분석기를 통한 명사 형용사와 같은 품사를 태깅하여 데이터 전처리 과정을 거쳤습니다. 그 뒤 빈풀 해시태그와 단어를 정리하여 단순 빈도를 분석하였습니다. 마지막으로 만들어진 전체 워드 클라우드와 2020, 2021, 2022년도의 자료를 바탕으로 각각 만든 연도별 워드클라우드까지 분석해 보았습니다.
- 프로젝트의 결과
데이식스라는 키워드로 트위터 게시물을 크롤링하여 워드클라우드를 제작하는 방법을 익혔습니다. 그 뒤 인스타그램 게사물에서 한과영이라는 해시태그를 이용하여 워드클라우드를 제작해보았습니다. 한과영의 이미지를 나타내는 형용사가 나오기를 기대하였으나 한과영이라는 해시태그로 게시물을 올리는 경우는 보통 홍보 목적이나 그 외로는 공스타 게시물이 주를 이룬다는 것을 알아볼 수 있었습니다.

Attachments
https://colab.research.google.com/drive/1pJqLcxvMd7hF4dZ-wE_M1neaKHMLn3Ou?usp=sharing: 제작한 워드클라우드입니다.
About
본 글은 2022년도 1학기에 22 조유라, 22 이규진 연구회원이 진행한 프로젝트입니다.