KNU 한국어 감성사전
- 개요
- 음식, 여행지, 영화, 음악, 자동차, 스마트폰, 강의, 컴퓨터 등 특정 도메인에서 사용되는 긍부정어보다는 인간의 보편적인 기본 감정 표현을 나타내는 긍부정어로 구성된다. 보편적인 긍정 표현으로는 ‘감동받다’, ‘가치 있다’, ‘감사하다’와 보편적인 부정 표현으로는 ‘그저 그렇다’, ‘도저히 ~수 없다’, ‘열 받다’ 등을 둘 수 있다.
- 각 도메인의 감성사전을 빠르게 구축하기 위한 기초 자료로 활용하기 위해 개발되었음
- 본 한국어 감성사전은 다음과 같은 소스로부터 통합되어 개발되었음
- 국립국어원 표준국어대사전의 뜻풀이(glosses) 분석을 통한 긍부정 추출(이 방법을 통해 대부분의 긍부정어 추출)
- 김은영(2004)의 긍부정어 목록
- SentiWordNet 및 SenticNet-5.0에서 주로 사용되는 긍부정어 번역
- 최근 온라인에서 많이 사용되는 축약어 및 긍부정 이모티콘 목록
- 총 14,843개의 1-gram, 2-gram, 관용구, 문형, 축약어, 이모티콘 등에 대한 긍정, 중립, 부정 판별 및 정도(degree)값 계산
- 특징
- 표준국어대사전을 구성하는 각 단어의 뜻풀이를 분석하여 긍부정어를 추출하였음
- 1-gram, 2-gram, n-gram(어구, 문형), 축약어, 이모티콘 등의 다양한 종류의 긍부정어 포함
- 영화, 음악, 자동차 등 어떤 도메인에도 사용될 수 있는 보편적인 긍부정어로 구성
- 한국어 감성사전 개발 방법
- 표준국어대사전을 구성하는 형용사, 부사, 동사, 명사의 모든 뜻풀이에 대한 긍정, 중립, 부정으로 분류하기 위해 Bi-LSTM 딥 러닝 모델 사용
- Bi-LSTM 모델은 각 뜻풀이의 확률 값을 계산하여 최종적으로 300,000개에 달하는 뜻풀이를 긍정, 중립, 부정으로 분류하며, 긍정으로 분류된 뜻풀이 그룹에서 top-2500 긍정어 추출하며, 비슷한 방식으로 top-2500 부정어 추출 (상위 2,500개의 뜻풀이만을 대상으로 긍부정어를 찾는 이유는 2,500개 이상 넘어가면 기추출된 긍부정어들이 반복적으로 추출되기 때문)
- 최소 3명의 평가자들이 각 단어의 긍정, 중립, 부정을 판별하고, 이의가 있을 경우 토론을 통해 합의를 이루는 방식 사용 (voting 방식)
- 각 단어의 긍부정 판별은 (1) 매우 부정 (2) 부정 (3) 중립 (4) 긍정 (5) 매우 긍정 등 리커트 척도를 이용하여 평가자들의 합의를 통해 선택
- 긍부정어 통계
긍부정어 |
단어개수 |
1-gram 긍부정어 |
6,223 |
2-gram 긍부정어 |
7,861 |
긍부정 어구 |
278 |
긍부정 문형 |
253 |
긍부정 축약어 |
174 |
긍부정 이모티콘 |
54 |
1-gram 긍부정어 |
6,451 |
2-gram 긍부정어 |
8,135 |
3-gram 긍부정어 |
226 |
4-gram 긍부정어 |
20 |
5-gram 긍부정어 |
5 |
6-gram 긍부정어 |
3 |
7-gram 긍부정어 |
2 |
8-gram 긍부정어 |
1 |
매우 긍정(2) |
2,597 |
긍 정(1) |
2,266 |
중 립(0) |
154 |
부 정(-1) |
5,029 |
매우 부정(-2) |
4,797 |
- 시연
- 다운로드
- 사용 방법
- knusl.py 파일과 SentiWord_info.json 파일을 동일한 위치에 위치시키고 knusl.py파일 실행
- 단어 입력을 통해 해당 단어의 행태소 및 극성 정도값 출력
- 참고문헌
- 표준국어대사전 뜻풀이, https://github.com/mrchypark/stdkor
- 긍부정 축약어, https://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EC%9D%B8%ED%84%B0%EB%84%B7_%EC%8B%A0%EC%A1%B0%EC%96%B4_%EB%AA%A9%EB%A1%9D
- 긍부정 이모티콘, https://ko.wikipedia.org/wiki/%EC%9D%B4%EB%AA%A8%ED%8B%B0%EC%BD%98
- SentiWordNet_3.0.0_20130122, http://sentiwordnet.isti.cnr.it/
- SenticNet-5.0, http://sentic.net/
- 감정단어사전0603, http://datascience.khu.ac.kr/board/bbs/board.php?bo_table=05_01&wr_id=91
- 김은영, “국어 감정동사 연구”, 2004.02, 학위논문(박사) - 전남대학교 국어국문학과 대학원
- 활용기관