메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색
질문

논문 기본 정보

자료유형
학술대회자료
저자정보
김준식 (서울대학교) 이충연 (서울대학교) 장민수 (상문고등학교) 김경태 (상문고등학교) 남문곤 (상문고등학교) 남준희 (상문고등학교)
저널정보
한국지능시스템학회 한국지능시스템학회 학술발표 논문집 한국지능시스템학회 2012년도 춘계학술대회 학술발표논문집 제22권 제1호
발행연도
2012.4
수록면
217 - 220 (4page)

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
🏆
연구결과
AI에게 요청하기
추천
검색
질문

초록· 키워드

오류제보하기
일반 문서는 빈도수가 높게 자주 사용되는 소수의 단어들과 적은 빈도로 쓰이는 다수의 단어들로 구성되며, 문서에 등장하는 단어들의 빈도수를 내림차순으로 정렬하면 멱법칙(power law)을 따르는 것으로 알려져 있다. 이렇게 지수분포를 따르는 현상을 Zipf law이라고 한다. Log-log 데이터 분포를 1차 선형 함수로 근사시키면 앞쪽의 작은 절대값의 음수 기울기 부분과 뒤쪽의 큰 절대값의 음수 기울기 부분으로 나뉘는 현상이 밝혀졌다. 특히 하나의 단어에 대한 빈도수 분포를 Unigram 분석이라고 한다. 본 논문에서는 Unigram 분석을 확장하여 연속된 다수의 단어의 빈도수를 살펴보는 N-gram 분석법을 적용함으로써 구 단위의 언어망 구조의 Zipf law의 유효성을 살펴보았다. N-gram 분석법을 TV 드라마 대본에 적용하여 구어체의 자연어 대사를 분석한 연구는 현재까지 없었다. TV 드라마 236편의 전체 영어 대본을 데이터로 사용하여 등장인물 여섯 명의 대사들에 대해서 Unigram, Bigram, Trigram의 분포를 비교하였다. 여섯 명의 Unigram 분석 결과 모두 Zipf law를 따름을 알 수 있었다. Bigram도 Zipf law를 따름을 알 수 있었다. 그러나 Trigram의 결과는 Zipf law와 다른 양상을 보였다. 즉 Log-log 데이터의 앞쪽의 음수 기울기의 절대값이 뒤쪽의 음수 기울기의 절대값보다 큰 값을 가졌으며 이는 알려진 Zipf law와 다른 결과이다. 주인공의 대사 모음과 비슷한 크기의 단어 종류와 단어 수를 가지는 무작위로 생성된 문서에 대해서 Unigram, Bigram, Trigram의 분포를 분석하였다. Unigram, Bigram, Trigram 분석결과 빈도수가 매우 적어서 자연어 대본의 결과와 다른 패턴을 보였다. 우연에 의한 fluctuation 효과로 생각된다. 본 연구 결과는 일상 구어체 자연어 대사의 경우 일반적인 문서와는 달리 Trigram에서 많이 사용되는 소수의 단어들과 적은 빈도로 쓰이는 대다수의 단어들로 이루어지는 더욱 강한 power law를 따름을 의미한다.

목차

요약
1. 서론
2. 이론
3. 방법
4. 결과
5. 논의
참고문헌

참고문헌 (0)

참고문헌 신청

이 논문의 저자 정보

이 논문과 함께 이용한 논문

최근 본 자료

전체보기

댓글(0)

0