메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색
질문

논문 기본 정보

자료유형
학술저널
저자정보
손원 (단국대학교)
저널정보
한국데이터정보과학회 한국데이터정보과학회지 한국데이터정보과학회지 제34권 제6호
발행연도
2023.11
수록면
927 - 939 (13page)
DOI
10.7465/jkdi.2023.34.6.927

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
🏆
연구결과
AI에게 요청하기
추천
검색
질문

초록· 키워드

오류제보하기
정보검색에서는 사용자의 질의와 관련된 웹 페이지의 일부를 검색 결과와 함께 제시하기도 한다. 이렇게 각 문서에서 질의와 연관성 높은 문단만을 선별하기 위해서는 의미에 따라 문서의 문단을 나누는 절차가 필요하다. 이 연구에서는 토픽 모형과 변화점 식별 절차가 이용하여 두 문단으로 구성된 문서에서 문단을 나누기 위한 알고리즘을 제인한다. 보다 구체적으로, 먼저 관찰된 문서들에 확률적 토픽모형의 하나인 잠재디리클레할당을 적용하여 여러 문서들에 잠재되어 있는 토픽을 확인한다. 이렇게 잠재디리클레할당에서 추정된 토픽들은 다항분포에 해당되므로 해당 다항분포, 즉 토픽에서 특정 단어가 생성될 조건부확률을 구할 수 있다. 잠재디리클레할당에서 구한 각 토픽의 모수 추정값을 이용하여 해당 토픽에서 각 문서에 포함된 단어들이 생성될 조건부확률들을 계산한다. 특정 토픽에서 다항분포의 모수 값이 큰 단어들은 해당 토픽에서 자주 관찰되는 단어이므로 토픽과 연관된 문단에서는 단어들의 조건부확률 값이 크고, 반대로 해당 토픽과 관련이 없는 문단에서는 단어들의 조건부확률값이 작게 관찰될 것으로 기대할 수 있다. 따라서, 서로 다른 토픽으로 구성된 문서의 단어들의 조건부확률 값의 변화점을 식별함으로써 문서의 문단을 나눌 수 있다. 이 연구에서는 조건부확률의 변화점 식별을 위해 CUSUM통계량을 이용하는 절차를 제안한다. 이와 같은 절차를 로이터-21578 데이터에 적용한 결과, 두 문단으로 이루어진 문서의 문단 경계를 잘 식별할 수 있음을 확인하였다.

목차

요약
1. 서론
2. 토픽모형
3. CUSUM통계량을 이용한 변화점 식별 기법
4. 문단 경계 식별을 위한 절차
5. 실제 데이터에의 적용
6. 결론 및 토의
References
Abstract

참고문헌 (0)

참고문헌 신청

함께 읽어보면 좋을 논문

논문 유사도에 따라 DBpia 가 추천하는 논문입니다. 함께 보면 좋을 연관 논문을 확인해보세요!

이 논문의 저자 정보

이 논문과 함께 이용한 논문

최근 본 자료

전체보기

댓글(0)

0

UCI(KEPA) : I410-151-24-02-088486340