본 연구에서는 초등학교 6학년의 영어 에세이를 전산언어학적 기법을 이용하여 분석하고 그에 따른 교육적 함의를 제안해 봄으로써, 그 동안 대부분 수동적으로만 행해진 에세이 분석에 새로운 방법을 제시하고 실제로 에세이 분석을 해 보는 것이 목적이다. 본 연구에서는 미국 멤피스 대학교 지능형 시스템 연구소에서 개발한 웹 기반 언어분석 프로그램인 Coh-Metrix을 이용하여 에세이를 분석해보았다. Coh-Metrix는 이미 국 내·외에서 다양한 종류의 문어 텍스트뿐 아니라 에세이 분석평가의 객관적인 도구로서 사용된 사례가 있다. 이 프로그램은 텍스트와 담화의 표층수준 측정치뿐만 아니라 정합성(cohesion)을 포함한 심층적 수준까지 자동으로 분석한다는 것에 큰 의의가 있다. 본 연구를 위해 C 초등학교 6학년 학생들에게 동일한 제목을 주고 자유 작문 하게 한 후, 최종적으로 176개의 에세이를 얻었다. 이후 영어성적에 따른 에세이의 난이도를 보기 위해, 한 학기 동안 얻은 영어 수행평가 점수를 이용하여 저지식(Low-knowledge), 중간지식(Middle-knowledge), 고지식(High-knowledge)그룹으로 나누었다. Coh-Metrix 측정치들에 대해 에세이그룹 간에 통계적으로 유의미한 차이가 있는지를 검증하기 위해 일원변량분석을 실시하고, 이후 Tukey 사후검증을 하였다. 본 연구의 결과는 다음과 같다. 첫째, 기초 산출치(단어수, 문장수), 표준가독성지표(FRE, FKGL), 접속사정보(부가적 접속사 정보), 대명사 정보(대명사 비율, 3인칭 대명사)에서는 세 집단 간에 유의미한 차이를 보였다. 이는 영어 수준별로 각 측정치에 해당하는 능력에 편차가 있다는 뜻이다. 사후 검증을 통해 특히 고지식 그룹과 저지식그룹 사이의 편차가 매우 큼이 시사되었다. 둘째, 기초산출치(평균문장길이), 단어빈도수, 통사적 복잡성(명사구밀도, 본동사 앞 단어수), 어휘다양성, 정합성 측정치(논항 반복비율, LSA측정치), 접속사정보(인과적 접속사, 시간적 접속사), 대명사 정보(1인칭, 2인칭 대명사), 어휘 정보(심상성, 구체성, 습득나이)에 대한 측정치는 집단 간 통계적인 차이는 유의미하지 않았지만 주목할 만한 결과들이었다. 본 논문의 결과는 영어 쓰기 교육현장에서는 학습자 간의 격차를 줄이기 위해 성취수준이 낮은 학생들은 기본적으로 어휘량을 늘리고 다양한 수식어를 이용해 여러 관점에서 문장을 전개해 나가는 능력을 키워야 한다는 점을 시사한다. 반면, 학생들이 사용하는 단어들의 수준과 인접 문장간 수준의 정합성에서는 학생들 간에 큰 차이가 없이 잘 유지되고 있음을 보여주었다.
The main goal of this thesis was to analyze the English essays collected from 6th grade elementary students with a Web-based automated language analysis tool called Coh-Metrix. The Coh-Metrix system can be used to calculate the text-based measures with linguistic features as well as psycholinguistic features. For this thesis, 176 Korean 6th grade elementary students’ essays were collected and divided into three groups depending on their English proficiency levels: Low-Knowledge, Middle-Knowledge and High-Knowledge groups. A number of one-way between-subjects ANOVAs and Tukey post hoc analysis were conducted for 21 Coh-Metrix measures to analyze the differences among the groups. The result showed that there were statistically significant differences among the group for the Basic counts(Number of words, Number of sentences), Standard readability scores(Flesch Reading Ease, Flesch-Kincaid Grade Level), Connectives(Additive connectives), Pronouns(Pronoun ratio, The third person pronouns). Mostly, there was a big gap between the Low=Knowledge group and the High-Knowledge group. Secondly, fourteen measures showed no significant differences between the groups. These include; Basic counts(Mean sentence length), Word frequency, Syntactic complexity(Mean number of words before the main verb, Density of noun phrase), Lexical diversity(Type-Token ratio), Co-referential cohesion(Argument overlap), Semantic cohesion(LSA for adjacent sentences), Connectives(Casual connectives, Temporal connectives), Pronouns(The first person pronouns, The second person pronouns), Words information(Imagibility, Concreteness, Age of acquisition). However, it brings about some important insights for students’ writing English essay proficiency and its educational directions. In conclusion, English essays should be evaluated in various linguistic and psycholinguistic features and the results of this thesis have some educational implications for evaluating students’ accurate writing proficiency.
Ⅰ. 서론 11. 연구 배경 및 목적 1Ⅱ. 이론적 배경 101. 영어 쓰기 교육과정과 분석의 변천 102. 코퍼스 언어학적 쓰기 분석 143. 여러 가지 전산 언어학적 기법을 이용한 국내 에세이 분석 연구 16Ⅲ. Coh-Metrix 251. 기초 산출치(Basic Counts) 272. 단어빈도수(Word Frequency) 273. 표준가독성지표(Standard Readability Score) 284. 통사적복잡성(Syntactic Complexity) 295. 어휘다양성(Lexical Diversity) 306. 정합성 측정치(Cohesion) 307. 접속사 정보(Connectives) 318. 대명사 정보(Pronouns) 329. 어휘 정보(Word Information) 3210. Coh-Metrix를 이용한 에세이 분석연구 33Ⅳ. 연구방법 381. 연구대상과 범위 382. 코퍼스 구축 방법과 분석 방법 38Ⅴ. 연구 결과 및 논의 411. 기초 산출치(Basic Counts) 411.1. 단어수(Number of Words) 421.2. 문장수(Number of Sentences) 431.3. 평균문장길이(Mean Sentence Length) 442. 단어빈도수(Word Frequency) 453. 표준가독성지표(Standard Readability Score) 473.1. Flesch Reading Ease 473.2. Flesch-Kincaid Grade Level 494. 통사적 복잡성(Syntactic Complexity) 504.1. 본동사 앞 단어수(Mean Number of Words Before the Main Verb) 514.2. 명사구밀도(Density of Noun Phrase) 525. 어휘다양성(Lexical Diversity) 535.1. 타입-토큰 비율(Type-Token Ratio) 536. 정합성 측정치(Cohesion) 546.1. 참조적 정합성(Co-referential Cohesion) 546.2. 의미적 정합성(Semantic Cohesion) 567. 접속사 정보(Connectives) 577.1. 인과적 접속사 정보(Casual Connectives) 577.2. 부가적 접속사 정보(Additive Connectives) 597.3. 시간적 접속사 정보(Temporal Connectives) 608. 대명사 정보(Pronouns) 619. 어휘 정보(Word Information) 65Ⅵ. 결론 및 제언 69참고문헌 76ABSTRACT 87