• 제목/요약/키워드: 코퍼스 분석

검색결과 206건 처리시간 0.029초

품사 부착 코퍼스 수정 방안에 대하여 (On Correction Guideline of Tagged Corpus)

  • 김은혜;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.361-367
    • /
    • 2000
  • 품사 부착 코퍼스를 구축하기 위해서는 일반적으로 형태소 분석, 자동 품사 태깅 수동 또는 자동 오류 수정의 단계를 거친다. 이 글은 그 마지막 단계의 일환인 수동으로 오류를 수정하는 과정에서 요구되는 여러 가지 정보의 필요성과 문제점에 대해 기술하고자 한다. 조사와 어미의 처리 문제, 접두사/접미사 처리 문제, 다품사 문제 등은 정밀도 높은 코퍼스를 구축하는 데 중요한 열쇠가 되기 때문이다. 자연 언어 자료인 코퍼스에 일관성 있는 품사 정보가 부착된다면 정보 검색이나 사전 구축 등 언어 정보 처리 연구에 중요한 자료로 사용될 수 있을 것이다.

  • PDF

한국 예비 대학생의 영어 사용 특성 파악을 위한 대규모 공개 영어 학습자 코퍼스 구축 및 분석 (Compilation of the Yonsei English Learner Corpus (YELC) 2011 and Its Use for Understanding Current Usage of English by Korean Pre-university Students)

  • 이석재;정채관
    • 한국콘텐츠학회논문지
    • /
    • 제14권11호
    • /
    • pp.1019-1029
    • /
    • 2014
  • 최근 영어 학습자 코퍼스(English learner corpus)를 활용하여 다양한 영어 교육 분야에 활용하는 시도가 이뤄지고 있다. 하지만 지금까지 국내에서 개발된 대다수 영어 학습자 코퍼스는 소규모이거나 공개가 되지 않아 공익을 위한 영어 교육 콘텐츠로서의 적절한 역할을 하지 못하고 있다. 본 연구에서는 국내외 영어 학습자 코퍼스 구축 현황을 살펴보고 대규모 공개 한국인 영어 학습자 코퍼스의 필요성을 논의한다. 또한, 이와 같은 필요성을 바탕으로 1백만 단어 이상으로 만들어진 대규모 공개 한국인 영어 학습자 코퍼스 구축과정과 결과를 분석하여 예비 대학생의 영어사용 특성을 파악하고 이를 영어 교육 개선을 위해 활용할 수 있는 방안을 제안한다.

한국어 수사구조 분류체계 수립 및 주석 코퍼스 구축 (Building an RST-tagged Corpus and its Classification Scheme for Korean News Texts)

  • 노은정;이연수;김연우;이도길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.33-38
    • /
    • 2016
  • 수사구조는 텍스트의 각 구성 성분이 맺고 있는 관계를 의미하며, 필자의 의도는 논리적인 구조를 통해서 독자에게 더 잘 전달될 수 있다. 따라서 독자의 인지적 효과를 극대화할 수 있도록 수사구조를 고려하여 단락과 문장 구조를 구성하는 것이 필요하다. 그럼에도 불구하고 지금까지 수사구조에 기초한 한국어 분류체계를 만들거나 주석 코퍼스를 설계하려는 시도가 없었다. 본 연구에서는 기존 수사구조 이론을 기반으로, 한국어 보도문 형식에 적합한 30개 유형의 분류체계를 정제하고 최소 담화 단위별로 태깅한 코퍼스를 구축하였다. 또한 구축한 코퍼스를 토대로 중심문장을 비롯한 문장 구조의 특징과 분포 비율, 신문기사의 장르적 특성 등을 살펴봄으로써 텍스트에서 응집성의 실현 양상과 구문상의 특징을 확인하였다. 본 연구는 한국어 담화 구문에 적합한 수사구조 분류체계를 설계하고 이를 이용한 주석 코퍼스를 최초로 구축하였다는 점에서 의의를 갖는다.

  • PDF

코퍼스 기반 형용사 의의 분석: '크다'를 예로 (A Corpus-Based Sense Analysis of Adjectives: Focused on khuda)

  • 방찬성;오승태
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.156-163
    • /
    • 2006
  • 본 연구는 형용사 '크다'를 예로 들어 기존 사전의 의의 기술과 비교하여 실제 코퍼스에서 나타나는 의의를 비교 분석하고자 하였다. 기존 사전들이 기술하고 있는 '크다' 의 의의는 사전마다 다르게 기술되어 있으므로, 공통적인 의의들과 서로 차이가 나는 의의들을 구분하여 비교 제시한다. 이 중에서 조사된 실제 코퍼스를 근거로 하여, '크다'의 의의를 다섯 가지로 설정하였다. 이것은 코퍼스 기반의 의의 구분 방법이 기존의 사전적 구분법보다 더 많은 객관성을 부여해 주는 방법이라 할 수 있다.

  • PDF

비정형 텍스트 데이터 정제를 위한 불용어 코퍼스의 활용에 관한 연구 (A Study on the Use of Stopword Corpus for Cleansing Unstructured Text Data)

  • 이원조
    • 문화기술의 융합
    • /
    • 제8권6호
    • /
    • pp.891-897
    • /
    • 2022
  • 빅데이터 분석에서 원시 텍스트 데이터는 대부분 다양한 비정형 데이터 형태로 존재하기 때문에 휴리스틱 전처리 정제와 컴퓨터를 이용한 후처리 정제과정을 거쳐야 분석이 가능한 정형 데이터 형태가 된다. 따라서 본 연구에서는 텍스트 데이터 분석 기법의 하나인 R 프로그램의 워드클라우드를 적용하기 위해서 수집된 원시 데이터 전처리를 통해 불필요한 요소들을 정제하고 후처리 과정에서 불용어를 제거한다. 그리고 단어들의 출현 빈도수를 계산하고 출현빈도가 높은 단어들을 핵심 이슈들로 표현해 주는 워드클라우드 분석의 사례 연구를 하였다. 이번 연구는 R의워드클라우드 기법으로 기존의 불용어 처리 방법인 "내포된 불용어 소스코드" 방법의 문제점을 개선하기 위하여 "일반적인 불용어 코퍼스"와 "사용자 정의 불용어 코퍼스"의 활용 방안을 제안하고 사례 분석을 통해서 제안된 "비정형 데이터 정제과정 모델"의 장단점을 비교 검증하여 제시하고 "제안된 외부 코퍼스 정제기법"을 이용한 워드클라우드 시각화 분석의 실무적용에 대한 효용성을 제시한다.

코퍼스로부터 구문 분석을 위한 사전 구성 (A Dictionary Composition for Syntactic Analyzer from Corpus)

  • 정민수;정규철;박기홍
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.159-161
    • /
    • 1998
  • 한글은 중심어 후행성과 어순의 자유성, 격을 결정하는 조사의 생략 등으로 인해 영어권에서 연구되어진 변형 생성 문법이나 어휘 함수 문법, 구구조문법류 등이 적용되기 어려운 문제점을 가지고 있고 관형적인 표현이 많아 구문 규칙 만으론 분석하기 쉽지 않기 때문에 사전에 의존해야 하는 경우가 많으므로 이에 적합한, 사전을 구성하고자 한다. 그러나 기존의 태그와 키워드만으로 구성된 사전만으로 어려운 점이 많고, 이 때문에 문법 규칙을 같이 적용하게 되는데 이 규칙을 보통 알고리즘을 이나 수작업을 통해 사전으로 구성하므로 정확성도 떨어진다. 저자는 이 과정을 코퍼스를 통해 구성하여 시간을 줄이고 결합 정보 또한 보다 견고하게 구성하기 위해 통계 정보-코퍼스 내에서 결합이 사용된 빈도-에 따라 순위를 결정할 수 있도록 구성하였다. 이를 보다 확장하여 구문분석 시에도 활용할 수 있도록 분석된 단어간의 결합 정보와 그 결합이 사용된 빈도를 포함하여 구문 결합 정보 사전을 구성하고자 한다. 이는 기존의 의존 문법이나 구문 관계를 이용하여 구문분석을 할 경우 올바른 트리의 결합 관계를 검색할 때 쓰여질 수 있다.

  • PDF

오류 분석을 통한 파서의 성능향상 (Performance Improvement of Parser through Error Analysts)

  • 오진영;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.213-218
    • /
    • 2009
  • 본 논문에서는 무제한 텍스트 입력이 가능한 파서에서 오류분석을 통한 성능 향상을 이루고자 한다. 우선 코퍼스로부터 자동학습에 의해서 구문 분석 모델을 만들고 이를 평가하여 발생하는 오류를 분석한다. 오류를 감소시킬 수 있는 언어 특성이 반영된 자질을 추가하여 성능을 향상시키고자 한다. 세종 코퍼스를 10-fold cross validation으로 평가할 때, 한국어의 특성을 반영한 자질 추가로 1%이상의 성능 향상을 이루었다.

  • PDF

품사태그부착 코퍼스 구축을 위한 한국어 품사태깅 워크벤치 (The Korean Part-of-speech Tagging Workbench for Tagged Corpus Construction)

  • 박영찬;김남일;허욱;남기춘;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.94-101
    • /
    • 1997
  • 한국어의 언어분석을 위한 가공코퍼스의 하나인 품사부착 코퍼스는 형태소 언어분석의 기초가 되는 자료로서 각종 언어분석 모델의 학습자료와 관측자료 또는 검증자료로서 중요한 역할을 한다. 품사부착 코퍼스의 구축은 많은 노력과 시간이 요구되는 어려운 작업이다. 기존의 구축방법은 자동 태거의 결과를 일일이 사람이 확인해 가면 오류를 발견하고 수정하는 단순 작업이었다. 이러한 단순 작업은 한번 수정된 자동태거의 반복적 오류, 미등록어에 의한 오류 들을 계속적으로 수정해야하는 비효율성을 내포하고 있었다. 본 논문에서는 HMM기반의 자동 태거를 사용하여 1차적으로 한국어 문서를 자동 태깅한다. 자동 태깅 결과로부터 규칙기반의 오류 수정을 추가적으로 행한다. 이렇게 구축된 결과를 사용자에게 제시하여 최종 오류를 수정하고 이를 앞으로의 태깅작업에 반영하는 품사부착 워크벤치에 대해 기술한다.

  • PDF

브렉시트 캠페인 기간 동안 영어 미디어에 나타난 이민자들 (Migrant Representation in the English-language Media during the Brexit Campaign)

  • 이재승
    • 비교문화연구
    • /
    • 제45권
    • /
    • pp.325-348
    • /
    • 2016
  • 본 논문은 브렉시트 캠페인 기간 동안 영어권 국가, 영국, 미국, 캐나다, 그리고 호주의 미디어에서 이민자들이 어떻게 표현되는지 살펴본다. 코퍼스 지원 담화연구의 틀을 사용한 본 연구는 브렉시트 국민투표 캠페인이 시작된 날부터 국민투표가 실시되기 전 날까지(2016년 4월 15일-6월 22일) 검색기간으로 설정하고, 검색어 'Brexit'가 포함된 모든 기사를 수집하여 브렉시트 캠페인 코퍼스를 구축하였다. 수집된 코퍼스 자료를 통해서 이민자를 나타내는 어휘들, IMMIGRANT, MIGRANT, 그리고 REFUGEE의 빈도를 관찰하고, 이 어휘들과 함께 나타나는 연어를 분석하였다. 또한 세 어휘의 연어들을 사회적 행위자 범주에 따라 분류 및 분석하였다. 분석 결과, IMMIGRANT의 연어는 법적 상태 및 출신지역 어휘들과 연관성이 있고, MIGRANT는 경제적인 용어들과 주로 연어 관계에 있으며, REFUGEE는 큰 수를 나타내는 어휘와 관련성이 있는 것으로 나타났다. 그리고 이민자들은 기능범주, 유형범주, 그리고 평가범주를 통해서 묘사되며, 특히 영국과 미국의 미디어에서 이민자들이 부정적으로 그려지고 있는 것으로 관찰되었다. 본 연구를 통하여 특정 현상 및 특정 집단의 사람들을 가리킬 때 특정 어휘가 사용되며, 코퍼스 지원 언어분석이 해당 사회의 사회 문화 정치적 상황을 파악하는데 도움이 된다는 것을 확인할 수 있었다.

EAP 전문 코퍼스를 활용한 유아교육 전문 어휘 추출 (Extracting Technical Vocabulary List for Early Childhood Education Using EAP Specialized Corpus)

  • 이제영;안종기;이지은
    • 한국콘텐츠학회논문지
    • /
    • 제17권1호
    • /
    • pp.475-484
    • /
    • 2017
  • 본 연구는 EAP 전문 코퍼스 구축과 분석을 통해 유아교육 전문 어휘 목록을 개발하는 것을 목적으로 하고 있다. 이를 위해 유아교육 전문가 2인과의 협의를 통해 선정된 7권의 유아교육 관련 영어 전공 서적을 기초로 50만 단어 수준의 전문 코퍼스를 구축하였다. 유아교육 전문 코퍼스의 어휘적 분포를 분석한 결과 기본 어휘에 해당하는 GSL[1]은 81.86%, 학술어휘에 해당하는 AWL[2]은 9.78%로 타 분야의 학술적 텍스트와 유사한 분포를 나타냈다. 한편 어휘의 다양성을 살펴보기 위해 TTR을 산출한 결과 3.18로 타 코퍼스의 결과와 비교할 때 낮은 수치, 즉 동일한 어휘의 반복이 비교적 많다는 특징을 보여 주었다. 다음으로 빈도와 출현 범위 등을 기준으로 유아교육 분야의 전문 어휘를 추출한 결과 총 224개의 어휘가 선정되었다. 이 어휘 목록은 영어로 유아교육을 가르치기 위한 목적으로 활용될 수 있을 것이며, 특히 영어로 쓰인 유아 교육 분야의 전공서적을 읽기 위한 기초 자료서로 유용성을 지닐 것으로 기대된다.