• 제목/요약/키워드: 말뭉치

검색결과 680건 처리시간 0.029초

XGBoost와 교차 검증을 이용한 구문분석 말뭉치에서의 오류 탐지 (Detecting Errors in Dependency Treebank through XGBoost and Cross Validation)

  • 최민석;김창현;천민아;박혁로;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.103-107
    • /
    • 2020
  • 의존구조 말뭉치는 자연언어처리 분야에서 문장의 의존관계를 파악하는데 널리 사용된다. 이러한 말뭉치는 일반적으로 오류가 없다고 가정하지만, 현실적으로는 다양한 오류를 포함하고 있다. 이러한 오류들은 성능 저하의 요인이 된다. 이러한 문제를 완화하려고 본 논문에서는 XGBoost와 교차검증을 이용하여 이미 구축된 구문분석 말뭉치로부터 오류를 탐지하는 방법을 제안한다. 그러나 오류가 부착된 학습말뭉치가 존재하지 않으므로, 일반적인 분류기로서 오류를 검출할 수 없다. 본 논문에서는 분류기의 결과를 분석하여 오류를 검출하는 방법을 제안한다. 성능을 분석하려고 표본집단과 모집단의 오류 분포의 차이를 분석하였고 표본집단과 모집단의 오류 분포의 차이가 거의 없는 것으로 보아 제안된 방법이 타당함을 알 수 있었다. 앞으로 의미역 부착 말뭉치에 적용할 계획이다.

  • PDF

교육용 과학언어 연구를 위한 범용 자료로서 과학교과서 말뭉치 K-STeC(Korean Science Textbook Corpus) 구축 (Building Korean Science Textbook Corpus (K-STeC) for research of Scientific Language in Education)

  • 윤은정;김진호;남길임;송현주;옥철영;최준;박윤배
    • 한국과학교육학회지
    • /
    • 제38권4호
    • /
    • pp.575-585
    • /
    • 2018
  • 본 연구에서는 과학교육에서 그 동안 주목받지 못했던 과학언어 및 과학용어에 대한 연구를 체계적으로 수행하기 위한 목적으로 지난 20년간의 과학교과서 텍스트를 한 자리에 모아 과학교과서 말뭉치를 구축함으로써 다각도로 분석 가능한 형태의 언어 자원을 생성하였다. 말뭉치 구축 대상 자료는 6차 교육과정, 7차 교육과정, 2009 개정교육과정의 초등학교에서부터 고등학교까지 모든 과학교과서를 수집하고 이 가운데 두 개의 출판사에 해당하는 132권에 대한 말뭉치를 구축하였다. 원시말뭉치, 형태주석 말뭉치, 용어주석 말뭉치의 총 3단계로 구축하였다. 최종적으로 구축된 과학교과서 말뭉치를 K-STeC(Korea - Science Textbook Corpus)이라 명명하였다. K-STeC은 과학용어에 대한 의미 구분과 분야가 표지된 의미 주석 말뭉치로서 교육과정, 과목, 학년, 출판사의 서지 정보와 대단원, 중단원, 소단원의 단원 정보, 페이지, 문장번호의 위치 정보와 함께 본문, 탐구활동, 참고자료, 제목 등의 텍스트 구조 정보를 메타정보로 마크업 하였다. 총 3년여에 걸친 연구 기간 동안 언어정보학, 컴퓨터공학, 과학교육학의 세 분야 전문가들의 노하우를 융합하여 새로운 연구 방법을 창출하였고, 다수의 전문 인력들이 투입되어 노동집약적 결과물을 내었다. 본 원고에서는 전체적인 연구 절차와 방법을 조망함으로써 새로운 연구 방법론 및 결과물을 소개하고 향후 과학언어 연구의 발전 가능성 및 결과물의 활용방안에 대해 논의하였다.

21세기 세종 계획 특수자료 구축 분과의 성과 (1998~2007) (The $21^{st}$ Century Sejong Project Special Corpus Construction (1998~2007))

  • 서상규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.317-322
    • /
    • 2007
  • 이 발표는, <21세기 세종 계획>(문화관광부/국립국어원의 지원, 1998~2007)의 일환으로 이루어진, 특수자료 구축 분과의 지난 10년간의 성과를 소개하고자 하는 데에 목적이 있다. 특수자료 구축 분과에서는 구어, 병렬, 역사 자료, 북한 및 해외 말뭉치와 같은 특수 말뭉치의 구축을 담당하고 있다. 여기서는 특수자료 구축 소분과의 개요와 과제의 구성, 각 세부 과제별 말뭉치 구축 성과 및 각 말뭉치의 가치와 특성을 밝히고자 한다.

  • PDF

한국어 튜터링 챗봇을 위한 말뭉치 구축 (Building a Corpus for Korean Tutoring Chatbot)

  • 김한샘;최경호;한지윤;정해영;곽용진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.288-293
    • /
    • 2017
  • 교수-학습 발화는 발화 턴 간에 규칙화된 인과관계가 강하고 자연 발화에서의 출현율이 낮다. 일반적으로 어휘부, 표현 제시부, 대화부로 구성되며 커리큘럼과 화제에 따라 구축된 언어자원이 필요하다. 기존의 말뭉치는 이러한 교수-학습 발화의 특징을 반영하지 않았기 때문에 한국어 교육용 튜터링 챗봇을 개발하는데에 활용도가 떨어진다. 이에 따라 이 논문에서는 자연스러운 언어 사용 수집, 도구 기반의 수집, 주제별 수집 및 분류, 점진적 구축 절차의 원칙에 따라 교수-학습의 실제 상황을 반영하는 준구어 말뭉치를 구축한다. 교실에서 발생하는 언어학습 상황을 시나리오로 구성하여 대화 흐름을 제어하고 채팅용 메신저와 유사한 형태의 도구를 통해 말뭉치를 구축한다. 이 연구는 한국어 튜터링 챗봇을 개발하기 위해 말뭉치 구축용 챗봇과 한국어 학습자, 한국어 교수자가 시나리오를 기반으로 발화문을 생성한 준구어 말뭉치를 최초로 구축한다는 데에 의의가 있다.

  • PDF

구묶음을 반영한 한국어 의존 구조 말뭉치 생성 (Building Korean Dependency Treebanks Reflected Chunking)

  • 남궁영;김창현;천민아;박호민;윤호;최민석;김재균;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.133-138
    • /
    • 2019
  • 의존 구문 분석은 문장 구성 요소의 위치에 제약이 적고 생략에도 유연하게 대처할 수 있어 한국어 구문 분석에 적합하다. 하지만 의존 구문 분석을 수행할 때 지배소를 결정해야 할 노드 수가 많으면 계산의 복잡도가 올라가고, 각 노드의 지배소를 결정할 때 방향성 문제가 있어 구문 분석에 모호함을 더한다. 이때 지배소 후위 원칙을 엄격하게 적용할 경우 구문적 중심어와 의미적 중심어가 불일치하는 문제가 발생한다. 이러한 문제들을 해소하기 위해 구묶음을 수행한 문장으로 구문 분석을 수행할 수 있다. 따라서, 본 논문에서는 기존의 의존 구문 말뭉치를 말덩이 기반의 의존 구문 말뭉치로 변환하는 알고리즘을 기술하고, 이에 따라 구축한 말뭉치와 기존의 말뭉치를 정량적으로 비교한다.

  • PDF

세종 형태분석 말뭉치의 오류 수정 도구 개발 (Developing an Error Correction Tool for Sejong POS Tagged Corpus)

  • 최명길;남유림;서형원;전길호;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.114-116
    • /
    • 2011
  • 한국어 정보처리에서 널리 사용되는 세종 형태분석 말뭉치는 품사정보와 문장정보 등 다양한 한국어 정보를 포함하고 있다. 이 말뭉치는 방대한 양의 정보들로 구축되었지만 많은 오류 또한 포함되어 있다. 예를 들면 철자 오류, 띄어쓰기 오류, 그리고 품사부착 오류 등이 있다. 하지만 세종말뭉치와 같이 대용량 말뭉치의 오류를 수정하는 것은 많은 인력과 시간이 필요하며 일관성 있게 오류를 수정하는 것은 쉽지 않다. 따라서 본 논문에서는 세종 형태분석 말뭉치에 포함된 오류를 빠르고 일관성 있게 수정하기 위한 오류 수정 도구를 구현하였다. 본 논문에서 수정 대상이 되는 오류는 어절과 형태소 분석 결과의 불일치에 관한 오류만 대상으로 한다. 이를 위해 세종 형태분석 말뭉치를 데이터베이스로 재구축하였으며, 본래의 어절과 품사가 부착된 형태소의 자모를 각각 분리하여 두 자모의 차이점을 분석하여 오류 후보를 선정한다. 오류 후보에서 동일한 오류 패턴을 갖는 모든 오류 후보에 대하여 동일한 방법으로 일관성 있고 빠르게 수정할 수 있다.

  • PDF

모두의 말뭉치를 이용한 한국어 다의어 분별 (Korean Polysemy Word-Sense-Disambiguation using MoDu-Corpus)

  • 신준철;이주상;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.205-210
    • /
    • 2020
  • 한국어 자연어처리 분야가 발달하면서 동형이의어 분별을 한 단계 넘어선 다의어 분별의 중요성이 점점 상승하고 있다. 최근에 다의어가 태깅된 "모두의 말뭉치"가 발표되었고, 이 말뭉치는 다의어가 태깅된 최초의 공개 말뭉치로써 다의어 연구가 본격적으로 진행될 수 있음을 의미한다. 본 논문에서는 이 말뭉치를 학습하여 작동하는 다의어 분별의 초기 모델을 제시하며, 이 모델의 실험 결과는 차후 연구를 위한 비교 기준점이 될 수 있다. 이 모델은 딥러닝을 사용하지 않은 통계형으로 개발되었고, 형태소분석과 동형이의어 분별은 기존의 UTagger로 해결하고 말뭉치 자원 외에도 UWordMap을 사용하여 다의어 분별을 보조하였다. 이 모델의 정확률은 약 87%이며, 다의어 분별 전에 형태소분석 또는 동형이의어 분별 단계에서 오류가 난 것을 포함한다. 현재까지 공개된 이 말뭉치는 오직 명사만 다의어 주석이 있기 때문에 명사만 정확률 측정 대상이 되었다. 이 연구를 통하여 다의어 분별의 어려움과, 다의어 분별에는 동형이의어 분별과는 다른 방법이 필요하다는 것을 확인할 수 있었다.

  • PDF

영어 말뭉치 구축을 위한 인터넷 영어 신문기사 추출 도구 (Internet English Newspaper Article Extraction Tool for English Corpus Construction)

  • 김성동;엄재영;송철민
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.154-156
    • /
    • 2012
  • 영한 기계번역 시스템의 개발을 위해서는 여러 가지 사전이 필요하고, 다앙한 모호성 해소를 위한 연구를 위한 데이터가 필요하며, 번역 시스템의 테스트를 위해 많은 영어 문장이 필요하다. 따라서 영어 말뭉치를 구축하여 이로부터 사전에 필요한 정보, 모호성 해소 연구에 필요한 데이터, 번역 테스트를 위한 문장 등을 추출할 필요가 있다. 본 논문에서는 영어 말뭉치를 구축하기 위해 인터넷 영어 신문 사이트로부터 영어로 작성된 신문기사를 추출하는 도구를 개발하였다. 이를 통해 자동적으로 영어 신문기사를 추출하여 말뭉치를 구축할 수 있으며, 이를 통해 영한 기계번역 시스템의 성능 향상을 지원할 수 있다.

  • PDF

구문패턴을 이용한 반자동 구문분석 말뭉치 구축도구

  • 임준호;박소영;곽용재;임해창;김의수;강범모
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.343-350
    • /
    • 2002
  • 본 논문에서는 구문패턴을 이용한 반자동 구문분석 말뭉치 구축도구를 제안한다. 일반적으로 구문분석 말뭉치를 구축하는 작업은 문법전문가의 많은 시간과 노력을 필요로 하고 있다. 본 논문은 구문분석 말뭉치를 구축할 때 수작업을 감소시켜 줄 수 있는 도구를 개발하기 위하여, 사용자가 정의하는 자질집합과 신뢰도를 바탕으로 구문패턴을 자동 추출하고 적용하는 방법을 제안한다. 소량의 말뭉치에서 실험한 결과, 구문패턴의 사용은 30%정도의 수작업을 감소시킬 수 있는 것으로 나타났다.

  • PDF

신문 기사의 코퍼스 언어학적 분석 (Corpus-Linguistical Analysis of Newspaper Articles)

  • 송경화;강범모
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.7-14
    • /
    • 2006
  • 본 연구에서는 신문 기사에 대한 실증적 언어 분석을 목적으로 하여, <21세기 세종계획>에 의해 구축된 대용량의 신문 기사 말뭉치를 다양한 각도로 계량화하여 분석한다. 신문 기사를 표제, 전문, 본문의 구성으로 나누고 각 구성의 특징에 따라 형태 분석 말뭉치, 형태의미 분석 말뭉치, 구문 분석 말뭉치를 이용하여 분석한다. 본 연구는 대량의 신문 기사 말뭉치를 이용한 계량적 방법이라는데 의의가 있다 이러한 연구 방법을 통하여 기존의 직관을 이용한 연구 방법들과 차별화 된 실증적 연구로서 신문 이론을 검증하고, 신문 기사의 새로운 언어 현상을 발견할 수 있을 것이다.

  • PDF