• 제목/요약/키워드: 말뭉치

검색결과 680건 처리시간 0.027초

메신저 맞춤법 교정 병렬 말뭉치의 구축과 쟁점 (Construction of a Parallel Corpus for Instant Messenger Spelling Correction and Related Issues)

  • 황은하;안진산;남길임
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.545-550
    • /
    • 2022
  • 본 연구의 목적은 2021년 메신저 언어 200만 어절을 대상으로 수행된 맞춤법 교정 병렬 말뭉치의 설계와 구축의 쟁점을 소개하고, 교정 말뭉치의 주요 교정 및 주석 내용을 기술함으로써 맞춤법 교정 병렬 말뭉치의 특성을 분석하는 것이다. 2021년 맞춤법 교정 병렬 말뭉치의 주요 목표는 메신저 언어의 특수성을 살림과 동시에 형태소 분석이나 기계 번역 등 한국어 처리 도구가 분석할 수 있는 수준으로 교정하는 다소 상충되는 목적을 구현하는 것이었는데, 이는 교정의 수준과 병렬의 단위 설정 등 상당한 쟁점을 내포한다. 본 연구에서는 말뭉치 구축 시점에서 미처 논의하지 못한 교정 수준의 쟁점과 교정 전후의 통계적 특성을 함께 논의하고자 하며, 다음과 같은 몇 가지 하위 내용을 중심으로 논의하고자 한다.첫째, 맞춤법 교정 병렬 말뭉치의 구조 설계와 구축 절차에 대한 논의로, 2022년 초 국내 최초로 공개된 한국어 맞춤법 교정 병렬 말뭉치('모두의 말뭉치'의 일부)의 구축 과정에서 논의되어 온 말뭉치 구조 설계와 구축 절차를 논의한다. 둘째, 문장 단위로 정렬된 맞춤법 교정 말뭉치에서 관찰 가능한 띄어쓰기, 미등재어, 부호형 이모티콘 등의 메신저 언어의 몇 가지 특성을 살펴본다. 마지막으로, 2021년 메신저 맞춤법 교정 말뭉치의 구축 단계에서 미처 논의되지 못한 남은 문제들을 각각 데이터 구조 설계와 구축 차원의 주요 쟁점을 중심으로 논의한다. 특히 메신저 맞춤법 병렬 말뭉치의 주요 목표인 사전학습 언어모델의 학습데이터로서의 가치와 메신저 언어 연구의 기반 자료 구축의 관점에서 맞춤법 교정 병렬 말뭉치 구축의 의의와 향후 과제를 논의하고자 한다.

  • PDF

Kane: 의미정보 말뭉치 구축 도구 (Kane: Knowledge Annotation Tool for Semantic Information)

  • 배원식;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.121-125
    • /
    • 2009
  • 본 논문에서는 의미정보 말뭉치 구축 도구인 Kane에 대해 설명한다. 형태소 분석기나 구문 분석기, 개체명 인식기 등 자연어처리를 위한 기본이 되는 시스템에는 말뭉치가 필요하며, 말뭉치의 구축에는 많은 비용이 든다. 일반적으로 말뭉치 구축 작업은 전용 구축 도구가 없이 문서 편집기를 사용하여 이루어지는 경우가 많아 말뭉치 구축 작업 효율이 떨어지고, 자연스럽게 구축되는 말뭉치의 품질도 낮아진다. 문서 편집기를 사용할 때 발생하는 대표적인 문제는 키보드를 이용한 기계적인 작업이 반복된다는 것이며, 키보드 입력에 따른 오타 문제 또한 발생한다. Kane에서는 기계적인 작업 및 키보드 입력을 간편한 인터페이스를 통해 최소화하였으며, 마우스 조작으로도 쉽게 말뭉치를 구축할 수 있다. 또한 사전을 이용한 이전 작업 내용 참조 기능을 지원하여 작업의 효율성 및 일관성 문제를 개선하고자 하였다.

  • PDF

언어학자를 위한 말뭉치 분석기 (Corpus Analyzer for Linguists)

  • 정석팔;임성현;전진형;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.95-98
    • /
    • 2012
  • 말뭉치는 언어를 연구하기 위한 중요한 재료이다. 본 논문에서는 말뭉치에서 나타나는 언어 현상을 보다 효율적으로 분석하기 위한 언어학자를 위한 말뭉치 분석기를 제안하고 그 구현 방법을 설명한다. 제안하는 말뭉치 분석기는 기본적인 통계 정보와 함께, 형태소 분석된 파일을 대상으로 위치 색인을 포함하는 역파일 색인을 구성하여 빠른 형태소 검색과 다앙한 수준의 연어 검색을 제공한다. 분석기는 세종말뭉치를 기본 말뭉치로 하며, 다앙한 말뭉치에 대한 통계자료와 검색 기능을 제공하기 위해 사용자 말뭉치 파일에 대한 처리도 지원한다. 시스템은 사용자가 업로드한 말뭉치 파일에 대하여 자동 형태소 분석을 제공하며 형태소 분석 결과 수정을 가능하게 하여 다앙한 말뭉치에서 언어학자들의 우리말 연구를 지원한다.

  • PDF

21세기 세종계획 현대국어 기초말뭉치: 성과와 전망 (21st Century Sejong Modern Korean Corpora: Results and Expectations)

  • 김흥규;강범모;홍정하
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.311-316
    • /
    • 2007
  • 현대국어 기초말뭉치는 방법론 및 표준화 연구, 그리고 소프트웨어 개발과 더불어 21세기 세종계획 국어기초자료 구축 사업의 일환으로 개발되었다. 현대국어 기초말뭉치 개발에서는 세종말뭉치 통합분 12,000만 어절을 후처리하고, 원시말뭉치 6,200만 어절, 형태분석 말뭉치 1,500만 어절, 형태의미분석 말뭉치 1,250만 어절, 구문분석 말뭉치 80만 어절을 신규 구축 완료하였으며, 이 중 일부 말뭉치에 대한 정제 작업이 2007년 말까지 완료될 예정이다. 방법론 및 표준화 연구에서는 말뭉치 구축 방법론과 분석표지 표준화, 말뭉치 활용 연구가 진행되었고, 이 밖에도 소프트웨어 개발 사업에서는 말뭉치 구축 및 활용에 필요한 도구를 개발하였다. 이 논문은 21세기 세종계획 국어기초자료 구축 사업의 연구 성과를 현대 국어 기초말뭉치를 중심으로 소개하고 향후 전망을 논의하는 것이 목적이다.

  • PDF

말뭉치 자동 확장을 통한 SMT 성능 향상에 대한 연구 (Research about SMT Performance Improvement Through Automatic Corpus Expansion)

  • 최규현;신종훈;김영길
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.296-299
    • /
    • 2016
  • 현재 자동번역에는 통계적 방법에 속하는 통계기반 자동번역 시스템(SMT)이 많이 사용되고 있지만, 학습 데이터로 사용되는 대용량의 병렬 말뭉치를 수동으로 구축하는데 어려움이 있다. 본 연구의 목적은 통계기반 자동번역의 성능을 향상시키기 위해 기존 다른 언어쌍의 말뭉치와 SMT 자동번역 기술을 이용하여 대상이 되는 언어쌍의 SMT 병렬 말뭉치를 자동으로 확장하는 방법을 제안한다. 제안 방법은 서로 다른언어 B와 C의 병렬 말뭉치를 얻기 위해, A와 B의 SMT 자동번역 시스템을 구축하고 기존의 A-C 말뭉치의 A를 SMT를 통해 B로 번역하여 B와 C의 말뭉치를 자동으로 확장한다. 실험을 통해 확장한 병렬 말뭉치가 통계기반 자동번역 시스템의 성능을 향상시킬 수 있음을 확인한다.

  • PDF

말뭉치 자동 확장을 통한 SMT 성능 향상에 대한 연구 (Research about SMT Performance Improvement Through Automatic Corpus Expansion)

  • 최규현;신종훈;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.296-299
    • /
    • 2016
  • 현재 자동번역에는 통계적 방법에 속하는 통계기반 자동번역 시스템(SMT)이 많이 사용되고 있지만, 학습 데이터로 사용되는 대용량의 병렬 말뭉치를 수동으로 구축하는데 어려움이 있다. 본 연구의 목적은 통계기반 자동번역의 성능을 향상시키기 위해 기존 다른 언어쌍의 말뭉치와 SMT 자동번역 기술을 이용하여 대상이 되는 언어쌍의 SMT 병렬 말뭉치를 자동으로 확장하는 방법을 제안한다. 제안 방법은 서로 다른 언어 B와 C의 병렬 말뭉치를 얻기 위해, A와 B의 SMT 자동번역 시스템을 구축하고 기존의 A-C 말뭉치의 A를 SMT를 통해 B로 번역하여 B와 C의 말뭉치를 자동으로 확장한다. 실험을 통해 확장한 병렬 말뭉치가 통계기반 자동번역 시스템의 성능을 향상시킬 수 있음을 확인한다.

  • PDF

세종 문어체 말뭉치를 위한 말뭉치 데이터 추출 도구 (Corpus Data Extracting Tool for Sejong Text Corpus)

  • 박일남;장우석;강승식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.1102-1105
    • /
    • 2010
  • 본 논문에서는 세종 말뭉치 데이터를 활용할 때 한글코드의 변환 및 말뭉치에서 필요한 정보 추출 등 한국어 말뭉치에서 통계 정보를 추출하는데 사용되는 여러 가지 기능들을 한데 묶어, 말뭉치 작업의 사용자 편의성을 개선시키기 위한 도구를 설계, 구현하였다. 이 말뭉치 활용 도구는 세종 말뭉치의 원시, 형태, 형태의미, 구문 말뭉치들을 다양한 옵션에 따라 사용자가 원하는 데이터를 추출할 있을 뿐만 아니라 일반적인 한글 텍스트 파일에 공통적으로 사용되는 코드 변환, 파일 합병, 빈도 계산 등을 제공하기 때문에 말뭉치 작업을 하는 사용자들이 편리하게 사용할 수 있게 하였다.

형제어 대체를 이용한 개체명 말뭉치 확장 (Named Entity Tagged Corpus Augmentation Using Co-hyponym Replacement)

  • 김재균;김창현;천민아;박혁로;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.179-183
    • /
    • 2020
  • 말뭉치는 기계학습 및 심층학습을 위한 필수 자원이다. 한국어 개체명의 경우 학습에 사용할 잘 정제된 개체명 부착 말뭉치가 충분하지 않다. 말뭉치 정제 작업은 시간적, 경제적으로 많은 비용이 소모된다. 따라서 본 논문에서는 적은 양의 말뭉치를 이용하여 말뭉치를 자동적으로 확장하는 방법을 제안한다. 특별히 소규모 말뭉치에 속하는 문장의 단어에 대한 형제어들을 선정하여 형제어의 확률추출을 기반으로 대체함으로써 새로운 문장을 생성함으로써 말뭉치 확장하는 방법이다. 본 논문에서는 확장된 말뭉치를 이용해서 대부분의 시스템에서 성능이 향상됨을 확인할 수 있었다. 앞으로 단어의 삭제 및 삽입 등 다양한 방법으로 좀 더 다양한 문장을 생성할 수 있을 것으로 생각합니다.

  • PDF

자료 빈약성을 해소하기 위한 말뭉치 크기의 예측 (Estimation of the Corpus Size for Solving Data Sparseness)

  • 양단희;임수종;송만석
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권4호
    • /
    • pp.568-583
    • /
    • 1999
  • 대량의 말뭉치(corpus)로부터 구문 정보나 의미 정보를 컴퓨터를 사용하여 자동으로 발췌하려는 연구가 활발하다. 그러나 실용적인 자연언어처리 시스템이 되기 위해 필요한 망라성(coverage)과 견고성(robustness)을 갖기 위해 어느 정도 규모의 말뭉치가 필요한지에 대한 연구는 극히 미비하다. 본 연구는 '우리말큰사전'상의 주요 4가지 품사에 속하는 단어들을 중심으로 상이 단어(different words) 수와 말뭉치 크기간의 상관관계를 통계적으로 고찰하여 수학적 예측함수(estimating functions)를 구한다. 그리고 이를 통해 자료 빈약성(data sparseness)현상을 타당한 수준으로 감소시켜 말뭉치를 기반 자연어처리의 신뢰도를 높이기 위해 요구되는 말뭉치 크기를 예측한다. 또한 예측된 말뭉치 크기를 근거로 합리적인 말뭉치 구축 방법을 제안한다.

꼬꼬마 : 관계형 데이터베이스를 활용한 세종 말뭉치 활용 도구 (KKMA : A Tool for Utilizing Sejong Corpus based on Relational Database)

  • 이동주;연종홈;황인범;이상구
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권11호
    • /
    • pp.1046-1050
    • /
    • 2010
  • 말뭉치는 언어학 분야에서 다양한 연구를 위한 기초자료로서 활용된다. 국내에서도 세종 21세기 계획 등을 통해서 몇몇 대용량 말뭉치가 구축되었으나, 다수의 사용자가 쉽게 활용할 수 있는 활용 도구에 대한 연구는 여전히 부족하다. 본 논문에서는 한국어 대용량 말뭉치 중 하나인 세종 현대 국어 말뭉치를 관계형 데이터베이스에 저장하여, 다양한 방법으로 활용할 수 있도록 지원하는 말뭉치 활용 도구에 대한 설계 및 구현 방법을 보인다. 웹 기반의 말뭉치 활용 시스템을 구축하였고, 실제로 언어학 연구자들에게 사용되고 있다.