• 제목/요약/키워드: 뭉치

검색결과 757건 처리시간 0.023초

말뭉치와 형태소 분석기를 활용한 한국어 자동 띄어쓰기 (Automatic Word Spacing Using Raw Corpus and a Morphological Analyzer)

  • 심광섭
    • 정보과학회 논문지
    • /
    • 제42권1호
    • /
    • pp.68-75
    • /
    • 2015
  • 본 논문에서는 띄어쓰기가 전혀 되어 있지 않은 문자열을 입력 받아 말뭉치에서 추출한 어절 정보를 이용하여 자동 띄어쓰기를 해 주는 방법론을 제안한다. 형태소 분석기도 사용되나 오류 수정이라는 제한적인 용도로만 사용된다. 성능 평가를 위해 1,000만 어절 규모의 세종 말뭉치에서 순수 한글 585만 어절을 발췌하여 10 개의 세트로 나누고 10 배수 교차 검증을 실시한 결과 98.06%의 음절 정확도와 94.15%의 어절 재현율을 얻었다. 또한, 개인용 컴퓨터에서 초당 25만 어절, 1.8 MB의 문서를 처리할 수 있을 정도로 빠르다. 제안된 방법의 정확도나 재현율은 어절 사전의 크기에 영향을 받기 때문에 보다 큰 말뭉치로 어절 사전을 구축하면 성능이 더욱 향상될 것으로 기대된다.

사전 학습 언어 모델을 활용한 감정 말뭉치 구축 연구 (A Study on the Construction of an Emotion Corpus Using a Pre-trained Language Model )

  • 장연지 ;비립 ;강예지 ;강혜린 ;박서윤 ;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.238-244
    • /
    • 2022
  • 감정 분석은 텍스트에 표현된 인간의 감정을 인식하여 다양한 감정 유형으로 분류하는 것이다. 섬세한 인간의 감정을 보다 정확히 분류하기 위해서는 감정 유형의 분류가 무엇보다 중요하다. 본 연구에서는 사전 학습 언어 모델을 활용하여 우리말샘의 감정 어휘와 용례를 바탕으로 기쁨, 슬픔, 공포, 분노, 혐오, 놀람, 흥미, 지루함, 통증의 감정 유형으로 분류된 감정 말뭉치를 구축하였다. 감정 말뭉치를 구축한 후 성능 평가를 위해 대표적인 트랜스포머 기반 사전 학습 모델 중 RoBERTa, MultiDistilBert, MultiBert, KcBert, KcELECTRA. KoELECTRA를 활용하여 보다 넓은 범위에서 객관적으로 모델 간의 성능을 평가하고 각 감정 유형별 정확도를 바탕으로 감정 유형의 특성을 알아보았다. 그 결과 각 모델의 학습 구조가 다중 분류 말뭉치에 어떤 영향을 주는지 구체적으로 파악할 수 있었으며, ELECTRA가 상대적으로 우수한 성능을 보여주고 있음을 확인하였다. 또한 감정 유형별 성능을 비교를 통해 다양한 감정 유형 중 기쁨, 슬픔, 공포에 대한 성능이 우수하다는 것을 알 수 있었다.

  • PDF

대화형 질의응답 말뭉치 자동 생성에 대한 연구 (A study on the Automatic Generation of Conversational QA Corpora)

  • 황선정;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.133-138
    • /
    • 2021
  • 최근 다양한 분야에서 자동 고객 응대 시스템을 도입하고 있으며 이에 따른 대화형 질의응답 시스템 연구의 필요성이 증가하고 있다. 본 논문에서는 새로운 도메인의 대화형 질의응답 시스템 구축에 필요한 말뭉치를 자동으로 생성하는 대화형 질의-응답 생성 시스템을 소개한다. 또한 이전 대화 내용을 고려하여 문서로부터 사용자의 다음 질문 대상이 될만한 응답 후보를 추출하는 맥락 관련 응답 추출 과제와 이에 대한 성능 평가 지표인 Sequential F1 점수를 함께 제안한다. 대화형 질의응답 말뭉치인 CoQA에 대해 응답 후보 추출 실험을 진행한 결과 기존의 응답 추출 모델보다 우리의 맥락 관련 응답 추출 모델이 Sequential F1 점수에서 31.1 높은 성능을 보였다. 또한 맥락 관련 응답 추출 모듈과 기존에 연구된 대화형 질의 생성 모듈을 결합하여 개발한 대화형 질의-응답 생성 시스템을 통해 374,260 쌍의 질의-응답으로 구성된 대화형 질의응답 말뭉치를 구축하였다.

  • PDF

한국어 어휘뭉치의 표본 선정 기준 (Selection Criteria of Texts for the Korean Corpus)

  • 정찬섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1989년도 한글날기념 학술대회 발표논문집
    • /
    • pp.257-263
    • /
    • 1989
  • 신뢰롭고 타당한 우리말 어휘뭉치의 표본 선정 기준을 정하기 위하여 언어 관계 전문가와 일반인을 대상으로 독서물의 중요성 및 독서량을 묻는 현장 조사를 실시하였다. 어휘 뭉치 표본으로서 17개의 독서물 유목 및 구어 대본이 선정되었으며 각 독서물 유목별 표집 비율이 산출되었다.

  • PDF

MovieDic 말뭉치를 이용한 대화 참여 모델의 구성 (Construction of Dialog Engagement Model using MovieDic Corpus)

  • 구상준;유환조;이근배
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.249-251
    • /
    • 2016
  • 다중 화자 대화 시스템에서, 시스템의 입장에서 어느 시점에 참여해야하는지를 아는 것은 중요하다. 이러한 참여 모델을 구축함에 있어서 본 연구에서는 다수의 화자가 대화에 참여하는 영화 대본으로 구축된 MovieDic 말뭉치를 사용하였다. 구축에 필요한 자질로써 의문사, 호칭, 명사, 어휘 등을 사용하였고, 훈련 알고리즘으로는 Maximum Entropy Classifier를 사용하였다. 실험 결과 53.34%의 정확도를 기록하였으며, 맥락 자질의 추가로 정확도 개선을 기대할 수 있다.

  • PDF

대역사전을 결합한 한/일 통계기계번역 (Integrating Bilingual Dictionary in Statistical Machine Translation between Korean and Japanese)

  • 나휘동;이건일;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.288-290
    • /
    • 2012
  • 서로 다른 분야에서 사용되는 어휘는 서로 다르게 번역된다. 본 논문에서는 특정 분야를 고려해 번역하기 위하여 대역 사전을 통계기계번역과 결합한 방법을 제안한다. 한/일 병렬 말뭉치를 500문장을 이용해 평가해 본 결과 학습용 병렬 말뭉치의 양이 너무 적거나 특정 분야의 병렬 말뭉치가 존재하지 않을때 대역 사전을 결합하면 번역 성능이 향상되었다.

웹기반 말뭉치 정보 검색 시스템 (Web-based Corpus Information Retrieval System)

  • 이정호;임희석
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2008년도 추계학술발표논문집
    • /
    • pp.260-263
    • /
    • 2008
  • 본 논문은 대용량의 한글어 말뭉치를 이용하여 언어학적 통계정보를 자동으로 검색할 수 있는 웹기반 언어정보 검색 시스템을 제안하고 구현하였다. 구현한 시스템을 통해 형태소, 품사, 어절 정보를 자동으로 획득할 수 있었다. 본 시스템은 언어학적 지식이 부족한 비전문가도 말뭉치 검색을 효율적으로 수행할 수 있으며, 웹기반으로 구현되었기 때문에 시스템 접근의 용의성에 의의가 있다.

  • PDF

한국어 문서의 통계적 정보를 이용한 문서 요약 시스템 구현 (Implementation of the Text Abstraction System using the Statistical Information of Korean Documents)

  • 강상배;조혁규;권혁철;박재득;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.28-33
    • /
    • 1997
  • 이 논문에서는 문장 유사도 측정 기법과 말뭉치 정보를 이용한 문서요약 시스템을 구현하였다. 문서 요약은 문서에서 문장 단위로 단어를 추출하여 문장을 단어의 벡터로 표현하고, 문서 내 단어의 출현빈도와 말뭉치 내 단어의 사용빈도를 이용하여 각 문장의 중요도를 계산한다. 그리고 중요도가 높은 상위 몇 위의 문장을 요약문장으로 추출한다. 실험 결과, 문서내 단어빈도의 중요도를 낮추고, 말뭉치내 일반 사용빈도를 단어의 가중치에 추가했을 때 가장 좋은 효율을 보였다. 또 요약하고자 하는 문서와 유사한 말뭉치를 사용 했을 때 높은 효율을 보였다.

  • PDF

뭉치 언어학 : 사전 편찬의 필수적 개념 (Corpus Linguistics as Necessary Concept for Korean Lexicography)

  • 이상섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1989년도 한글날기념 학술대회 발표논문집
    • /
    • pp.73-76
    • /
    • 1989
  • 기존 한국어 사전들은 자연 언어로서의 한국어에 대한 실질적 조사 연구에 근거하고 있지 않다는 점에서 치명적 결함을 안고 있다. 최근 유럽에서 개발 응용되고 있는 ${\ulcorner}$뭉치 언어학${\lrcorner}$(corpus linguistics) 은 컴퓨터의 급격한 발전에 힘입어 대규모 용량의 자연언어 자료를 다각적으로 처리할 수 있는 방법을 고안할 수 있게 해주고 있다. 예컨대 영국 버밍엄 대학의 COBUILD 계획은 전혀 새로운 개념의 영어 사전을 편찬하는 데에 성공했다. 한국어 사전의 편찬도 뭉치 언어학적 방법의 도입으로 가능할 것으로 믿어, 필자가 작성한 작은 ${\ulcorner}$뭉치${\lrcorner}$로부터의 실례를 제시한다.

  • PDF

문법 규칙과 어절 상관도를 이용한 품사 태깅 시스템 (Parts-Of-Speech Tagging System Using Grammar Rule and Eojeol Relativity)

  • 도미숙;최호섭;옥철영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (상)
    • /
    • pp.481-484
    • /
    • 2003
  • 본 논문에서는 문법 규칙과 어절 상관도를 이용한 품사 태깅 시스템을 제안한다. 원시 말뭉치와 품사태그 부착 말뭉치에서 중의 어절(ambiguity eojeol)의 앞뒤 어휘와 품사 정보를 파악하여 문법 규칙을 마련하였으며, 한국어의 품사와 문장성분적 요소를 고려한 7개의 어절 태그를 설정하여 이 어절 태그간의 확률값을 이용해 어절간의 상관도를 구하였다. 이러한 방법들을 이용하여 품사 태깅을 실험한 결과, 150 만 어절의 학습 말뭉치와 3 만 어절의 실험 말뭉치에서 각각 평균 92%와 91%의 정확률을 보였다.

  • PDF