• 제목/요약/키워드: 현대 한국어

검색결과 71건 처리시간 0.024초

문장 표면 분석에 의한 한국어 문장 처리기 개발 (A Development of Korean Sentence Processor using Surface Analysis)

  • 이호석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.245-248
    • /
    • 2010
  • 현대 한국어 문장에는 (1) 여러 가지 부사절이 포함된 경우, (2) 길이가 긴 경우, (3) 여러 가지 기호를 포함한 경우, (4) 수와 단위 표현이 있는 경우, (5) 영어 등 외국어가 포함된 경우, (6) 혹은 (1)(2)(3)(4)(5)를 모두 포함한 경우가 많다. 따라서 현대 한국어 문장을 구문 처리하기 위해서는 전처리(preprocessing) 과정이 필수적이라고 생각한다. 전처리 과정에서는 문장 표면 분석을 수행하고 문장 분할도 수행하여 입력 문장을 구문 처리가 가능한 형태로 바꾸어야 한다. 본 논문에서는 현대 한국어 문장을 구문 처리하기 위한 표면 분석 방법과 분할 방법을 논의한다. 또한 한국어 구문을 나타내는 분할 구조 문법의 예도 제시한다.

  • PDF

ELECTRA 모델을 이용한 음절 기반 한국어 개체명 인식과 슬롯 필링 (Syllable-based Korean Named Entity Recognition and Slot Filling with ELECTRA)

  • 도수종;박천음;이청재;한규열;이미례
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.337-342
    • /
    • 2020
  • 음절 기반 모델은 음절 하나가 모델의 입력이 되며, 형태소 분석을 기반으로 하는 모델에서 발생하는 에러 전파(error propagation)와 미등록어 문제를 회피할 수 있다. 개체명 인식은 주어진 문장에서 고유한 의미를 갖는 단어를 찾아 개체 범주로 분류하는 자연어처리 태스크이며, 슬롯 필링(slot filling)은 문장 안에서 의미 정보를 추출하는 자연어이해 태스크이다. 본 논문에서는 자동차 도메인 슬롯 필링 데이터셋을 구축하며, 음절 단위로 한국어 개체명 인식과 슬롯 필링을 수행하고, 성능 향상을 위하여 한국어 대용량 코퍼스를 음절 단위로 사전학습한 ELECTRA 모델 기반 학습방법을 제안한다. 실험 결과, 국립국어원 문어체 개체명 데이터셋에서 F1 88.93%, ETRI 데이터셋에서는 F1 94.85%, 자동차 도메인 슬롯 필링에서는 F1 94.74%로 우수한 성능을 보였다. 이에 따라, 본 논문에서 제안한 방법이 의미있음을 알 수 있다.

  • PDF

한국어 사전과 동족보어 구문

  • 홍재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1990년도 제2회 한글 및 한국어정보처리 학술대회
    • /
    • pp.89-94
    • /
    • 1990
  • 본 발표는 현대 한국어 어휘에 대한 공시적 시각 우위의 총체적 기술을 지향하는 대규모 언어사전의 동사항목 기술에서 고려되어야 할 통사.어휘 정보의 한 가지로 동족보어 구문의 문제를 다룬다. 한국어 동족보이 구문의 언어학적 분석을 바탕으로, (ㄱ) 기간 한국어 사전에서의 처리 현황을 검토하고; (ㄴ) 사전적 정보로서의 동족보어 구문의 속성을 좀 더 따져보며; (ㄷ) 동족보이 구문의 통사. 어휘 속성을 사전에 체계적으로 기록해야할 근거나, 이와 관련된 구체적 사전 기술의 방안을 제시해 본다.

  • PDF

한국어의 모음음가

  • 이현복
    • 대한음성학회지:말소리
    • /
    • 제1호
    • /
    • pp.56-70
    • /
    • 1980
  • 이 글은 현대 한국어의 모음 음가를 음성학적으로 기술한다. 여기서 한국어란 서울 지역을 근거로 하는 표준말을 뜻한다. 한국어 모음의 소리값을 기술하는 과정에서 일부 방언 및 외국어의 음가와 비교 설명하는 일이 있으므로 이들 방언이나 외국어와 한국 표준말의 소리 차이를 이해하는 데도 도움이 될 것이다. 이 글의 본문은 "음성 반풀어 쓰기"로 적는다. "반풀어 쓰기"란 받침을 아래에 두지 않고 오른쪽 옆으로 적는 것을 말하며 "음성"이란 맞춤법을 따르지 않고 한글 글자를 음성기호로 활용하여 소리나는 대로 적는 법을 뜻한다. 그러므로 각 모음 기호마다 올바른 소리값을 주면서 음성 반풀어 쓰기로 적은 본문을 읽는다면 틀림없이 한국 표준 발음을 하게 될 것이다. 본문에서 긴소리는 같은 글자를 두 번 겹쳐서 나타냈다.

  • PDF

언어사전의 명사항목 구성을 위한 통사 어휘 정보 (Pour un traitement lexicographique des proprietes syntaxiques et lexicales des noms coreens)

  • 홍재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1989년도 한글날기념 학술대회 발표논문집
    • /
    • pp.96-98
    • /
    • 1989
  • 본 발표는 현대 한국어 어휘에 대한 공시적 시각 우위의 총체적 기술을 지향하는 대규모 언어사전의 명사 항목 내에 표시 되어야할 주요 통사 어휘 정보가 어떠한 것인가 하는 문제를 다룬다. 특히 기간 한국어 사전에서 소홀히 취급되었거나 무시되었으나, 언어학적으로는 중요하고, 따라서 언어 사전에 기록되는 것이 바람직한 한국어 명사의 통사 어휘적 속성의 일부를 소개해 보기로 한다.

  • PDF

현대국어 음변화 규칙의 기능 부담량

  • 이상억
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1990년도 제2회 한글 및 한국어정보처리 학술대회
    • /
    • pp.131-138
    • /
    • 1990
  • 이 연구는 현대 국어에 나타나는 음성규칙, 음운규칙, 형태음운규칙, 기타 등등의 발생빈도를 조사하여, 각 규칙이 차지하는 기능 부담량(Functional Load)을 알아 보려는 것이다.

  • PDF

SNS 비정형 데이터의 한국어 다중감성 분석 기법 (Korean Multiple Sensibility Analysis Technique of SNS Unstructured Data)

  • 김소연;유헌창
    • 한국컴퓨터교육학회 학술대회
    • /
    • 한국컴퓨터교육학회 2018년도 하계학술대회
    • /
    • pp.147-149
    • /
    • 2018
  • 음성인식, 행동패턴인식, 텍스트마이닝 등 사람의 자연스러운 사회적인 활동을 통해 감성을 분석하려는 연구는 지속적으로 증가하고 있다. 특히 SNS는 현대사회에서 없어서는 안 될 소통의 도구로 자리 잡았기 때문에 SNS의 비정형데이터를 이용한 감성분석은 마케팅 분야에서 중요한 활용도구로 사용되고 있다. 이러한 추세에 따라 한국어에 대한 감성인식 역시 다방면으로 분석, 활용되고 있고 한국어의 어순과 표현방식, 중의성, 방언 등의 몇 가지 특징으로 인해 영어와는 다른 방식으로의 접근방식에 대한 필요성이 많은 연구에서 논의되고 있다. 따라서, 이 연구에서는 이러한 한국어의 특징을 수용하여 분석할 수 있도록 시계열 분석에 유용한 LSTM과 중복단어에 대한 가중치를 적용하여 한국어 감성분석을 진행해보고자 한다.

  • PDF

HyperCLOVA를 이용한 한국어 Fact 검증을 위한 자동 데이터 생성 (HyperCLOVA for Data Generation of Korean Fact Verification)

  • 이종현;나승훈;신동욱;김선훈;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.118-123
    • /
    • 2021
  • 현대 사회에서 소셜 네트워킹 서비스의 증가와 확산은 많은 정보를 쉽고 빠르게 얻을 수 있도록 하였지만 허위·과장 정보의 확산이 큰 문제로 자리잡고 있다. 최근 해외에서는 이들을 자동으로 분류 및 판별하고자하는 Fact 검증 모델에 관한 연구 및 모델 학습을 위한 데이터의 제작 및 배포가 활발히 이루어지고 있다. 그러나 아직 국내에서는 한국어 Fact 검증을 위한 데이터가 많이 부족한 상황이기 때문에 본 논문에서는 최근 좋은 성능을 보이는 openai 의 GPT-3를 한국어 태스크에 적용시킨 HyperCLOVA 를 이용하여 한국어 Fact 검증 데이터 셋을 자동으로 구축하고 이를 최신 Fact 검증 모델들에 적용하였을 때의 성능을 측정 및 분석 하고자 하였다.

  • PDF