• 제목/요약/키워드: 현대 한국어

검색결과 71건 처리시간 0.019초

D-Tag를 이용한 한국어 개체명 인식 (Korean Named Entity Recognition using D-Tag)

  • 김은수;도수종;박천음
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.35-40
    • /
    • 2022
  • 본 논문에서는 시퀀스 레이블링 문제(sequence labeling problem)인 개체명 인식에 사용할 새로운 태깅 포맷인 Delimiter tag (D-tag)를 소개한다. 시퀀스 레이블링 문제에서 사용하는 BIO-tag 포맷은 개체명 레이블을 B (beginning)와 I (inside) 의미의 레이블로 확장하여 타겟 클래스의 수가 2배 증가한다. 또한 BIO-tag 포맷을 사용할 경우, 모델이 B와 I 를 잘못 분류하는 문제가 발생하며, 레이블 수가 많은 세부 분류 개체명의 경우에는 label confusion을 야기한다. 본 논문에서 제안한 D-tag 포맷은 타겟 클래스의 수를 증가시키지 않기 때문에 앞서 언급한 문제를 해결할 수 있다. 실험 결과, D-tag를 사용하여 학습한 모델이 BIO-tag를 사용한 경우보다 더 좋은 성능을 보여, 유망함을 확인하였다.

  • PDF

코퍼스 규모에 따른 타입과 토큰의 상관성 연구 (The Statistical Relationship between Types and Tokens)

  • 양경숙;박병선;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.81-85
    • /
    • 2003
  • 이 논문의 목적은 코퍼스 크기에 따른 타입과 토큰간의 관계를 엄밀한 통계적 방법으로 그 특징을 밝히고자 하는 것이다. 지금까지 코퍼스를 구축하는 데 있어서, 자료의 다양성을 고려한 자료 균형성을 문제와 더불어 코퍼스 구축 규모의 문제는 매우 중요한 고려사항이었다. 이런 문제는 일찍이 영어 코퍼스를 중심으로 많은 연구가 진행된 바가 있지만 한국어를 대상으로 한 엄밀한 연구는 많이 이루어지지 않았다. 이 연구에서는 현재까지 구축한 현대 한국어 말뭉치 1억여 어절을 대상으로 말뭉치 크기 증가에 따른 타입과 토큰간의 통계적 관계를 3가지 모형에 대해 비교하였으며 최종적으로 ARIMA모형을 이용하여 그 함수적 관계를 밝혀보았다. 연구 결과에 따르면 한국어 자료는 약 1천만 어절의 토큰을 기준으로 타입의 변화가 다소 둔화되는 결과를 보인다. 연구에 의해 도출된 함수식을 이용하면 소규모의 자료를 이용하더라도, 대규모 자료에서의 타입수를 계산해 낼 수 있으므로, 더욱 다양하고 정확한 통계처리의 근거를 제시할 수 있게 된다.

  • PDF

중국어 전사 한글 표기와 키보드의 표준 방안 (Korean Keyboard Standard for Koreanization of Chinese)

  • 김국;김하림;박호범
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.70-72
    • /
    • 2015
  • 중국어(한어)를 라틴 알파벳으로 전사하는 음운표기 체계를 병음(Pinyin)이라고 하는데, 이에 비해 한국어 사용자를 위한 한글식의 중국어 전사 표기가 여러 가지가 연구되었다. 이는 한국어 및 한글 구사자에게 중국어를 학습하거나 중국문자를 컴퓨터에 입력하는 데 유용할 것이다. 이 논문은 중국어 한글전사 표준과 이 용도의 키보드를 만드는 원칙을 연구한 것이다. 핵심은 중국어의 한글전사를 현대 한국어맞춤법을 따르도록 하고, 기존 표준키보드에 정합되게 한다.

  • PDF

MASS를 이용한 영어-한국어 신경망 기계 번역 (English-Korean Neural Machine Translation using MASS)

  • 정영준;박천음;이창기;김준석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.236-238
    • /
    • 2019
  • 신경망 기계 번역(Neural Machine Translation)은 주로 지도 학습(Supervised learning)을 이용한 End-to-end 방식의 연구가 이루어지고 있다. 그러나 지도 학습 방법은 데이터가 부족한 경우에는 낮은 성능을 보이기 때문에 BERT와 같은 대량의 단일 언어 데이터로 사전학습(Pre-training)을 한 후에 미세조정(Finetuning)을 하는 Transfer learning 방법이 자연어 처리 분야에서 주로 연구되고 있다. 최근에 발표된 MASS 모델은 언어 생성 작업을 위한 사전학습 방법을 통해 기계 번역과 문서 요약에서 높은 성능을 보였다. 본 논문에서는 영어-한국어 기계 번역 성능 향상을 위해 MASS 모델을 신경망 기계 번역에 적용하였다. 실험 결과 MASS 모델을 이용한 영어-한국어 기계 번역 모델의 성능이 기존 모델들보다 좋은 성능을 보였다.

  • PDF

Dual WGAN 기반 페르소나 Multi-Turn 챗봇 (Personalized Multi-Turn Chatbot Based on Dual WGAN)

  • 오신혁;김진태;김학수;이정엄;김선아;박영민;노명호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.49-53
    • /
    • 2019
  • 챗봇은 사람과 컴퓨터가 자연어로 대화를 주고받는 시스템을 말한다. 최근 챗봇에 대한 연구가 활발해지면서 단순히 기계적인 응답보다 사용자가 원하는 개인 특성이 반영된 챗봇에 대한 연구도 많아지고 있다. 기존 연구는 하나의 벡터를 사용하여 한 가지 형태의 페르소나 정보를 모델에 반영했다. 하지만, 페르소나는 한 가지 형태로 정의할 수 없어서 챗봇 모델에 페르소나 정보를 다양한 형태로 반영시키는 연구가 필요하다. 따라서, 본 논문은 최신 생성 기반 Multi-Turn 챗봇 시스템을 기반으로 챗봇이 다양한 형태로 페르소나를 반영하게 하는 방법을 제안한다.

  • PDF

한국어 대명사들과 조응성의 등급 (Korean Pronouns and Anaphoric Scale)

  • 성원경;박수준;차건회;박재득;서래원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.391-395
    • /
    • 1997
  • 한국어 문법 연구에서 뿐만 아니라, 현대 언어학에서는 일반적으로 대명사들은 재귀적 대명사와 비재귀적 대명사라는 두 개의 구분된 통사 범주로 분류된다는 대명사의 이분법적 통사 분류 가설이 지배적이다. 그러나 최근 [Hertz 92ab]가 제시한 조응성의 등급(anaphoric scale)이라는 개념에 의거한 본 연구에서는 한국어 대명사들을 두 개의 구분된 통사 범주로 이분하지 않으며 오직 서로 다른 조응도(anaphoric degree)에 의해서만 구분하는 스칼라식 관점을 제안하였다. 한국어 대명사들의 조응도를 기술하기 위해 본 연구에서는 몇 가지 통사 의미적 준거 항목들을 제시하였다. 본 연구의 접근 방법은 그간 많은 연구들에 의해 밝혀진 바와 같은 대명사들의 다양하고도 이질적인 통사 의미 특성들을 자연스럽게 설명하여 줄 수 있다는 장점이 있다. 반면, 이와 같은 대명사들의 통사 의미적 다양성은 전통적인 이분법적 분류의 관점에서는 풀기 어려운 숙제로 남게 된다.

  • PDF

한글의 정보처리 및 통신용 부호 최적화를 위한 한국어 분석 (Analysis of Korean Language to Optimize the Hangul Character Coding for Information Processing and Communication)

  • 홍완표
    • 한국전자통신학회논문지
    • /
    • 제10권3호
    • /
    • pp.375-380
    • /
    • 2015
  • 본 논문은 정보처리 및 전송용으로 사용되는 한글의 부호화를 최적화할 수 있도록 하기 위하여 한국어를 연구하였다. 본 논문은 한국어 구성하고 있는 한글의 구성현황과 그 한글들에 대한 각각의 사용빈도를 분석하였다. 본 논문은 본 연구결과 분석된 한글의 구성현황을 한국 KS 문자 표준과 국제 문자표준인 유니코드로 부호화되어 있는 한글 문자와 비교하였다. 연구를 위해 사용된 한국어는 국립국어원의 "현대국어사용빈도조사결과"를 대상으로 하였다. 이 보고서에 수록된 한국어는 총 58.437개이다. 분석결과 한국어 총58,437국어를 구성하고 있는 한글은 총1,540개였다. 이 총1,540개 한국어 중에서 사용빈도가 가장 높은 글자는 "다"로서 전체 사용빈도의 15%였다. 사용빈도가 가장 낮은 글자는 "휫"으로서 전체사용빈도의 0.00003%였다. 한국어를 구성하고 있는 한글 글자수는 유니코드 한글문자 부호를 구성하고 있는 한글 수 보다 약 7.2배, KS X 1001 한글문자 부호를 구성하고 있는 한글 수보다 약 1.5배 적은 것으로 나타났다.

한국 현대시 텍스트의 맥락 효과에 관한 인지.화용론적 연구 (A Cognitive Pragmatic Approach to Contextual Effects in Modern Korean Poetry)

  • 이현호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.227-240
    • /
    • 1993
  • 본 연구의 목적은 한국 현대시 텍스트가 독자에게 전달하는 시적 효과를 담화 텍스트 언어학 및 인지적 화용론의 관점에서 분석하는 것이다. 담화 텍스트 언어학은 텍스트의 언어 자료 자체보다는 이를 생산하고 수용하는 인지 과정에 주목하는 인지과학의 한 분야이며, 적합성 원리로 되는 인지적 화용론은 텍스트 언어학에서 규명하는 바 여러 인지적 조작 절차들의 심리학적 근거가 된다. 많은 인지적 책략 및 조작 절차들이 집약되어 있는 한국 현대시 텍스트를 인지 화용론적 관점에서 분석한 결과, 이제까지 모호하게 개진되어 오던 많은 시적 효과가 텍스트 언어학 및 인지적 화용론의 분석 장치들에 의해서 명쾌하게 설명될 수 있음이 밝혀졌다. 즉, 정보성의 격상 및 격하, 각별한 결속구조의 사용 및 그 수용 과정, 작가의 상황점검과 상황관리 과정에 의한 전국적 인지 패턴의 활성화 및 수정 등의 인지적 절차를 통해서 독자의 맥락이 수정, 확장되는 효과가 일어나고 바로 이것이 궁극적으로는 시적 효과를 낳는다는 점을 설명할 수 있다.

  • PDF

현대 한국어 접속어미 '-니까'의 인지.화용론적 연구 시론 (A Cognitive Pragmatic Approach to Discourse Connectives)

  • 서성교
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.460-475
    • /
    • 1994
  • 이 논문에서는 적합성 이론(Relevance Theory)에 의해서 현대 한국어 접속어미, 특히 담화표지(discourse marker) '-니까'가 담화의 이해에 어떻게 기여하는가를 고찰하고자 한다. '-니까'는 이제까지 '-(으)니-'와 별 의미나 기능의 차이가 없는 것으로 간주되어 왔는데, 이는 기존의 연구가 주로 통사 의미론적인 관점에서 수행되어 온 데 기인한다. 그러나 '-니까'는 엄연히 '-(으)니-'와 별개로 존재하고 있고, 더욱이 통시적으로 '-(으)니-' 보다는 '-니까'가 나중에 나타났다는 점을 고려한다면, '-니까'는 '-(으)니-'에 없는 특정한 기능을 반드시 수행하리라는 추측이 가능하다. 따라서 이 논문에서는 기존의 통사 의미적인 관점이 아닌 인지 화용론적 관점에서 '-(으)니-'와 '-니까'에 대한 새로운 분석을 시도하고자 한다. 아울러 '-니까'를 포함하는 '그러니까'도 함께 살펴보려고 한다. '그러니까'는 담화상에서 그에 선행하는 모든 정보를 맥락적 배경지식으로 놓고, 후속되는 발화를 그에 대한 맥락 함축(contextual implication)으로 나타내는 화용론적 기능을 담당하는 담화 연결표현이라고 주장하고자 한다. 영어의 'so'가 'therefore', 'thus', 'hence' 등과 구별되고, 그 기준이 적합성 원리에 의해 설명될 수 있듯이, 우리말의 '그러니까' 역시 '그래서', '그러므로' '그러니' 등과 구별되며, 그 차이점이 적합성 원리로 설명될 수 있다는 점을 보일 것이다. 더 나아가서, 현대 한국어의 여타 접속어미에도 본고에서와 같은 새로운 관점 또는 이론의 틀로써 잘 설명될 수 있는 현상이 존재하는지의 여부를 폭넓고 정밀하게 분석 연구하는 일이 요구된다는 점을 나타내고자 한다.편 어류에 함유된 유기주석화합물의 비율을 볼 때, BT 화합물의 경우 MBT 비율이 높게 나타난 반면 PT 화합물에서는 TPT 비율이 높게 나타났다. 전체적으로 볼 때 구룡포항에서 수획한 어패류의 유기주석화합물 농도는 국내 다른 항구의 어패류보다 높지 않은 것으로 나타났다.${\lrcorner}$ 내는 경우가 더 많았으며(75.4%), 남 여 대학생간 에는 고도로 통계적 유의성(p<0.001)이 인정되었다. 4. 음식선택 배경은 ${\ulcorner}$자신${\lrcorner}$이 결정하는 경우가 가장 많았고(52.1%), 선호하는 음식은 치킨, 햄버거, 피자 순이었으며, 남 여 대학생간에는 고도로 통계적 유의차(p<0.001)가 있었다. 즐기는 음료로는 ${\ulcorner}$콜라${\lrcorner}$가 가장 많았으며(46.8%), 그 다음은 사이다, 주스 등의 순으로 나타났으나, 남 여 대학생간에는 유의성있는 차이는 없었다. 음식의 먹는 시기는 점심과 저녁사이의 ${\ulcorner}$간식${\lrcorner}$이 가장 많았으며(42.2%), 남 여 대학생간에는 유의한 차이는 없었다. 패스트푸드는 많은 사람들이 ${\ulcorner}$${\lrcorner}$이 좋기 때문에 이용하며(62.8%), 남 여 대학생간에는 통계적 유의성(p<0.05)이 인정되었다. 5. ${\ulcorner}$입맛의 서구화(36.4%)와 외식을 선호(29.1%)${\lrcorner}$ 하기 때문에 패스트푸드를 이용하게 된 것으로 응답 하였으며, 남 여 대학생

  • PDF

현대 한국어에서 아라비안 숫자의 읽기 규칙 연구 (A Study on the Arabic numeral reading rules in Modern Korean)

  • 정영임;김정세;김상훈;이영직;윤애선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.16-23
    • /
    • 2002
  • 본 논문에서는 아라비안 숫자를 포함한 텍스트를 음성으로 합성하기 위하여, 숫자 형태와 분류사 그리고 숫자가 나오는 문맥에 따라 숫자를 자동으로 문자화할 수 있는 전처리 규칙을 설정하는데 목적을 둔다. 먼저 선행연구를 통해 숫자를 포함한 수사 및 수사표현의 읽기 규칙의 적용 범위 및 한계점을 살펴보고, 음성 합성을 위한 아라비안 숫자의 문자화 규칙을 설정하고자 한다. 현대 한국어에서 아라비안 숫자를 읽는 방식은 크게 고유어 방식과 한자어 방식이 있으며 단(單)단위에서는 영어가 사용되기도 한다. 또한 한자어 방식에서도 단위를 붙여 읽는 경우와 모든 수를 단 단위로 읽는 경우가 있으므로, 아라비안 숫자의 문자화를 단순한 규칙을 설정하여 자동화하기에는 중의성이 높다. 본 연구에서는 (1) 숫자 전 전치어(pre-numeral), (2) 기호를 포함한 숫자열의 표현 형식과 크기, (3) 단위 표현, (4) 숫자 후치어(post-numeral), (5) 분류사(classifier) (6) 분류사 후치어(post-classifier), (7) 수사표현 앞뒤 문맥에 따라, 아라비안 숫자표현이 문자화되는 방식을 살펴보았다. 분석 대상 말뭉치는 C 신문의 2000년 1월부터 2000년 4월까지 전체 기사 1,400건에서 숫자가 포함된 숫자표현 약 63,000개론 구성하였다. 패턴화된 구조 및 중의성이 없는 구조를 12가지로 밝히고 중의성이 있는 구조의 유형을 밝혔으며 분류사 후치어와의 결합 관계, 좌우 문맥정보를 통해 중의성 해결의 단서를 제시하고자 하였다.

  • PDF