• 제목/요약/키워드: 언어적 오류

Search Result 380, Processing Time 0.023 seconds

Hybrid CTC-Attention Based End-to-End Speech Recognition Using Korean Grapheme Unit (한국어 자소 기반 Hybrid CTC-Attention End-to-End 음성 인식)

  • Park, Hosung;Lee, Donghyun;Lim, Minkyu;Kang, Yoseb;Oh, Junseok;Seo, Soonshin;Rim, Daniel;Kim, Ji-Hwan
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.453-458
    • /
    • 2018
  • 본 논문은 한국어 자소를 인식 단위로 사용한 hybrid CTC-Attention 모델 기반 end-to-end speech recognition을 제안한다. End-to-end speech recognition은 기존에 사용된 DNN-HMM 기반 음향 모델과 N-gram 기반 언어 모델, WFST를 이용한 decoding network라는 여러 개의 모듈로 이루어진 과정을 하나의 DNN network를 통해 처리하는 방법을 말한다. 본 논문에서는 end-to-end 모델의 출력을 추정하기 위해 자소 단위의 출력구조를 사용한다. 자소 기반으로 네트워크를 구성하는 경우, 추정해야 하는 출력 파라미터의 개수가 11,172개에서 49개로 줄어들어 보다 효율적인 학습이 가능하다. 이를 구현하기 위해, end-to-end 학습에 주로 사용되는 DNN 네트워크 구조인 CTC와 Attention network 모델을 조합하여 end-to-end 모델을 구성하였다. 실험 결과, 음절 오류율 기준 10.05%의 성능을 보였다.

  • PDF

HAN-LALA : Hanyang-Layout Language (HAN-LALA : 한양 레이아웃 언어)

  • Kim, Hyun-Gon;Rhee, Byung-Ho;Chong, Jong-Wha
    • Journal of the Korean Institute of Telematics and Electronics
    • /
    • v.27 no.3
    • /
    • pp.124-130
    • /
    • 1990
  • This paper presents a new layout language, HAN-LALA (HANyang LAyout LAnguage), to automate the LSI/VLSI layout design. HAN-LALA is a C extension, which is easy to describe the layout. As HAN-LALA is directly compiled with no preprocessor, it renders easy debugging and short design time. For the technology independent layout design, the design rules and the process technologies are organized into seperate modules. The related objects are grouped and the placement is performed on the groups. Also the various routing modules including a river routing module and the one which can consider the forbidden regions make the layout design error-free without detailed descriptions of the layout.

  • PDF

Korean sentence spacing correction model using syllable and morpheme information (음절과 형태소 정보를 이용한 한국어 문장 띄어쓰기 교정 모델)

  • Choi, Jeong-Myeong;Oh, Byoung-Doo;Heo, Tak-Sung;Jeong, Yeong-Seok;Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.141-144
    • /
    • 2020
  • 한국어에서 문장의 가독성이나 맥락 파악을 위해 띄어쓰기는 매우 중요하다. 또한 자연 언어 처리를 할 때 띄어쓰기 오류가 있는 문장을 사용하면 문장의 구조가 달라지기 때문에 성능에 영향을 미칠 수 있다. 기존 연구에서는 N-gram 기반 통계적인 방법과 형태소 분석기를 이용하여 띄어쓰기 교정을 해왔다. 최근 들어 심층 신경망을 활용하는 많은 띄어쓰기 교정 연구가 진행되고 있다. 기존 심층 신경망을 이용한 연구에서는 문장을 음절 단위 또는 형태소 단위로 처리하여 교정 모델을 만들었다. 본 연구에서는 음절과 형태소 단위 모두 모델의 입력으로 사용하여 두 정보를 결합하여 띄어쓰기 교정 문제를 해결하고자 한다. 모델은 문장의 음절과 형태소 시퀀스에서 지역적 정보를 학습할 수 있는 Convolutional Neural Network와 순서정보를 정방향, 후방향으로 학습할 수 있는 Bidirectional Long Short-Term Memory 구조를 사용한다. 모델의 성능은 음절의 정확도와 어절의 정밀도, 어절의 재현율, 어절의 F1 score를 사용해 평가하였다. 제안한 모델의 성능 평가 결과 어절의 F1 score가 96.06%로 우수한 성능을 냈다.

  • PDF

Analyzing and Extracting Relations between Topic Keywords Based on Word Formation (조어 중심적 주제어간 관계 추출 및 분석)

  • Jung, Han-Min;Lee, Mi-Kyoung;Sung, Won-Kyung
    • Proceedings of the Korean Society for Language and Information Conference
    • /
    • 2008.06a
    • /
    • pp.166-171
    • /
    • 2008
  • 본 연구는 기존에 잘 알려지고 널리 사용되고 있는 어휘 의미망이나 시소러스를 활용하기 어려운 과학 기술 분야, 특히 IT 분야에서 대용량 용어간 관계를 빠른 시간 내에 구축하여 검색 브라우징, 내비게이션 용도로 활용하는 것을 목표로 한다. 시소러스 구축 절차를 따르는 경우에 분야 전문가에 의한 정교한 작업과 고비용을 필요로 하여 충분한 구축 크기를 확보하는 것에 현실적인 어려움이 있다. 시소러스 자동 구축 방법론을 사용하는 경우에도 해당 용어들이 출현하는 방대한 말뭉치를 확보해야 하며 관계 구축 결과에 대한 직관적 이해가 쉽지 않다는 단점이 있다. 본 연구는 해외 학술 논문 말뭉치와 메타데이터에서 획득한 37만 여 주제어들을 이용하여 상 하위 관계, 관련어, 형제 관계를 추출하기 위해 조어적 기준에 근거한 규칙들을 이용한다. 이들 규칙을 이용하여 추출한 관계 수는 상 하위 관계 60여 만 개, 관련어 640여 만 개, 형제 관계 2,000여 만 개 등이다. 또한, 추출 결과 중 일부를 수작업으로 분석하여 단순한 추출 규칙에서 발생하는 오류 유형을 찾아내고 향후 과제에서 해결할 수 있는 방안에 대해 논하자고 한다.

  • PDF

A Development of View Generation Tool for Mapping the Jena Storage Structure to TRIPLES Structure (Jena 저장소 구조를 TRIPLES 구조로의 사상을 위한 뷰 생성 도구 개발)

  • Ji, Jong-Jin;Son, Ji-Seong;Jeong, Dong-Won
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2009.01a
    • /
    • pp.411-416
    • /
    • 2009
  • 웹 온톨로지 언어의 개발에 따라 웹 온톨롤지를 저장하기 위한 다양한 저장소들이 개발되었으며 이러한 웹 저장소는 관계형 데이터베이스 모델을 기반으로 하고 있다. 또한 웹 온톨로지 데이터를 검색하기 위한 질의 언어로서 W3C에서 SPARQL을 제안하였다. 웹 온톨로지 저장소로서 관계형 데이터베이스가 활발히 개발되고 SPARQL의 이용이 증가함에 따라 SPARQL을 SQL로 변환 하는 알고리즘의 필요성이 대두되었다. 지금까지 제안된 변환 알고리즘들은 SPARQL-to-SQL 변환 알고리즘이 저장소 구조에 종속적이라는 문제점이 있다. 이를 해결하기 위하여 관계형 뷰를 기반으로 저장소에 독립적인 변환 알고리즘을 활용할 수 있는 모델이 제안되었다. 그러나 제안된 모델에서 변환 알고리즘을 독립적으로 활용하기 위해서는 사전에 사용자가 SQL 문을 작성하여 수동적으로 뷰를 생성해 주어야 한다. 이 경우 수동적인 SQL 작성으로 인한 불편함과 사용자의 실수로 인한 SQL문의 오류가 생길 수 있다는 문제점이 있다. 따라서 이 논문에서는 이러한 문제점을 해결하기 위하여 다양한 웹 온톨로지 저장소 모델 OWL 관련 시스템 개발에 가장 많이 사용되고 있는 Jena 저장소를 이용하여 독립적 저장소 활용을 위한 뷰 생성 독인 Jena-to-TRIPLES 변환 도구를 제안한다.

  • PDF

Deep Analysis on Index Terms Using Baysian Inference Network (베이지안 추론망 기반 색인어의 심층 분석 방법)

  • Song, Sa-Kwang;Lee, Seungwoo;Jung, Hanmin
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.84-87
    • /
    • 2012
  • 대분분의 검색 엔진에서 색인어의 추출 및 가중치의 부여방법은 매우 중요한 연구주제로, 검색 엔진의 성능에 큰 영항을 미친다. 일반적으로, 불용어 리스트를 통해 성능에 긍정적인 영향을 미치지 않는 색인어를 제거하거나, 핵심어 또는 전문용어 등 상대적으로 중요한 색인어를 강조하는 방식을 사용하여 검색엔진의 성능을 향상시킨다. 하지만, 어절 분리, 형태소 분석, 불용어 처리 등 검색엔진의 단계열 처리 과정에서, 개별적인 색인어가 검색엔진에 미치는 영향을 분석하고 이를 반영한 검색 엔진 성능 향상 기법은 제시되지 않고 있다. 따라서 본 연구에서는 각 단계별 처리 과정에서 생성된 색인어가 미치는 영항을 계랑화하여 긍정적/부정적 색인어를 분류하는 방법론을 소개하고, 이를 기반으로 색인어 가중치를 조절함으로써 검색 엔진의 성능 또한 향상 가능한 방법을 소개한다.

  • PDF

A Korean Mobile Conversational Agent System (한국어 모바일 대화형 에이전트 시스템)

  • Hong, Gum-Won;Lee, Yeon-Soo;Kim, Min-Jeoung;Lee, Seung-Wook;Lee, Joo-Young;Rim, Hae-Chang
    • Journal of the Korea Society of Computer and Information
    • /
    • v.13 no.6
    • /
    • pp.263-271
    • /
    • 2008
  • This paper presents a Korean conversational agent system in a mobile environment using natural language processing techniques. The aim of a conversational agent in mobile environment is to provide natural language interface and enable more natural interaction between a human and an agent. Constructing such an agent, it is required to develop various natural language understanding components and effective utterance generation methods. To understand spoken style utterance, we perform morphosyntactic analysis, shallow semantic analysis including modality classification and predicate argument structure analysis, and to generate a system utterance, we perform example based search which considers lexical similarity, syntactic similarity and semantic similarity.

  • PDF

Alleviation of Overcorrection Problem in Neural Korean Spelling Correction (뉴럴 한국어 맞춤법 교정기에서 과교정(Overcorrection) 문제 완화)

  • Park, Chanjun;Lee, Yeonsu;Yang, Kisu;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.582-587
    • /
    • 2020
  • 현재까지 한국어 맞춤법 교정 Task는 대부분 규칙기반 및 통계기반 방식의 연구가 진행되었으며 최근 딥러닝 기반의 한국어 맞춤법 교정에 대한 연구가 진행되고 있다. 맞춤법 교정에서 문법적 또는 철자적으로 틀린 부분을 교정하는 것도 중요하지만 올바른 문장이 입력으로 들어왔을 때 교정을 진행하지 않고 올바른 문장을 출력으로 내보내는 것 또한 중요하다. 규칙기반 맞춤법 교정기 같은 경우 문장의 구조를 흐트러트리지 않고 규칙에 부합하는 오류 부분만 고쳐낸다는 장점이 있으나 신경망 기반의 한국어 맞춤법 교정 같은 경우 Neural Machine Translation(NMT)의 고질적인 문제점인 반복 번역, 생략, UNK(Unknown) 때문에 문장의 구조를 흐트러트리거나 overcorrection(과교정) 하는 경우가 존재한다. 본 논문은 이러한 한계점을 극복하기 위하여 Correct to Correct Mechanism을 제안하며 이를 통해 올바른 문장이 입력으로 들어왔을 시 올바른 문장을 출력하는 성능을 높인다.

  • PDF

Anaphoric Resolution in Anomia and Wernike Aphasia (실어증에서 나타나는 참조어 정보처리과정의 특성 : 명칭 실어증과 이해성 실어증을 중심으로)

  • Kim, Ga-Young;Hwang, Yu-Mi;Moon, Young-Sun;Park, Yoon;Nam, Ki-Chun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.455-461
    • /
    • 1999
  • 본 연구의 목적은 실어증 화자가 참조어(대명사)를 이해하고 표현하는데 있어서의 오류 반응을 살펴봄으로써 참조어에 관한 처리기제를 알아보는 것이다. 본 연구에서는 명칭성 실어증 환자와 이해성 실어증 환자를 대상으로 하였으며, 각각의 환자에게 두 가지 실험을 진행하였다. 실험 1은 정오판정 과제로 문장, 혹은 문단을 제시하고 사용된 참조어가 옳은지 그른지를 판정하도록 하는 것이다. 실험 2는 채워넣기 과제로 문장, 문단을 제시하고 괄호 안에 들어갈 참조어를 보기에서 고르도록 하는 것이다. 사용된 참조어는 인칭 대명사와 지시 대명사, 그리고 지시 관형사였다. 인칭 대명사의 경우는 인칭과 수로 나누어 각각 1인칭, 2인칭의 단수 복수로 구분하여 제시되었으며, 문장 내에서 각각 주격조사 '가', 보조사 '는', 소유격조사 '의'와 결합되어 제시되었다. (나는, 너는, 우리는, 너희는/ 내가, 너가, 우리가, 너희가/ 나의, 너의, 우리의, 너희의) 지시 대명사의 경우는 사물을 나타내는 것과 장소를 나타내는 것으로 구분되어 제시되었다. (이것, 그것, 저것/ 이곳, 그곳, 저곳) 지시 관형사의 경우는 '이', '그', '저'가 각각 명사와 결합되어 제시되었는데 지시대명사로 분류하였다. 실험결과는 실험과제간(정오판정, 채워넣기), 실험재료간(인칭 대명사, 지시 대명사)의 차이로 분석될 수 있다. 또한 인칭 대명사와 지시 대명사 내에서도 각각의 재료들 간에 오류반응의 특징이 있는 것으로 나타났다 이로 미루어 볼 때 참조어 범주간 별개의 처리과정이 작용하는 것이라고 생각할 수 있다. 물론 인칭대명사와 지시대명사가 사용되는 문맥적 상황, 대명사의 개념적 거리, 빈도, 사용된 문장의 길이 등 여타의 요소들도 고려되어야 할 것이다. 보조용언으로 쓰일 때 어휘적 의미가 전혀 활성화되지 않아 정상인과는 다른 언어처리를 하고 있음이 밝혀졌다.류의 의미가 모두 활성화되는 것을 보여 주었다. 즉, "먹은"과 간은 어절 이해는 구성 형태소로의 분석과 구성 형태소 어휘 접근을 통해 어절 이해가 이루어진다는 가설을 지지하고 있다. 실험 2에서는 실험 1과 다르게 한 뜻으로만 안일 수밖에 없는 "쥐어"와 같은 어절을 사용하여 이런 경우에도(즉, 어절의 문맥이 특정 뜻으로 한정하는 경우) 구성 형태소로의 분석 과정이 일어나는지를 조사하였다. 실험 2의 결과는 실험 1의 결과와는 다르게 어간의 한가지 의미와 관련된 조건만 촉진적 점화 효과가 나타나는 것을 보여주었다. 특히, 실험 2에서 SOA가 1000msec일 경우, 두 의미의 활성화가 나타나는 것을 보여주었는데, 이 같은 결과는 어절 문맥이 특정한 의미로 한정시킬 경우는 심성어휘집에 활용형태로 들어있다는 것이다. 또한 명칭성 실어증 환자의 경우에는 즉시적 점화과제에서는 일반인과 같은 형태소 처리과정을 보였으나, 그이후의 처리과정이 일반인과 다른 형태를 보였다. 실험 1과 실험 2의 결과는 한국어 어절 분석이 구문분석 또는 활용형태를 통해 어휘 접근되는 가설을 지지하고 있다. 또 명칭성 실어증 환자의 경우에는 지연된 점화과제에서 형태소 처리가 일반인과 다르다는 것이 밝혀졌다. 이 결과가 옳다면 한국의 심성 어휘집은 어절 문맥에 따라서 어간이나 어근 또는 활용형 그 자체로 이루어져 있을 것이다.으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract 농도(濃度)가 증가(增加)함에

  • PDF

$Infinitivit\"{a}t$ des deutschen und koreanischen Verbs - Im sprachtypologischen Vergleich beider Sprachen (언어 유형학적인 비교를 통한 독일어와 한국어 동사의 부정성)

  • Park Jin-Gil
    • Koreanishche Zeitschrift fur Deutsche Sprachwissenschaft
    • /
    • v.6
    • /
    • pp.79-98
    • /
    • 2002
  • 지금까지 우리는 한국어와 독일어를 비교하면서 동사의 정형과 부정형을 관찰해 왔다. 이 부정성(역으로 말하면 비구속성)은 한국어 동사에는 전반적으로 통용되는 데 반해 독일어에는 부정형/동사원형과 분사가 그러할 뿐이다. 동사의 특성 연구는 어느 자연어/개별언어의 상이한 기능을 위해서 뿐만이 아니라 외국어 학습/습득을 위해서도 큰 의미를 갖는다. 이러한 중요성에도 불구하고 독특한 한국어 동사의 부정성, 그 연구는 거의 찾아볼 수가 없다. 한국어와 독일어 동사의 부정성 비교에서 드러난 문제점은 대체로 다음과 같이 요약될 수 있을 것이다. $\ast$ 한국어 동사의 특징인 부정성은 우리의 운명으로 간주해야 할 것이다. 왜냐하면 우리가 어떤 면에서는 유익함을, 그리고 어떤 다른 면에서는 문제점을 감수해야 하기 때문이다. 특히 전형적인 전치성 언어인 유럽언어를 습득할 때 언어간섭현상을 통해 그러하다. $\ast$ 독일어의 부정사/분사 및 한국어 동사가 인칭변화를 하지 않는다는 것은 그들이 주어를 갖지 않고 있거나 (독일어의 경우), 아니면 그것이 어떤 문법/통사적 역할을 하는가 (한국어의 경우)에 주된 원인이 있다. $\ast$ 비교 대상의 양쪽은 생략가능성, 즉 원자가 요구에 대한 자유/비구속성을 누린다. 핵(성분), 즉 독일어의 부정형 및 분사 그리고 한국어 동사는 혼자 남을 때까지 생략이 계속될 수 있다. 이러한 의미에서 부정성은 <비한정성/비구속성>과 관련된 것 같으며, 반면에 정동사의 특성은 <한정성/구속성>과 관계되어 있다. $\ast$ 원자가 요구/충족에 대한 자유/비구속성은 한국어 동사/술어가 문장 끝에 고정되어 있다는 사실은, 직접 또는 간접으로 본동사 앞에 놓여 있어야 되는 모든 문장성분과 부문장 때문에, 즉 한국어의 전면적인 전위수식 현상으로 흔히 큰 부담/복잡함을 야기한다는 데에 그 원인이 있다. 이러한 상황에서 동사는 가능한 한 그의 문장성분을 줄이려 한다. 통사적으로 보장되어 이미 있으니 말이다. 그래서 한국어 동사의 부정성은 일종의 부담해소 대책으로 간주될 수 있을 것이다. $\ast$ 두 비교 대상에서의 핵 및 최소문장 가능성은 역시 원자가에 대한 비구속성에서 비롯된다. $\ast$ 우리 한국인이 빨리 말할 때 흔히 범하는 부정성으로 인한 인칭변화에서의 오류는 무엇보다도 정형성/제한성을 지닌 독일어 정동사가 인칭 변화하는 데 반해 한국어에서는 부정성/비구속성을 지닌 동사가 그것과는 무관한 페 기인한다. 동사의 속성을 철저히 분석함으로써 이런 과오를 극복해야 할 것이다. 한국어 동사의 부정성은 지금까지 거의 연구되지 않았다. 이 문제는 또한 지속적으로 수많은 다른 자연어들과의 비교분석을 통해 관찰돼야 할 것이다. 이 논문이 이런 연구와 언어습득을 위한 작업에 도움이 되기를 바란다.

  • PDF