• 제목/요약/키워드: 단어 분리

검색결과 112건 처리시간 0.028초

단어통사론을 위한 계산 모형 (A Computational Model for the Word-Syntax)

  • 김동주;김한우
    • 전자공학회논문지CI
    • /
    • 제39권6호
    • /
    • pp.11-23
    • /
    • 2002
  • 한국어 형태론에 대한 기존의 전산모형은 선형적인 것들로 단어 내부구조 분석보다 형태소 분리 문제에만 관심을 두고 있다. 이러한 선형적 전산모형을 구문 분석 과정과 통합적으로 고려할 경우, 구문 단위 요소의 형성을 위해 형태소 분석 결과를 묶어야만 하는 추가적인 과정이 필요할 뿐만 아니라 의미적 직관성을 얻기도 어려웠다. 본 논문에서는 형태소 분리와 구문 요소 형성뿐만 아니라 단어의 구조 분석까지도 통합적으로 다룰 수 있는 단어통사론적 시각에 따른 전산 모형을 제안한다. 먼저 형태소 분리와 변형 문제를 다루기 위해 2단계형태론의 형식화를 도입하고, 품사 문맥을 반영하기 위해 기능성 구분문자를 제안한다. 그리고 형태소의 통사적 결합 검사를 위해 GLR에 기반한 변형 알고리즘을 제안한다.

정보검색을 위한 외래어 자동표기 모델 (Automatic Foreign Word Transliteration Model for Information Retrieval)

  • 이재성;최기선
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1997년도 제4회 학술대회 논문집
    • /
    • pp.17-24
    • /
    • 1997
  • 조사에 따르면 한글 문서에서 사용되는 단어 중 외래어 또는 영어가 포함된 단어가 약 26%정도를 차지하고 있으며, 이는 정보검색의 중요 색인어로 사용된다(권윤형 1996). 그러나 이들 단어들은 서로 같은 단어인데도 영어로 표기되기도 하고 이형의 외래어들로 표기되기도 하여, 정보검색의 효율을 떨어뜨리고 있다. 본 논문에서는 영어 단어와 그에 대응되어 표기되는 외래어들을 찾기 위한 한 단계로서, 영어를 한글로 음차(transliteration)하여 자동표기하는 통계적 모델을 제안하고 실험한다. 제안된 모델은 통계적 기계번역 방식과 그의 한 방법인 문서 정렬(text alignment) 방식에 근거하고 있다. 특히 이 모델에서는 효과적으로 발음의 단위를 분리한 다음 정렬을 하여. 전체적인 계산량을 줄이고 성능도 향상시켰다. 음차표기는 피봇방식과 직접방식의 두가지로 구현하였다. 피봇방식은 영어에서 발음을 생성한 후, 그 발음을 다시 한글로 표기하는 방식이고, 직접방식은 직접 영어 단어에서 한글 표기로 포기하는 방식이다. 두 방식을 제안된 모델을 이용하여 비교 테스트한 결과 직접방식이 보다 정확하게 표준 외래어로 표기하였다.

  • PDF

신경회로망을 이용한 제약 없이 쓰여진 필기체 문자열로부터 단어 분리 방법 (Segmentation of Words from the Lines of Unconstrained Handwritten Text using Neural Networks)

  • 김경환
    • 전자공학회논문지C
    • /
    • 제36C권7호
    • /
    • pp.27-35
    • /
    • 1999
  • 필기서술의 인식과 관련된 연구는 인식대상 영상이 바르게 분리된 인식단위를 포함한다는 전제로 진행되어 왔다. 그러나 실제적인 필기인식 시스템의 설계에 있어서, 다양한 필기방식으로 인해, 인식단위로의 분리가 선결되어야 할 문제이다. 본 논문에서는 제한없이 쓰여진 필기 문자열로부터 인식의 도움없이 독립된 단어를 분리하는 방법을 제안한다. 구성요소간 물리적인 거리에 의존하는 종래의 방법과 달리, 필기서술 자체로부터 필기자의 띄어쓰기와 관련된 특징들을 적극적으로 추출하고 이를 신경회로망을 사용하여 해석한다. 띄어쓰기와 관련된 정보는 문자 분리과정을 통해 분리된 문자 세그먼트의 높이와 세그먼트 중심선 사이의 간격들을 정규화하여 구한다. 연결요소간의 거리에 기반한 방법들과의 비교실험을 통해 제한한 방법의 유용성을 입증하였다.

  • PDF

방해자극과 표적의 지각적 분리가 반구내와 반구간의 간섭에 미치는 영향 (Perceptual Segregation of Distractor Reduces Within-hemisphere Interference)

  • 손영숙;김민식
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2006년도 춘계학술대회
    • /
    • pp.29-32
    • /
    • 2006
  • 이 연구에서는 표적과 방해자극을 분리시킬 때 관찰되는 간섭 감소가 반구내 및 반구간 조건에서 달리 나타난다는 것을 보여주기 위해 세 개의 실험을 실시하였다. 세 실험의 과제는 모두 색깔이 있는 원과 사각형이 주어지고 항상 검은색으로 제시되는 색 이름 단어가 주어진 상황에서 원의 색은 무시하고 사각형의 색과 단어가 의미하는 색이 같은지, 다른지를 판단하는 것이었다. 사각형의 색이 단어가 의미하는 색과 일치할 때 방해자극인 원의 색도 단어가 의미하는 색과 일치하는지 여부에 따라 방해자극의 세 조건(일치, 불일치, 중립)이 만들어졌다. 또한, 방해자극인 원이 표적 가운데 하나인 단어와 같은 시각장에 제시되는지, 혹은 반대편 시각장에 따로 제시되는지에 따라 반구 간섭조건(반구내 간섭, 반구간 간섭)이 만들어졌다 간섭효과는 불일치 조건과 중립 조건간의 차이로 측정하였다. 실험 1의 결과는 정확률과 반응시간 모두에서 반구내 간섭이 반구간 간섭보다 유의미하게 더 큰 것으로 나타났다. 실험 2에서는 방해자극인 원을 선제시하였는데 그 결과 반구내 간섭이 특히 크게 감소하여 반구내 간섭과 반구간 간섭이 차이를 보이지 않게 되었다. 그러나 표적자극인 사각형을 선제시한 실험 3에서는 반구내 간섭이 여전히 반구간 간섭보다 유의미하게 큰 것으로 나타났다. 세 실험의 결과를 종합하면 방해자극의 간섭 효과는 방해자극을 표적과 다른 반구로 분리 제시하거나, 선제시 같은 방법으로 방해자극을 표적과 분리시킬 때 유의미하게 감소하였다. 그러나 애초부터 방해자극을 표적과 다른 반구로 분리 제시하였던 반구간 간섭조건에서는 방해자극의 선제시가 간섭 감소를 가져오지 않았다. 지질의 산패를 가속화시킨 결과라고 생각된다. 따라서 호박 라면 제조시 이러한 공기와의 접촉을 차단시킬 수 있는 포장재료를 선택해야 될 것으로 사료된다.0.05), 맛, 연도, 다즙성 및 전체적인 기호성은 유의한 차이가 없었다.자체를 악하다고 볼 수 없고 더구나 구원을 이 세상에서의 이탈로 볼 수 없다. 진정한 구원이란 원래 하나님이 보시기에 아름다웠던 그 세상으로의 회복을 포함한다. 이런 면에서 하나님 주권 신앙 하에서 구원이란 전 인격적인 구원, 전 우주적인 구원이 된다. 그렇기 때문에 성도는 세상의 삶과 학문, 예술, 정치, 경제, 사회를 포함한 모든 분야를 하나님의 뜻 가운데서 그 원래의 목적에 부합할 수 있도록 회복시키는 일에 적극 참여해야 한다.자체가 이를 주도하기는 사실 어려움이 있다. 그리고 대형유통점이 영업행위를 영업시간제한에서부터 출점제한에 이르기까지 규제하는 건은 심사숙고하여야 한다. 대형유통점이 국가경제 및 지역사회에 미치는 영향이 부정적인가 긍정적인가에 대해 국내외 학계와 업계에서 여전히 많은 논란이 있기 때문이다. 정부와 지자체에 의한 시장개입은 반드시 필요한 경우에 한해 합당한 방법에 의해 이루어져야 한다. 대형유통점에 대한 규제는 지역사회에 미치는 영향을 다면적으로 평가한 결과에 근거하여 이루어져야 할 것이다. 대부분의 지자체는 체계적인 평가시스템과 객관적인 통계 자료를 갖고 있지 못한 실정이다. 향후 가장 시급한 과제는 시장개방 이후 지난 10년간 대형유통점이 지역사회에 미친 영향에 관한 광범위한 통계자료를 수집하고 이를 체계적으로 분석하여 정책방향을 올바르게 설정하는 것이라 할 수 있다.i와 K. pneumonia

  • PDF

한국어 인공신경망 기계번역의 서브 워드 분절 연구 및 음절 기반 종성 분리 토큰화 제안 (Research on Subword Tokenization of Korean Neural Machine Translation and Proposal for Tokenization Method to Separate Jongsung from Syllables)

  • 어수경;박찬준;문현석;임희석
    • 한국융합학회논문지
    • /
    • 제12권3호
    • /
    • pp.1-7
    • /
    • 2021
  • 인공신경망 기계번역(Neural Machine Translation, NMT)은 한정된 개수의 단어만을 번역에 이용하기 때문에 사전에 등록되지 않은 단어들이 입력으로 들어올 가능성이 있다. 이러한 Out of Vocabulary(OOV) 문제를 완화하고자 고안된 방법이 서브 워드 분절(Subword Tokenization)이며, 이는 문장을 단어보다 더 작은 서브 워드 단위로 분할하여 단어를 구성하는 방법론이다. 본 논문에서는 일반적인 서브 워드 분절 알고리즘들을 다루며, 나아가 한국어의 무한한 용언 활용을 잘 다룰 수 있는 사전을 만들기 위해 한국어의 음절 중 종성을 분리하여 서브 워드 분절을 학습하는 새로운 방법론을 제안한다. 실험결과 본 논문에서 제안하는 방법론이 기존의 서브 워드 분리 방법론보다 높은 성능을 거두었다.

표적과 방해자극의 반구간 분리가 반응 간섭에 미치는 영향 (Between-hemisphere Separation of Target and Distractor Reduces Response Interference)

  • 김민식;손영숙
    • 인지과학
    • /
    • 제17권1호
    • /
    • pp.29-52
    • /
    • 2006
  • 이 연구는 Weissman과 Banich(1999)가 제안했던 반구 간의 상호작용보다도 표적자극과 방해자극의 반구 간 분리처리가 간섭을 감소시키는 데 더 효과적이라는 것을 밝히기 위해 수행되었다. 이를 위해 사각형의 색과 단어가 의미하는 색을 비교하는 세 개의 실험이 수행되었다. 실험 1에서는 표적자극 중의 하나인 단어의 색 차원이, 실험 2와 3에서는 단어의 글자 색이 검정색으로 고정된 상태에서 제 3의 자극인 원의 색이 방해자극으로 사용되었다. 실험 결과 두 표적자극의 비교를 위해 반구간 상호작용이 요구되는 반구간 비교조건에서, 반구간 상호작용은 요구하지 않지만 방해자극이 표적자극과 다른 반구로 투사된 반구내 비교 조건보다 더 큰 간섭효과가 관찰되었다. 이 결과는 반구간 상호작용보다도 표적과 방해자극의 반구간 분리가 간섭 감소에 더 효과적임을 시사한다. 실험 3에서는 원이 단어나 사각형과 분리되어 다른 반구에 제시될 때 주변단서를 이용하여 원의 위치로 주의를 유도하면 방해자극의 반구간 분리 효과가 사라지면서 반구간 비교와 반구내 비교 조건의 간섭효과가 유사해지는 것을 보여 주었다.

  • PDF

단어의 의미와 순서를 고려하는 문서색인방법을 이용한 CNN 기반 한글문서분류 (Classification of Korean Documents Based on CNN Using Document Indexing Method based on Word Meaning and Order)

  • 김남훈;양형정
    • 한국컴퓨터교육학회 학술대회
    • /
    • 한국컴퓨터교육학회 2017년도 하계학술대회
    • /
    • pp.41-45
    • /
    • 2017
  • 본 논문에서는 컨볼루션 신경망 네트워크(CNN:Convolution Neural Network)을 기반으로 단어의 의미와 순서를 고려하는 문서 색인 방법을 이용하여 한글 문서 분류 방법을 제안한다. 먼저 문서를 형태소 분석하여 어절 단위로 분리 한 후, 불용어를 처리 하고, 문서의 단어 의미를 고려하는 문서 표현하고, 문서의 단어 순서까지 고려하여 CNN의 입력으로 사용하였다. 실험결과 CNN 분류기를 기반으로 본 논문에서 제안하는 문서 색인 방법은 TF-IDF를 이용하는 방법보다 4.2%, Word2vec만 단독으로 사용하는 것보다 1.4%의 성능 상승을 이루었다. 이러한 결과를 통해 본 논문에서 제안하는 방법이 문서범주화 데이터 셋에서 문서 분류 성능향상에 영향을 미친다는 것을 확인하였다.

  • PDF

수화통역시스템 설계 및 구현 (Design and Implementation of Text Recognition Algorithm for Sign Language Interpretating System)

  • 오영준;장훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.691-693
    • /
    • 2002
  • 수화통역시스템은 청각장애인과 건청인의 사이에 수화를 통역하고 의사소통을 원활하게 하는 역할을 하는 멀티미디어시스템이다. 현재 다양한 수화통역시스템연구개발이 진행되고 있으나 기술상의 문제로 아직 널리 보급되지 못하고 있다. 본 논문에서는 청각장애인의 입장에서 이해할 수 있는 수화동작을 구현하는 문자인식 알고리즘을 제안한다. 이 알고리즘은 문장을 인식하고 단어별, 형태소별로 구분하여 지화그림 및 수화 데이터베이스에 있는 수화그림에 매칭시키고 수화단어들을 조합하여 수화동작을 움직이게 할 수 있는 그림을 생성한다. 알고리즘의 진행과정은 한글문장, 전처리, 형태소분리, 수화단어검색, 수화단어출력, 수화문장재배열과 동작표현으로 이루어진다.

  • PDF

어텐션 중심을 이용한 글자 단위 영역 검출 (Character-level Region Detection Using Attention Center)

  • 김지인;정창성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.952-953
    • /
    • 2019
  • 최근 딥러닝으로 진행되는 광학 문자 인식 분야는 대부분 단어 단위로 인식하는 것으로 글자 단위의 영역을 검출하는 데에는 적합하지 못하다. 본 연구는 각 글자의 영역을 검출하기 위해 기존의 딥러닝을 이용한 광학 문자 인식 절차인 단어 분리 과정과 단어 인식 과정을 유지하면서 어텐션 중심을 이용하여 각 글자의 영역을 보다 정확하게 검출하는 것을 목표로 한다. 제안하는 모델은 CRAFT 와 Attention Network 를 사용한 OCR 과정을 확장한 모델로 각 단어 문자열 결과물에 각 글자의 영역을 추가로 나타내게 되며 각 글자와 라벨 간의 IOU 평균은 0.671 로 나타났다.

확률 기반 미등록 단어 분리 및 태깅 (Probabilistic Segmentation and Tagging of Unknown Words)

  • 김보겸;이재성
    • 정보과학회 논문지
    • /
    • 제43권4호
    • /
    • pp.430-436
    • /
    • 2016
  • 형태소 분석시 나타나는 고유명사나 신조어 등의 미등록어에 대한 처리는 다양한 도메인의 문서 처리에 필수적이다. 이 논문에서는 3단계 확률 기반 형태소 분석에서 미등록어를 분리하고 태깅하기 위한 방법을 제시한다. 이 방법은 고유명사나 일반명사와 같은 개방어 뒤에 붙는 다양한 접미사를 분석하여 미등록 개방어를 추정할 수 있도록 했다. 이를 위해 형태소 품사 부착 말뭉치에서 자동으로 접미사 패턴을 학습하고, 확률 기반 형태소 분석에 맞도록 미등록 개방어의 분리 및 태깅 확률을 계산하는 방법을 제시하였다. 실험 결과, 제안한 방법은 새로운 미등록 용어가 많이 나오는 문서에서 미등록어 처리 성능을 크게 향상시켰다.