• 제목/요약/키워드: 형태소 실현

검색결과 11건 처리시간 0.026초

형태소 분석 및 합성을 위한 선어말어미 처리 모형 연구 (The Study on a Processing Model of Prefinal Endings for Analysis and Composition of Morphemes)

  • 안성민
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.53-58
    • /
    • 2015
  • 본 연구는 한국어 정보처리를 위한 형태소 연구 중 선어말어미 분석과 합성을 위한 처리 모형을 제안한다. 이를 위해 (1) 어미를 정의하고 선정한 뒤 (2) 낱말 패러다임 형태 이론에 기반하여 동사 어간을 그 특징에 따라 적절하게 분류한다. (3) 또한 형태소 결합을 위해 필요한 조작들을 기술하고 (4) 마지막으로 어미의 결합 순서와 결합 제약을 만족시킬 규칙을 만들어 제시함으로써 각 조작과 규칙을 이용하여 기계 분석을 하기 위한 프로그램 모형을 내놓는다.

  • PDF

낱말.패러다임 형태론에서의 굴절 부류 설정 (Deciding on Inflectional Classes in a Word-and-Paradigm Morphology)

  • 노용균
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.405-411
    • /
    • 1993
  • 한국어 동사의 굴절은 (1) 접사의 누적 (2) 어간과 접사의 변이형 (allomorphy) (3) 원격한 접사의 꼴이 어간에 민감한 점 등의 이유로 단순한 접사 추출(affix-stripping)에 의한 형태소 분석이 감당하기 어려운 부분을 갖고 있다. 따라서 형태소에 바탕을 둔 형태이론보다 더 세련된, 낱말에 바탕을 둔 형태이론이 요구되는데, 이 논문에서는 "낱말 패러다임 형태이론 (Word and Paradigm Morphology)"에서 실현규칙(rules of realization)이 언급하는 요소 중의 하나인 굴곡 부류(inflectional classes)가 어떻게 설정되어야 할 것인가를 다룬다. 특정한 형태 통사적 속성들(morpho-syntactic properties)이 실현될 때 (1) 주요 어간(primary stem)이 요구되느냐 아니면 부차 어간 (secondary stem)이 요구되느냐, 그리고 (2) 접사의 어떤 꼴이 요구되느냐에 바탕을 두고 한국어의 동사를 열 다섯개의 굴절 부류로 분류한다.

  • PDF

한국어 정보처리의 문제점 및 방법론 고찰 (Overview of Problems and Methodologies for Korean Language Processing)

  • 강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.329-334
    • /
    • 1998
  • 자연언어 처리 시스템은 시제품 개발이 비교적 용이한 반면에 이를 실용적인 시스템으로 발전 시키는데 많은 어려움이 있다. 본 논문에서는 형태소 분석기와 구문분석기, 기계번역 시스템 등을 개발할 때 발생하는 문제점과 방법론을 고찰하고, 실용적인 시스템을 개발하기 위한 효율적인 방법으로 2-step 패러다임과 이를 실현하는 방안으로 기능별 모듈화에 의한 divide and conquer 기법, 단순화 기법, 예외처리 기법 등을 활용하는 방법을 제안한다.

  • PDF

경량화 운율구 경계 예측 시스템 개발 (Minimization of Prediction System of Prosodic Phrase Boundaries)

  • 김민호;정영임;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.744-747
    • /
    • 2010
  • 운율구 경계 예측은 TTS(Text-To-Speech) 엔진이 정확하고 자연스러운 음성합성을 하기 위해 꼭 필요한 기술이다. 하지만, 소프트웨어나 하드웨어적 자원을 많이 요구하는 기술이기 때문에 실행 환경의 제약을 많이 받는다. 본 논문에서는 소형 전자제품과 같이 제한된 환경에서도 안정적으로 실현되는 경량화 운율구 경계 예측 시스템의 개발 과정과 결과에 대하여 설명한다. 운율구 경계 예측 시스템의 필수 요소인 형태소 분석기의 경량화와 전통적인 규칙 기반 운율구 경계 예측 기술과 달리 품사 분석과 구문 분석이 필요하지 않은 운율구 경계 예측 기술을 소개한다.

어말 위치 /ㅗ/의 /ㅜ/ 대체 현상에 대한 문법 항목별 출현빈도 연구 (Frequency of grammar items for Korean substitution of /u/ for /o/ in the word-final position)

  • 윤은경
    • 말소리와 음성과학
    • /
    • 제12권1호
    • /
    • pp.33-42
    • /
    • 2020
  • 본 논문은 구어 말뭉치를 기반으로 한국어 /ㅗ/가 /ㅜ/로 고모음화되는 현상(예, '별로' [별루])에 대해 문법 항목별로 차이를 살펴보는 데 연구 목적이 있다. 한국어의 /ㅗ/와 /ㅜ/는 [+원순성] 자질을 공유하지만, 혀 높이 차이로 변별된다. 그러나 최근 /ㅗ/와 /ㅜ/의 두 모음의 음성적 구분이 모호해지는 병합 현상이 진행 중이라고 여러 논문에서 보고되었다. 본 연구에서는 어말 위치의 /ㅗ/가 한국어 자연언어 구어 말뭉치(The Korean Corpus of Spontaneous Speech)에서 음성적으로 [o] 또는 [u]로 실현되는 현상을 연결어미, 조사, 부사, 체언의 문법 항목별로 출현빈도 및 출현비율에 대해 살펴보았다. 실험 결과 연결어미, 조사, 부사에서 /ㅗ/는 약 50%의 비율로 /ㅜ/로 대체되는 것을 확인했고, 체언에서만 상당히 낮은 비율인 5% 미만으로 대체가 되는 것을 알 수 있었다. 고빈도 형태소 중에서 가장 높은 /ㅜ/ 대체율을 보인 형태소는 '-도 [두]' (59.6%)였고, 연결어미에서는 '-고 [구]' (43.5%)로 나타났다. 구어 말뭉치를 통하여 실제 발음형과 표준발음의 차이를 살펴보았다는 데 연구 의의가 있다.

형태론적 영상 분할을 위한 마커 배양기를 이용한 마커의 추출 (Marker extraction for morphological image segmentation using marker incubator)

  • 박현상;나종범
    • 전자공학회논문지S
    • /
    • 제35S권11호
    • /
    • pp.106-115
    • /
    • 1998
  • 형태론적 영상 분할의 성능은 적절한 마커의 선택에 전적으로 의존한다. 본 논문에서는 경사영상의 국소 최저점으로부터 성장한 담수지역들이 충분한 크기를 가질 때, 마커로 등록하는 마커 배양기를 제안한다. 마커 배양기는 범람 과정이 진행되는 동안, 정의된 마커 영역의 성장, 새로운 마커 영역의 추출, 부적절한 영역에 대한 처리 연기 등을 수행한다. 마커로서의 타당성 진단은 형태론적 필터의 형태소 크기에 의존하는 다중 기준에 의해서 이루어진다. 제안한 마커 배양기는 기존의 방법에 비해서 영역 병합 과정 없이도, 적은 수의 영역으로 동등한 화질을 실현하고, 전송 정보량과 화질 관점에서 우수한 성능을 가지기 때문에, 영역 기반 부호화기를 위한 영상 분할에 적합하다.

  • PDF

SVM 기계학습을 이용한 웹문서의 자동 의미 태깅 (Automatic semantic annotation of web documents by SVM machine learning)

  • 황운호;강신재
    • 한국산업정보학회논문지
    • /
    • 제12권2호
    • /
    • pp.49-59
    • /
    • 2007
  • 본 논문은 시맨틱 웹의 실현을 위해서는 필수적인 작업인 웹문서의 의미를 자동으로 태깅할 수 있는 시스템에 관한 것이다. 웹상의 방대한 자원을 일일이 사람이 수작업으로 의미를 태깅한다는 것은 사실상 불가능하기 때문에 한국어 웹문서를 대상으로 대량의 학습 데이터를 수집하고 자연어처리 기법과 시소러스를 이용하여 특징을 추출한 후 SVM 기계학습을 통하여 개념분류기를 구축하였다. 한국어의 특징을 파악하여 의미 태깅에 필요한 특징 정보를 추출하기 위해서 형태소 분석과 구문 분석을 하였다. 추출된 특징정보는 가도카와 시소러스의 의미코드를 이용하여 학습벡터로 구성되는데, 이는 유사한 단어나 구를 하나의 개념코드로 매핑하여 시스템의 재현율을 높이는 역할을 하게 된다. 실험결과 자동 의미 태깅 분야에서 본 접근방법의 가능성을 확인할 수 있었다.

  • PDF

연결자 제거를 위한 간단한 알고리즘과 모의 랜덤 신호 분류에의 응용 (A Simple Connection Pruning Algorithm and its Application to Simulated Random Signal Classification)

  • 원용관;민병의
    • 한국정보처리학회논문지
    • /
    • 제3권2호
    • /
    • pp.381-389
    • /
    • 1996
  • 본 논문은 신경망에서 불필요한 연결자(weights and biases)를 제거하기 위한 일반적인 back-propagation 알고리즘의 간단한 변형을 소개한다. 이는 연결자들의 절대치 크기의 분포, 분할 경계선의 분석 및 sigmoid 함수의 비선형성에 기초하여 개발되었다. 신경망의 초기 학습 후, 이 알고리즘은 그 절대치의 크기가 임계치 (threshold) 보다 적은 모든 연결자들의 값을 영으로 할당 함으로서 이들을 제거하게 된다. 그런후, 중요한 연결자들의 복구를 위해 모든 연결자들을 포함하여 반복 학습을 실시한다. 이진함수 들을 이용한 학습에서, 이 알고리즘은 이론적 최소 구조를 실현하 였고, 함수를 푸는데 불필요한 연결자들을 제거하였다. 모의 랜덤 신호 분류에 응용에 있어서, 본 알고리즘으로 부터 얻어낸 결과는 쉬운 문제가 간단한 신경망을 필요로 하며 낮은 오분류율을 발생한다는 일반적인 개념과 일치 하였다. 또한, 본 제안된 알고리즘 은 overfitting과 형태소 (patterm) 암기의 문제점들을 줄임으로서 기존의 알고리즘보 다 더 좋은 결과를 보여주었다.

  • PDF

청각장애인을 위한 작업 현장용 한국 수화 메시지 보드의 개발 (Development of a Korean Sign Language Message Board in Workplace for Deaf People)

  • 장효영;오영준;정성훈;박광현;변증남
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.393-398
    • /
    • 2007
  • 본 논문은 작업 현장에서 청각장애인의 의사소통을 보조하는 한국 수화 메시지 보드의 개발에 대하여 다룬다. 청각 장애인은 일상적인 직업 현장에서 의사소통이 자유롭지 못하여 업무에 잘 적응하지 못하고 사내의 인간관계에 많은 어려움을 겪고 있다. 문자를 이용한 정보 전달을 통해 모든 의사소통을 대체할 수 있을 것이라는 일반적인 생각과는 달리, 청각장애인의 경우 비장애인과 비교하여 사물의 개념 습득에 어려움이 있을 수 있으며 마찬가지로 사용하는 어휘수도 제한적인 경우가 많아 문자를 통한 의사소통에는 명확한 한계가 존재한다. 실제로 청각 장애 근로자가 이직하는 사유로 의사소통이나 인간관계가 높은 비중을 차지한다. 수화 메시지 보드는 크게 사내 네트워크를 이용한 공지 사항 전달을 위한 용도와 복수 개의 메시지 보드 간 문자 송수신의 용도로 사용 가능하다. 비장애인이 청각장애인에게 문자 입력으로 의사를 전달하면, 전달된 문자는 문자-수화 번역기를 통해 자동으로 수화로 번역되어 아바타의 수화 동작으로 화면에 출력된다. 전체 시스템은 수화 아바타를 포함한 그래픽 유저 인터페이스 (GUI), 수화 데이터베이스 및 한글 형태소/문장 분석기를 포함하는 문자-수화 번역기, 그리고 TCP/IP 기반의 문자 전송기의 세 부분으로 나뉜다. 본 논문에서는 수화 데이터베이스의 단어 선정을 위한 대상 작업 현장을 청각 장애 근로자가 타 직업에 비해 많은 비중을 차지하는 전자 부품 조립 업체로 한정하였다. 수화 데이터베이스는 자음 14종, 모음 17종, 숫자 15종, 일상생활 용어 1000종, 전자 부품 조립 업체에 특화된 단어 50종 및 직업 교육 관련 용어 50종으로 이루어진 총 1146종의 수화 단어를 포함하며, 수화 데이터베이스에 등록되지 않은 단어에 대해서는 지화로 표현하도록 한다. 이 중 전자 부품 조립 업체 특화 단어와 관련하여서는, 현재 동일한 분야의 작업 현장이라 하더라도 각 사업장 간 사용되는 수화가 통일되지 않아 문헌 조사 및 현장 조사를 통해 사용 빈도가 높고 형태가 공통적인 50종을 추려내었다. 본 연구는 실제 업무현장에서 청각장애인이 겪는 의사소통의 문제를 효과적으로 해결함으로써, 청각장애인이 직업 현장에 보다 쉽게 적응하도록 도움을 줄 뿐만 아니라, 일을 통해 자아 실현을 하도록 돕는 방안이 될 수 있다는 점에서 중요한 의의를 갖는다.

  • PDF

독일어 운율구조에서 최소단어의 역할 (Die Rolle des minimalen Wortes $f\"{u}r$ die prosodische Struktur des Deutschen)

  • 유시택
    • 한국독어학회지:독어학
    • /
    • 제5집
    • /
    • pp.67-89
    • /
    • 2002
  • Die meisten $W\"{o}rter$ im Deutschen, die zur lexikalichen Hauptkategorie $geh\"{o}ren,\;erf\"{u}llen$ die prosodischen Bedingungen, class sie ein phonologisches Wort bilden und class ein phonologisches Wort zumindest aus zwei Moren besteht. In dieser Arbeit wird gezeigt, welche Konsequenzen diese Constraints $f\"{u}r$ die prosodische Gestalt der deutschen $W\"{o}rter$ haben. Eine davon bezieht sich auf das $Ph\"{a}nomen$, das in der Literatur als 'minimales Wort' bekannt ist. Die distributionellen $Beschr\"{a}nkungen$ eines ungespannten kurzen Vokals im Deutschen sind darauf $Zur\"{u}ckzuf\"{u}hren$, class ein prosodisches Wort mindestens zwei Moren enthalten muss. Die Forderung nach einem minimalen Wort wirft aber die Frage, warum ein Stamm wie feige eine zweisilbige Struktur CVCV mit einer finalen Schwasilbe aufweisen, ein Stamm wie reif dagegen eine einsilbige Struktur eve. Allein die Forderung nach einem zweimorigen prosodischen Wort wurde auch eine ungrammatische Form wie feig $erf\"{u}llen$. Bei Formen wie feige ist festzustellen, dass das Constraint IDENT-IO [voiced] wichtiger als das Constraint ist, das einen einsilbigen Stamm verlangt. Eine Analyse, in der die finale Schwa-Silbe in einem CVCV-Stamm als ein stammbildendes Element oder Pseudosuffix aufgefasst wird, kann diese Interaktion zwischen Constraint nicht erfassen. Im Vergleich dazu zeigen die zweisilben Flexionsformen, bei denen Schwa-Silben als ein echtes Suffix fungieren, dass das Constraint 'Realisiere Morphem' nur dann verletzt werden kann, wenn es zur $Erf\"{u}llung\;des\;h\"{o}her$ rangierten Constraints OCP(nucleus) dient. Dieses Constraint ist seinerseits nur dann verletzbar, wenn damit das $h\"{o}here$ Constraint Coda-Cond erfullt werden kann.

  • PDF