• Title/Summary/Keyword: 영어형태소

Search Result 57, Processing Time 0.028 seconds

A Morphological Analysis of Korean Business Names (한국 기업 이름의 형태론적 연구)

  • Kang, Eungyeong
    • The Journal of the Korea Contents Association
    • /
    • v.20 no.10
    • /
    • pp.157-166
    • /
    • 2020
  • This study is a descriptive analysis of Korean business names listed on KOSDAQ (Korea Securities Dealers Automated Quotation) from a morphological perspective. A total of 1,358 business names on KOSDAQ are collected and analyzed in terms of origins and morphological structure. The analysis exhibits the monopoly of English: only 20% of the names are composed of only Korean elements, including Sino-Chinese, while 76% of them contain some form of English elements. It is pointed out that those English elements are not borrowed from English but are created in Korea and participate further word formation processes. In terms of word formation methods, compounding and shortening are most common, taking up 90% of all names. Multiple derived forms are used from an identical origin word, and even bound forms in English are taken and used as independent words, regardless of their original status in English. It is argued that Korean English is not entirely negative and should be considered as part of World Englishes.

Contents-Based Korean SMS Spam Filtering Using Morpheme Unit Features (형태소 단위 자질을 이용한 콘텐츠 기반 한국어 SMS 스팸 필터링)

  • Sohn, Dae-Neung;Shin, Joong-Hwi;Lee, Jung-Tae;Lee, Seung-Wook;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.195-200
    • /
    • 2008
  • 본 논문에서는 형태소 분석을 이용한 확률 기반 한국어 SMS 스팸 필터링 기법을 제안한다. 기존 연구에서는 단어 및 문자 단위 어휘 정보를 자질로 이용한 영어 및 스페인어 SMS 스팸 필터링 방법들이 있다. 하지만 교착어인 한국어의 경우, 어근과 접사의 조합에 의해서 다양한 어절이 형성될 수 있다. 따라서 어절단위 어휘 정보를 자질로 사용할 경우, 미등록어(out of vocabulary) 문제가 발생한다. 특히, 매우 적은 수의 단어들로 구성된 SMS 메시지의 경우에는 이 문제가 매우 심각하다. 본 논문에서는 형태소 분석을 이용하여 이러한 문제점을 해결하고자 하였다. 실험 결과, 제안하는 방법은 기존 연구와 비교하여 10.6%의 스팸 분류 정확률 향상을 보였다. 또한 미등록어만을 포함하는 SMS 메시지의 수는 약 77% 감소하였다.

  • PDF

Translation Pre-processing Technique for Improving Analysis Performance of Korean News (한국어 뉴스 분석 성능 향상을 위한 번역 전처리 기법)

  • Lee, Ji-Min;Jeong, Da-Woon;Gu, Yeong-Hyeon;Yoo, Seong-Joon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.619-623
    • /
    • 2020
  • 한국어는 교착어로 1개 이상의 형태소가 단어를 이루고 있기 때문에 텍스트 분석 시 형태소를 분리하는 작업이 필요하다. 자연어를 처리하는 대부분의 알고리즘은 영미권에서 만들어졌고 영어는 굴절어로 특정 경우를 제외하고 일반적으로 하나의 형태소가 단어를 구성하는 구조이다. 그리고 영문은 주로 띄어쓰기 위주로 토큰화가 진행되기 때문에 텍스트 분석이 한국어에 비해 복잡함이 떨어지는 편이다. 이러한 이유들로 인해 한국어 텍스트 분석은 영문 텍스트 분석에 비해 한계점이 있다고 알려져 있다. 한국어 텍스트 분석의 성능 향상을 위해 본 논문에서는 번역 전처리 기법을 제안한다. 번역 전처리 기법이란 원본인 한국어 텍스트를 영문으로 번역하고 전처리를 거친 뒤 분석된 결과를 재번역하는 것이다. 본 논문에서는 한국어 뉴스 기사 데이터와 번역 전처리 기법이 적용된 영문 뉴스 텍스트 데이터를 사용했다. 그리고 주제어 역할을 하는 키워드를 단어 간의 유사도를 계산하는 알고리즘인 Word2Vec(Word to Vector)을 통해 유사 단어를 추출했다. 이렇게 도출된 유사 단어를 텍스트 분석 전문가 대상으로 성능 비교 투표를 진행했을 때, 한국어 뉴스보다 번역 전처리 기법이 적용된 영문 뉴스가 약 3배의 득표 차이로 의미있는 결과를 도출했다.

  • PDF

Text Preprocessor for Generating Korean Automatic Pronunciation Variants Using Morpheme-trg Information (한국어 발음열 자동 생성을 위한 형태소 태그 정보 기반의 텍스트 전처리기)

  • 이경님;정민화
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.199-201
    • /
    • 2001
  • 일반적으로 발음열 자동 생성기는 음성 인식 및 음성 합성에 사용되며, 그 주된 역할은 입력된 한글 철자에 대해 발음 나는 데로 표기된 음소열로 출력하는 것이다. 그러나 실제 입력되는 문장에는 특수 기호 및 알파벳. 아라비아 숫자, 영어 단어, 알파벳과 숫자가 혼용된 약어, 기호 단위 명사 등이 포함되어 있다. 게다가 아라비아 숫자의 경우 단위 명사의 종류에 따라서 뿐만 아니라, 문맥에 따라 숫자를 읽는 방식이 달라지게 된다. 이러한 모든 현상들을 발음열 생성기 내부에서 처리하게 되면 선행작업이 상대적으로 크게 되어 과부하 문제 가 발생된다. 또한 어절 내의 문맥 정보만으로 정확한 변환 결과를 얻기 힘들기 때문에 형태소 분석 수행 결과 및 예외처리를 위 한 루틴을 포함하여 한글 자소 단위의 입력형식으로 변환하는 전처리 시스템을 구성하였다.

  • PDF

Performance Improvement of Dependency Parser using Syntactic Constraint Rules (통사적 제약규칙에 기반을 둔 의존문법 구문 분석의 성능 향상)

  • Nam, Woong;Kim, Hyemi;Kwon, Hyuk-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.353-355
    • /
    • 2013
  • 한국어는 어근의 형태가 변하는 굴절어인 영어와 달리, 한 어절이 어근과 접사가 결합하여 각자 고유한 의미를 지닌다. 이 때문에 하나의 어절에 대한 형태소 분석 후보가 여러 개가 나올 수 있어 구문 분석을 더욱 어렵게 만든다. 본 논문에서는 한국어의 통사적 특성에 적합한 의존문법을 이용하여 구분 분석을 수행한다. 모든 형태소 분석 후보에 의존관계를 부여하고 통사적 제약규칙을 통해 의존관계를 줄여나간다. 특히, 기존의 통사적 제약규칙에 형용사의 결합정보와 논항정보를 이용한 통사적 제약규칙을 추가하여 생성 가능한 의존관계의 수를 줄인다.

The Composition of Korean-English Transfer Dictionary for Proper Selection of Verb Translation (적절한 동사 대역어 선택을 위한 한영 변환 사전 구성)

  • Song, Jung-Keun
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.294-301
    • /
    • 2001
  • 기계번역이 인간의 언어 능력을 기계로 구현한다는 점에서 전산학적 성격이 강하다면, 변환 사전은 인간의 어휘부(lexicon) 정보를 그대로 기계에 표상한다는 점에서 언어학적 성격이 강하다. 여기서는 다양한 어휘부 정보 중에서 한영 기계번역에서 필요한 언어학적 정보를 추출하고 이러한 정보를 바탕으로 적절한 동사 대역어 선택을 위한 변환 사전의 모형을 만들어 보고자 하였다. 한영 기계번역에서 적절한 동사 대역어 선택의 어려움은 한국어 동형어 처리 문제와 한국어에서는 포착되지 않지만 영어로 번역하는 과정에서 발생하는 영어 표현의 특수성 때문에 기인한 것으로 볼 수 있다. 이 논문에서는 이러한 문제를 논항과 문법 형태소, 선택제약, 개별 어휘 등의 기초적인 언어학적 개념을 이용한 변환사전을 통해 해결한다. 또한 동사 대역어 선택에 영향을 미치는 이러한 개별적인 요인들은 실제 변환사전의 기술에 있어서는 복합적으로 적용됨을 동사 '먹다'의 기술을 통해 확인할 수 있다.

  • PDF

Korean Automatic Indexing System Using the PDA (PDA를 이용한 한국어 자동 색인 시스템)

  • Park, Pyeung-Koo;Chung, In-Jeong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.10a
    • /
    • pp.375-378
    • /
    • 2000
  • 인터넷의 급속한 발달로 사용자는 자신의 질의에 적합한 검색결과를 빠르고 정확하게 보장하는 검색도구를 요구하게 되었다. 이러한 사용자의 요구는 검색도구의 성능향상에 필수적인 문서의 내용을 대표하는 색인어를 추출하는 색인 시스템에 대한 관심을 가지게 되었다. 기존의 한국어에서의 자동 색인 방법에는 어절 중심 색인법, 형태소 중심 색인법과 최근에 n-gram 중심 색인법 등이 주류를 이루어 왔다. 그러나 한국어에서 색인어를 추출하는 기존의 방법은 복합명사의 색인과 복잡한 문법적 지식이 필요하고 잘못된 색인어를 추출하는 등의 검색효율에 문제점을 가지고 있다. 본 논문에서는 PDA를 이용한 정형화된 한국어와 영어문장의 자동 색인 방법을 제안한다. 제안하는 방법은 별도의 사전지식이 필요하지 않고 단일 명사와 복합명사의 색인이 가능하며 인터넷으로의 확장과 다양한 언어로 확장성이 좋은 장점 등을 갖는다. 성능 평가로써 한국통신의 KTSET으로 MS사의 IIS를 웹 서버로 ASP를 이용하여 인터넷 환경에서 테스트를 통하여 한국어 뿐 아니라 영어문장의 정형화되고 이용이 간편한 자동색인 결과를 보여준다.

  • PDF

A Study of the selection of similar English sentence based on example using the Korean parser (한국어 구문 분석기를 이용한 예문기반 유사 영문 선택에 관한 연구)

  • 권영훈;윤영호;한광록
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.360-362
    • /
    • 2000
  • 본 연구는 예문을 이용하여 한국어 문장과 가장 유사한 영어 문장을 선택하기 위한 기존 연구보다 예문 지시의 정확도를 향상하고 기존의 문제점이었던 문장성분 선택의 불일치성을 제거하기 위해 한국어 구문 분석 시스템을 추가한 형태를 갖추고 있다. 한국어 구문 분석 시스템을 사용하는 이유는 한문장을 하나의 프레임으로 구조화시킬 때 서술부가 문장의 의미를 나타내는 가장 중요한 역할을 하므로 서술부를 헤더로 선택하고 단순히 조사 정보를 사용하여 각 문장성분을 추출하는 방법의 문제점을 제거하고 서술부 연결 관계를 기초로 프레임의 슬롯을 확보할 수 있기 때문이다. 유사 영문이 필요한 한국어 문장이 입력되면 입력 문장에 대한 형태소 분석과 한국어 구문 분석을 통하여 한국어 문장에서 서술부와 연결되는 주요 성분을 분리하여 프레임 구조를 생성하고 생성된 프레임과 이미 구축된 예문 데이터베이스 사이의 가중치와 유사도를 계산함으로써 한국어 문장과 유사한 영어 문장의 예를 제시하여 영작에 이용할 수 있는 시스템을 구현한다.

  • PDF

Proposal of Automated Essay Scoring Method based on Deep-Learning (딥러닝 기반의 에세이 자동 평가 방법 제안)

  • Kim, Yujin;Park, Chanjun;Lee, Seolhwa;Lim, HeuiSeok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.384-390
    • /
    • 2021
  • 본 논문은 영어 에세이 자동 평가를 위한 딥러닝 기반의 새로운 평가 방법론을 제안한다. 어휘, 형태소, 구문, 의미 단계로 이루어진 평가 과정을 통해 자동화된 에세이 평가가 가능하다. 제안하는 방법의 객관성과 신뢰성을 검증하기 위하여 사람이 평가한 점수와 각 단계별 점수 사이의 상관관계 분석을 진행하였으며, 그 결과 제안하는 평가 방법이 유의미함을 알 수 있었다.

  • PDF

Construction of Linearly Aliened Corpus Using Unsupervised Learning (자율 학습을 이용한 선형 정렬 말뭉치 구축)

  • Lee, Kong-Joo;Kim, Jae-Hoon
    • The KIPS Transactions:PartB
    • /
    • v.11B no.3
    • /
    • pp.387-394
    • /
    • 2004
  • In this paper, we propose a modified unsupervised linear alignment algorithm for building an aligned corpus. The original algorithm inserts null characters into both of two aligned strings (source string and target string), because the two strings are different from each other in length. This can cause some difficulties like the search space explosion for applications using the aligned corpus with null characters and no possibility of applying to several machine learning algorithms. To alleviate these difficulties, we modify the algorithm not to contain null characters in the aligned source strings. We have shown the usability of our approach by applying it to different areas such as Korean-English back-trans literation, English grapheme-phoneme conversion, and Korean morphological analysis.