• 제목/요약/키워드: sentence processing

검색결과 324건 처리시간 0.018초

Bi-directional Maximal Matching Algorithm to Segment Khmer Words in Sentence

  • Mao, Makara;Peng, Sony;Yang, Yixuan;Park, Doo-Soon
    • Journal of Information Processing Systems
    • /
    • 제18권4호
    • /
    • pp.549-561
    • /
    • 2022
  • In the Khmer writing system, the Khmer script is the official letter of Cambodia, written from left to right without a space separator; it is complicated and requires more analysis studies. Without clear standard guidelines, a space separator in the Khmer language is used inconsistently and informally to separate words in sentences. Therefore, a segmented method should be discussed with the combination of the future Khmer natural language processing (NLP) to define the appropriate rule for Khmer sentences. The critical process in NLP with the capability of extensive data language analysis necessitates applying in this scenario. One of the essential components in Khmer language processing is how to split the word into a series of sentences and count the words used in the sentences. Currently, Microsoft Word cannot count Khmer words correctly. So, this study presents a systematic library to segment Khmer phrases using the bi-directional maximal matching (BiMM) method to address these problematic constraints. In the BiMM algorithm, the paper focuses on the Bidirectional implementation of forward maximal matching (FMM) and backward maximal matching (BMM) to improve word segmentation accuracy. A digital or prefix tree of data structure algorithm, also known as a trie, enhances the segmentation accuracy procedure by finding the children of each word parent node. The accuracy of BiMM is higher than using FMM or BMM independently; moreover, the proposed approach improves dictionary structures and reduces the number of errors. The result of this study can reduce the error by 8.57% compared to FMM and BFF algorithms with 94,807 Khmer words.

한국어 의존 관계 분석과 자질 집합 분할을 이용한 기계학습의 성능 개선 (Analysis of Korean Language Parsing System and Speed Improvement of Machine Learning using Feature Module)

  • 김성진;옥철영
    • 전자공학회논문지
    • /
    • 제51권8호
    • /
    • pp.66-74
    • /
    • 2014
  • 최근에 한국어 의존 관계에 대한 파싱 시스템과 관련된 연구가 소프트웨어 공학자들이나 언어학자들에 의해 다양하게 연구되고 있으며, 시스템 구현은 주로 기계 학습이나 기호 주의를 사용하고 있다. 기계 학습을 사용한 방법은 한국어 문장 데이터가 매우 크기 때문에 시스템 특성상 매우 긴 학습시간을 가지며, 데이터 자체가 가지는 오류로 인하여 한정된 인식율을 가진다. 본 연구에서는 기계학습을 이용한 시스템에 대하여 학습 시간을 줄일 수 있도록 특징들을 자질 집합 모듈로 분할하여 처리하는 방법을 제안하고, 문장수와 반복횟수에 따른 인식율을 분석하였다. 설계된 시스템은 분리된 모듈과 이진 검색을 위한 정렬 기법이 사용되었다. 데이터는 세종 말뭉치로부터 추출한 후 정제된 36,090문장을 사용하였다. 학습 시간은 약 3시간으로 줄었으며, 인식율은 10,000 문장을 50회 학습하였을 때 84.54%로 가장 높았다. 모든 학습 문장(32,481)을 10회 학습하였을 때 인식율은 82.99%이다. 결과적으로 정제된 데이터를 이용하여 시스템이 안정화될 때까지 반복하는 것이 더 효율적이었다.

설명문의 대용어 참조해결과정: 대용어와 지시사 생략 효과 (Anaphoric Reference Resolution in Expository Text: The Effects of Ellipsis)

  • 이재호
    • 인지과학
    • /
    • 제21권2호
    • /
    • pp.253-282
    • /
    • 2010
  • 이 연구는 대용어나 지시사가 생략된 조건에서 선행어의 전형성과 언급순서가 참조해결에 작용하는 효과를 살펴보기 위해서 2개의 실험을 실시하였다. 실험 1은 대용어 생략과 대명사 조건을 비교하였다. 대용어 생략은 전형성과 언급순서가 읽기과제에 반영되었고, 언급순서 효과가 탐사재인과제에 반영되었다. 반면에 대명사는 전형성과 언급순서 효과가 탐사재인과제에만 반영되었다. 실험 2에서는 지시사가 생략된 명사반복과 대명사 조건을 비교하였다. 명사반복이 대명사에 비해서 읽기시간이 길었으며, 언급순서 효과가 탐사재인과제에 반영되었다. 반면에 대명사는 전형성과 언급순서가 탐사재인과제에서 반영되었다. 이는 선행어와 대용어의 참조해결이 직선적이기보다는 역동적일 가능성을 시사하였다.

  • PDF

형식적 및 비형식적 어휘 정보를 반영한 문장 감정 분류 (A Sentence Sentiment Classification reflecting Formal and Informal Vocabulary Information)

  • 조상현;강행봉
    • 정보처리학회논문지B
    • /
    • 제18B권5호
    • /
    • pp.325-332
    • /
    • 2011
  • 최근 트위터, 페이스북과 같은 소셜 네트워크 서비스(Social Network Service : SNS)가 활성화됨에 따라 서비스 사용자들에 의해 작성된 막대한 텍스트들로부터 의미 있는 정보를 찾기 위한 연구가 많은 주목을 받고 있다. 특히 문장에 담겨 있는 감정은 활용 범위가 매우 넓은 정보로서 문장에 대한 감정을 분류하는 일은 매우 유용한 일이라고 할 수 있다. 본 논문에서는 문장의 감정을 분류하기 위해 문장에 포함되어 있는 형식적 어휘 정보와 이모티콘이나 인터넷 용어와 같은 온라인상에서 많이 이용되는 다양한 형태의 비형식적 어휘 정보를 이용한 새로운 문장 감정 분류 방법을 제안한다. 기존에는 문장의 감정을 분류하기 위해 사전을 기반으로 한 형식적 어휘 정보를 이용했지만, 최근 인터넷 사용자들은 인터넷 용어나 이모티콘과 같은 비형식적 어휘를 많이 사용해 기존의 형식적 어휘 정보만으로는 정확한 감정 분류가 어렵다. 제안한 방법은 형식적 어휘 정보와 비형식적 어휘 정보를 이용해 다양한 형태의 어휘를 포함하는 인터넷 상의 문장들에 대해 보다 정확한 감정 분류 결과를 보여준다. 또한, 같은 어휘라도 도메인별로 다른 감정을 나타내는 경우가 많으므로 제안한 방법에서는 도메인별로 다른 감정 어휘정보를 이용했다. 각 감정 어휘 정보를 통해 특징벡터로 표현된 문장은 Support Vector Machine(SVM) 분류 방법을 통해 감정을 분류하고 그 성능을 평가했다.

한국 아동의 부정사 획득 (The Acquisition of Negatives in Five Korean Children)

  • 이순형
    • 아동학회지
    • /
    • 제6권1호
    • /
    • pp.17-40
    • /
    • 1985
  • This study investigated Korean children's early acquisition of negatives and focused on four research questions: 1) processing of negative variations; 2) the nature of negatives when negatives are completely acquired in Korean (in which meaning and form are matched in one to one mapping); 3) the validity of Bellugi's negative acquisition model in Korean; and 4) the cause of child's erroneous sentence production: limited ability or regularity in children's cognition. The language data of the five subjects (age span; 1.1 - 3.11) were collected by their parents in the natural setting of the home. The results showed that 1) the pivot form, was processed in many ways from a simple to a complicated form, such as <(X+X')+N> <(x+x')+N,Y> <(x+x') N,(y+y')>. It appeared that the children used a simple negative format to reach a one-step advanced negative format. 2) Korean negatives are divided into range of negation in the negative sentence (part or whole), strength of negation (absolute or general), functions of meaning (negation, absences, refusal, prohibition, impossibility). All five children acquired negative sentences in all functions and the complete range after 3 years of age. 3) In spite of the differences in age level, Bellugi's four stage model was in evidence; that is, Korean children's negative acquisition was almost identical with Bellugi's tour stage model in deep structure. 4) Analyses of children's error sentences showed that the sentences with errors were made not because of the children's limitation in cognitive ability but because of the strict application of regularity of rules from the original grammars. Consequently, the children produced negative sentences using two rules: the rule of additive complexity (from simple to complex) and the rule of division (from one to several).

  • PDF

이미지 사전과 동사기반 문장 생성 규칙을 활용한 보완대체 의사소통 시스템 구현 (Implementation of Augmentative and Alternative Communication System Using Image Dictionary and Verbal based Sentence Generation Rule)

  • 류제;한광록
    • 정보처리학회논문지B
    • /
    • 제13B권5호
    • /
    • pp.569-578
    • /
    • 2006
  • 본 논문에서는 언어장애인이 쉽게 인식할 수 있는 이미지들을 이용한 보완대체 의사소통 시스템의 구현에 관하여 연구하였다. 특히 보완대체 의사소통 도구의 휴대성 및 이동성과 보다 유연한 형태의 의사소통 시스템 구현에 초점을 맞추었다. 이동성과 휴대성을 위하여 PDA와 같은 모바일 기기에서 운용될 수 있는 시스템을 구현하여 사용 장소의 제약에서 벗어나 여러 장소에서 일반인과 다름없는 의사소통을 할 수 있도록 하였으며, 용량이 큰 이미지 데이터의 저장 공간 한계를 극복하기 위하여 유선 또는 무선 인터넷 환경에서 클라이언트/서버 형태의 보완대체 의사소통 시스템을 설계하였다. 또한 사용자의 원활한 의사소통이 가능하도록 동사를 기준으로 하여 동사에 대응하는 명사들을 하위 범주화하여 이미지 사전을 구축하였다. 이를 위하여 문장을 구성하는데 가장 중요한 역할을 하는 품사인 동사에 초점을 맞추어 동사의 유형에 따라 생성되는 문장의 유형을 정규화 하였다.

한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV프로그램 (Named Entity Recognition and Dictionary Construction for Korean Title: Books, Movies, Music and TV Programs)

  • 박용민;이재성
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권7호
    • /
    • pp.285-292
    • /
    • 2014
  • 개체명 인식은 정보검색 시스템, 질의응답 시스템, 기계번역 시스템 등의 성능을 향상시키기 위하여 사용된다. 개체명 인식은 일반적으로 PLOs(인명, 지명, 기관명)을 대상으로 하며, 주로 미등록어와 고유명사로 이루어져 있기 때문에 고유명사나 미등록어는 중요한 개체명 후보로 쓰일 수 있다. 하지만 도서명, 영화명, 음악명, TV프로그램명과 같은 제목 개체명은 PLO와는 달리 단어부터 문장까지 매우 다양한 형태를 지니고 있어서 개체명 인식이 쉽지 않다. 본 논문에서는 뉴스 기사문을 이용하여 제목 개체명을 빠르게 인식하고 자동으로 사전을 구축하는 방법을 제안한다. 먼저 특수기호로 묶인 어절을 추출하고, 주변 문맥 단어 및 단어 거리를 이용하여 SVM으로 제목 후보들을 추출하였다. 이렇게 추출된 제목 후보들은 상호 정보량을 가중치로 SVM을 이용해 제목 유형을 분류하였다.

근사 패턴매칭을 이용한 대화형 도우미 에이전트의 개발 (Development of a Conversational Help Agent Using Approximate Pattern Matching)

  • 김수영;조성배
    • 인지과학
    • /
    • 제13권4호
    • /
    • pp.1-8
    • /
    • 2002
  • 인터넷의 성장에 따라 많은 웹사이트가 생기고, 더 많은 정보가 웹사이트에 등록되었다. 웹사이트에 등록되는 정보가 많을수록, 사용자가 원하는 정보를 얻기가 쉽지 않다. 따라서, 사용자가 원하는 정보를 쉽게 찾을 수 있도록, 웹사이트 내에 전문(full-text) 검색엔진을 도입하기도 한다. 본 논문에서는 사용자가 자연어를 이용한 대화를 통해 웹사이트 내의 정보를 습득할 수 있도록 하는 대화형 도우미 에이전트를 개발한다. 제안한 방법은 전통적인 자연어 처리 기법이 아닌 인공지능의 패턴매칭에 기반한다. 사용자가 문장을 입력하면, 한글 전처리과정을 통해 사용자의 문장을 분석하고, 이미 작성되어 있는 지식과의 매칭을 통해 사용자에게 알맞은 대답을 제시한다. 지식은 XML 형식으로 저장되며, 사용자가 입력한 문장과 아주 똑같지 않더라도, 어느 정도의 유사도를 가지고 대답을 이끌어낼 수 있다. 실험결과 동일한 의미를 가진 다양한 형태의 문장을 입력했을 경우에도 동일 패턴임을 인식하여, 사용자가 원하는 결과를 낼 수 있었다.

  • PDF

효율적인 한국어 파싱을 위한 최장일치 기반의 형태소 분석기 기능 확장 (Functional Expansion of Morphological Analyzer Based on Longest Phrase Matching For Efficient Korean Parsing)

  • 이현영;이종석;강병도;양승원
    • 디지털콘텐츠학회 논문지
    • /
    • 제17권3호
    • /
    • pp.203-210
    • /
    • 2016
  • 한국어는 문장 구성소의 생략과 수식 범위가 자유롭기 때문에 파싱보다는 형태소 분석 단계에서 처리하면 좋은 경우가 있다. 본 논문에서는 파싱의 부담을 덜어 줄 수 있는 형태소 분석기의 기능 확장 방안을 제안한다. 이 방법은 미지어의 추정, 복합 명사 및 복합동사의 처리, 숫자 및 심볼의 처리에 의해 여러 형태소 열이 하나의 구문 범주를 가질 때 이것을 최장일치 방법으로 결합하고 의미 자질을 부여하여 하나의 구문 단위로 처리하는 것이다. 제안한 형태소 분석 방법은 불필요한 형태론적 모호성이 제거되고 형태소 분석 결과가 줄어들어 태거 및 파서의 정확률이 향상되었다. 또한, 실험을 통해 파싱트리는 평균 73.4%, 파싱 시간은 평균 52.9%로 줄었음을 보인다.

명령문에 대한 행동의도와 기억에 있어서 나이와 명령문 유형이 미치는 영향 (The Effects of Age and Type of Imperative Statement on Behavioral Intention and Recall)

  • 민동원
    • 디지털융복합연구
    • /
    • 제18권1호
    • /
    • pp.53-58
    • /
    • 2020
  • 광고나 세일즈 등 마케팅 현장에서는 제품이나 서비스의 사용방법을 설명하거나 목표 달성을 위한 절차를 알려 주고 특정 행동의 유도 또는 금지의 내용을 담기 위해 명령문을 자주 사용한다. 본 연구는 특히 지시적 명령문과 설명적 명령문에 대해 시간 지평 관점에 따른 행동의도와 기억의 양상에 주목하였다. 실험 결과, 생의 남은 시간을 짧게 느끼는 노년층이 보다 정서적인 측면에서 정보를 접근하기 때문에 부정의 감정을 더 느낄 수 있는 지시적(vs. 설명적) 명령문에 대해서 거부감을 느끼고 이에 따른 행동의도 저하가 왔다. 그런데 지시적 명령문이 유발하는 부정적인 정서는 노년층에게 있어 이러한 정서를 유발하는 정보의 현저성을 높여 오히려 기억은 상승시켰다. PROCESS 분석 결과, 명령문에 노출되었을 때의 감정이 이 같은 결과들을 매개하는 것으로 나타났다. 이러한 결과는 명령문의 진행에 있어 행동적 반응과/또는 정보처리의 성과를 향상시키기 위해서는 수용자의 나이를 심도 깊게 고민해야 하며, 또한 어떤 방식으로 명령문을 구성할 지도 고려해야 함을 보여준다는 데 의의가 있다.