• 제목/요약/키워드: Syntactic analysis

검색결과 263건 처리시간 0.02초

감정 온톨로지의 구축을 위한 구성요소 분석 (Component Analysis for Constructing an Emotion Ontology)

  • 윤애선;권혁철
    • 인지과학
    • /
    • 제21권1호
    • /
    • pp.157-175
    • /
    • 2010
  • 의사소통에서 대화자 간 감정의 이해는 메시지의 내용만큼이나 중요하다. 비언어적 요소에 의해 감정에 관한 더 많은 정보가 전달되고 있기는 하지만, 텍스트에도 화자의 감정을 나타내는 언어적 표지가 다양하고 풍부하게 녹아들어 있다. 본 연구의 목적은 인간언어공학에 활용할 수 있는 감정 온톨로지를 구축할 수 있도록 그 구성요소를 분석하는 데 있다. 텍스트 기반 감정 처리 분야의 선행 연구가 감정을 분류하고, 각 감정의 서술적 어휘 목록을 작성하고, 이를 텍스트에서 검색함으로써, 추출된 감정의 정확도가 높지 않았다. 이에 비해, 본 연구에서 제안하는 감정 온톨로지는 다음과 같은 장점이 있다. 첫째, 감정 표현의 범주를 기술 대상과 방식에 따라 6개 범주로 분류하고, 이들 간 상호 대응관계를 설정함으로써, 멀티모달 환경에 적용할 수 있다. 둘째, 세분화된 감정을 분류할 수 있되, 감정 간 차별성을 가질 수 있도록 24개의 감정 명세를 선별하고, 더 섬세하게 감정을 분류할 수 있는 속성으로 강도와 극성을 설정하였다. 셋째, 텍스트에 나타난 감정 표현을 명시적으로 구분할 수 있도록, 경험자 기술 대상과 방식 언어적 자질에 관한 속성을 도입하였다. 넷째, 본 연구의 감정분류는 Plutchik의 분류와 호환성을 갖고 있으며, 언어적 요소의 기술에서 국제표준의 태그세트를 수용함으로써, 다국어 처리에 활용을 극대화할 수 있도록 고려했다.

  • PDF

문서내 단어간 비교를 통한 철자오류 검출 (Detecting Spelling Errors by Comparison of Words within a Document)

  • 김동주
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권12호
    • /
    • pp.83-92
    • /
    • 2011
  • 일반 출판물과는 달리 문서 편집기를 사용하여 작성중에 있는 문서에는 사용자의 실수에 의한 오타 오류가 자주 발생한다. 이와 같은 온라인 문서에서 맞춤법 오류의 다수를 차지하는 사용자의 오타 오류는 대부분 자판을 입력할 때 주위 문자를 잘못 입력하는 경우이다. 통상적인 철자 검사기는 이러한 오류들을 형태소 분석기를 이용하여 검출하고 교정하게 된다. 즉, 입력된 어절에 대해 형태소 분석을 시도하고 분석되지 않은 어절을 철자 오류로 간주하게 된다. 그러나 오타 입력된 어절임에도 불구하고 형태소 분석에 성공한 경우에는 이와 같은 방법으로는 검출이 불가능하다. 본 논문에서는 기존 방법들이 검출하지 못했던 철자 오류들을 검출해 낼 수 있는 방법을 제시한다. 이 방법은 문서 작성자의 오타 입력은 반복하여 입력되지 않는 경향이 있으므로 저빈도로 발생한다는 특성에 기반하여 제안되었다. 저빈도의 어절의 자소 대치를 통해 문서의 특정 구간 내의 다른 단어와 비교하여 오타일 확률이 적은 단어인 자주 나오는 단어와 매칭이 된다면 일단 오류 후보로 가정하는 것이다. 여기에는 몇 가지 경험적인 제약이 추가되어야 한다. 이러한 단어간 비교에 의한 추정은 기존에 발견하지 못했던 구문오류뿐만 아니라 일부 의미오류까지 검출할 수 있으며, 교정 후보 선정시 가중치 적용에도 사용될 수 있다.

에지 확장을 통한 제어 흐름 그래프의 효과적인 비교 방법 (An Effective Method for Comparing Control Flow Graphs through Edge Extension)

  • 임현일
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제2권8호
    • /
    • pp.317-326
    • /
    • 2013
  • 본 논문에서는 바이너리 프로그램의 정적인 구조를 표현하는 제어 흐름 그래프를 비교하는 방법을 제안한다. 제어 흐름 그래프를 비교하기 위해서 기본 블록에 포함된 프로그램의 명령어 및 구문 정보를 비교한 후 기본 블록 사이의 유사한 정도를 측정한다. 또한, 에지 확장을 통해 기본 블록들 간의 제어 흐름을 표현하는 그래프 에지의 유사성을 함께 반영한다. 각 기본 블록 사이의 유사도 결과를 기반으로 기본 블록을 서로 매칭하고, 기본 블록 사이의 매칭 정보를 이용해서 전체 제어 흐름 그래프의 유사도를 측정한다. 본 논문에서 제안한 방법은 자바 프로그램으로부터 추출한 제어 흐름 그래프를 대상으로 제어 흐름 구조의 유사성에 따라 두 가지 기준으로 실험을 수행하였다. 그리고, 성능을 평가하기 위해서 기존의 구조적 비교 방법을 함께 실험하였다. 실험 결과로부터 에지 확장 방법은 서로 다른 프로그램에 대해 충분한 변별력을 가지고 있음을 확인할 수 있다. 프로그램 비교에 좀 더 많은 시간이 소요되지만, 구조가 유사한 프로그램에 대한 매칭 능력에서 기존의 구조적 비교 방법에 비해 우수한 결과를 보였다. 제어 흐름 그래프는 프로그램의 분석에 다양하게 활용될 수 있으며, 제어 흐름 그래프의 비교 방법은 프로그램의 유사성 비교를 통한 코드의 최적화, 유사 코드 검출, 코드의 도용 탐지 등 다양한 분야에서 응용될 수 있을 것이라 기대된다.

지휘통제 관련 정보교환모델 비교분석 및 시사점 (Comparative Analysis and Implications of Command and Control(C2)-related Information Exchange Models)

  • 김건영;박규동;손미애
    • 인터넷정보학회논문지
    • /
    • 제23권6호
    • /
    • pp.59-69
    • /
    • 2022
  • 효과적인 전장상황 인식 및 지휘결심을 위해서는 체계 간의 솔기없는 정보교환이 핵심적이다. 그러나 각 체계는 각자의 목적에 맞게 독립적으로 개발되었기 때문에, 효과적으로 정보를 교환하기 위해서는 체계 간 상호운용성을 보장하여야 한다. 우리 군의 경우 데이터 교환을 위한 공통 메시지 포맷을 활용함으로써 문법적 상호운용성(Syntactic interoperability)을 보장하고 있다. 그러나 단순히 교환되는 데이터의 형식을 표준화하는 것으로는 체계 간 상호운용성을 충분히 보장할 수 없다. 현재 미국과 NATO에서는 데이터 교환 형식을 보장하는 데에서 더 나아가 의미적 상호운용성(Semantic interoperability)을 달성하기 위해 정보교환모델을 개발·활용하고 있다. 정보교환모델은 공통 어휘(Common vocabulary) 또는 참조 모델(Reference model)로, 체계 간에 정보 교환을 내용적·의미적인 수준에서 보장하기 위해 활용된다. 미국에서 개발·활용하는 정보교환모델은 초기에는 전장상황과 직접 관련된 정보를 교환하는 데에 초점을 맞추었으나, 이후 각 정부 부처 및 민간 기관이 함께 활용할 수 있는 범용적인 형태로 발전되었다. 반면 NATO의 경우 이에 속한 각 국가의 군 간 연합 작전을 수행하는 데에 필요한 개념을 엄격히 표현하는 데에 초점을 맞추었으며, 모델의 범위 역시 지휘통제에 관련된 개념으로 한정되었다. 본 논문에서는 미국과 NATO에서 개발·활용하였던 정보교환모델의 개발 배경, 목적 및 특성을 식별하였고, 이들의 비교분석을 수행하였다. 이를 통해 추후 한국형 정보교환모델 개발 시 시사점을 제시하고자 한다.

나머지가 있는 나눗셈 문장제에 대한 초등학교 6학년 학생들의 해결 전략 및 오류 분석 (Analysis of the Sixth Graders' Strategies and Errors of Division-With-Remainder Problems)

  • 하미현;장혜원
    • 한국초등수학교육학회지
    • /
    • 제20권4호
    • /
    • pp.717-735
    • /
    • 2016
  • 본 연구의 목적은 나머지가 있는 나눗셈 문장제에 대한 초등학교 6학년 학생들의 해결 전략 및 오류를 조사함으로써 나머지가 있는 나눗셈 문장제 지도에 대한 교수학적 시사점을 얻는 것이다. 초등학교에서 나눗셈에 대한 학습이 완료되는 시기인 초등학교 6학년 학생 177명을 대상으로 40분간 총 15문항의 검사 문항으로 구성된 검사지를 적용하고, 학생들이 작성한 문항의 답안을 분석함으로써 연구 대상이 문제해결 과정에서 사용한 해결 전략 및 오류를 파악하였다. 검사 결과와 관련하여 주목할 것은 학생들이 나머지가 있는 나눗셈 문장제를 해결하기 위해 주로 사용한 전략과 높은 성공률을 보인 전략이 일치하지 않았으며, 중 집단의 학생들이 다른 집단의 학생들에 비해 보조 전략을 빈번하게 사용했다는 점이다. 또한 학생들의 오류가 빈번하게 나타난 것은 해석과 식 세우기 단계였다. 특히 하 집단의 학생들에게서 식 세우기 오류가 주로 발견된 것에 비해, 상 집단의 학생들은 주로 해석 단계에서 오류를 보였다. 이와 같은 분석 결과에 기초한 논의로부터 나머지가 있는 나눗셈 문장제 지도에 대한 교수학적 시사점을 제안하였다.

PPEditor: 한국어 의존구조 부착을 위한 반자동 말뭉치 구축 도구 (PPEditor: Semi-Automatic Annotation Tool for Korean Dependency Structure)

  • 김재훈;박은진
    • 정보처리학회논문지B
    • /
    • 제13B권1호
    • /
    • pp.63-70
    • /
    • 2006
  • 말뭉치(corpus)는 많은 언어 정보를 포함하고 있으며, 언어처리 및 계산언어학 분야에서 다양한 용도로 사용되고 있다. 그러나 말뭉치에 언어 정보를 부착하는 데는 많은 시간과 인력이 소요된다. 이 문제를 완화시키기 위해서 말뭉치 구축 도구가 반드시 요구된다. 본 논문에서는 한국어 의존구조 부착을 위한 말뭉치 구축 도구의 설계 및 구현에 관해서 기술한다. 가장 이상적인 방법은 주석자가 전혀 개입하지 않고, 말뭉치를 구축하는 것이나 이것은 사실상 불가능하다. 따라서 대부분의 말뭉치 구축 도구는 반자동으로 구성되어 있으며, 본 논문에서 제안된 도구도 반자동이다. 제안된 도구는 언어 분석기의 분석 결과에 내포된 오류를 효과적으로 수정할 수 있고, 또한 가능한 한 반복적인 작업을 피할 수 있으며 쉽게 사용할 수 있도록 인터페이스를 설계하였다. 제안된 시스템을 이용해서 20어절 이상의 1만 문장에 의존구조를 부착해 보았다. 잘 훈련된 8명의 주석자들이 매일 4시간씩 2개월 동안 구축하였으며, 그 결과는 정확하고 일관성 있는 말뭉치를 구축할 수 있었으며, 작업 시간과 인력도 크게 줄일 수 있었다.

시소러스를 기반으로 하는 자동색인 시스템에 관한 연구 (The Development of an Automatic Indexing System based on a Thesaurus)

  • 임형묵;정상철
    • 인지과학
    • /
    • 제4권1호
    • /
    • pp.213-242
    • /
    • 1993
  • 그동안 자동색인 기법에 대해서는 단일어 색인,구색인,시소러스 기반 색인 등의 연구가 이루어져 왔는데,단일어 색인 기법이 단일어에 기초한 단순한 색인 방법 임에도 불구하고 다른 두가지 기법보다 일반적으로 우수하다고 알려져왔다. 시소러스 기반 색인은 이중에서도 검색효율이 낮은 것으로 알려져 왔는데,이는 일반적으로 시소러스가 포함하고 있는 색인용어들이 한정되어 있어 색인하려는 자료들이 이색인 용어에 부합(match)되지 않을 경우 색인 자체가 이루어 지지 않기 때문이다. 본 연구에서는 시소러스 기반 색인이 지금까지 기법으로는 검색효율이 좋지 않지만 실제 전문 색인들이 하는 색인과 매우 유사하다는 장범에 기초하여,입력 자료를 구문분석하고,분석된 자료들과 색인용어들을 정확부합(exact match)이 아닌 부분부합(partial match)을 통하여 색인 함으로써 검색효율이 우수한 시소러스기반 자동 색인 시스템을 개발하고자 한다. 본 연구에서 개발된 색인 시스템이 THINS는 우선 시소러스를 트리형태로 구성하고 입력자료들을 KAIST에서 개발한 언어번역기 MATES/EK를 통하여 구문분석한 후 명사구들만 뽑아낸다.그다음 명사구에 있는 용어들중 불용어를 제거하고 스테밍작업을 진행한후 생기는 형태를 색인 용어들과 부분부합 과정을 반복하여,유사한 색인 용어들과 가능하면 색인이 되도록 한다. 본 연구에서는 CACM 데이타 집합을 가지고 본 시소러스 기반 색인 시스템과 단일어 색인방식을 혼성지식기반 시스템인 HYKIS에서 성능을 평가하였다.이 성능평가에서 시소러스를 기반으로 하는 색인 시스템이 단일어 색인방식보다 회상도에서는 8-9%떨어지지만 정확도에서는 10%정도 높은 결과를 나타내었다.그러나 이는 기존의 시소러스 기반시스템이 단일어 색인 방식보다 정확도가 25%-30%정도 떨어진다는 것을 비추어 볼때 기존의 방식보다 우수한 것이라 평가된다.또한 CACM 에서 제공하는 시소러스인 CRCS 가 1000여개의 색인어밖에 포함하고 있어 매우 불완전한 것이라는 것을 고려하면,THINS가 최근에 개발되고 있는 시소러스와 접속된다면 매우 우수한 검색효율을 내리라 사료된다.

한국어 자연어 요구문서에서 구문 구조 기반의 조응어 처리 시스템 (Anaphora Resolution System for Natural Language Requirements Document in Korean based on Syntactic Structure)

  • 박기선;안동언;이용석
    • 정보처리학회논문지B
    • /
    • 제17B권3호
    • /
    • pp.255-262
    • /
    • 2010
  • 시스템 개발에 있어서 요구문서(requirements document)를 생성하고 정형 명세를 작성하는 것은 요구 분석 전문가와 명세 전문가에 의해 수행되고 있다. 만약 요구문서 생성과 정형 명세 작성 과정을 자동화 한다면 시스템 개발 비용 및 기간을 단축할 수 있고, 또한 전문가 사이의 잘못된 이해로 인한 오류를 줄일 수 있다. 대명사는 인칭대명사와 지시대명사로 분류될 수 있다. 일반적으로 요구문서의 특성상 인칭대명사는 사용되지 않기 때문에 본 논문은 지시대명사의 지시어 결정에 초점을 두고 있다. 지시대명사를 포함하는 요구문서에서 자연어처리 기법을 통해 정형화된 요구사항을 자동으로 추출하기 위해서는 대명사의 지시어 결정이 매우 중요하다. 본 연구의 최종 목표는 자연어 처리 기법을 통하여 자연어 요구문서로부터 시스템 개발에 필요한 정형 명세를 자동으로 생성하는데 있다. 이를 위해 본 논문은 선행연구를 기반으로 한국어로 기술된 자연어 요구문서에서 대명사에 대한 지시어를 결정하는 조응어 해소(anaphora resolution) 시스템을 제안한다. 본 시스템의 개발을 위해 조응어 해소를 위한 경험 규칙을 정의하고, 이를 통해 10개의 요구문서에 대해 실험한 결과 평균 재현율 92.45%, 정확률 69.68%의 성능을 보였다.

영한 기계번역 시스템의 영한 변환사전 확장 도구 (English-Korean Transfer Dictionary Extension Tool in English-Korean Machine Translation System)

  • 김성동
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권1호
    • /
    • pp.35-42
    • /
    • 2013
  • 영한 기계번역 시스템을 개발하기 위해서는 언어에 대한 다양한 정보를 필요로 하며, 특히 영어 단어에 대한 의미 정보를 포함하는 영한 변환사전의 풍부한 정보량은 번역품질에 중요한 요소이다. 지속적으로 생성되는 새로운 단어들은 사전에 등록되어 있지 않아 번역문에 영어 단어가 그대로 출력되어 번역품질을 저하시킨다. 또한 복합명사는 어휘분석, 구문분석을 복잡하게 하고 사전에 의미가 등록되지 않은 경우가 많아 올바르게 번역하기 어렵다. 따라서 영한 기계번역의 번역품질 향상을 위해서는 사전에 등록되어 있지 않은 단어들과 자주 사용되는 복합명사들을 수집하고 의미 정보를 추가하여 영한 변환사전을 지속적으로 확장하는 것이 필요하다. 본 논문에서는 인터넷 신문기사로부터 말뭉치를 추출하고, 사전 미등록 단어와 자주 나타나는 복합명사를 찾은 후, 이들에 대해 의미를 부착하여 영한 변환사전에 추가하는 일련의 과정으로 구성되는 영한 변환사전의 확장 방안을 제안하고 이를 지원하는 도구를 개발하였다. 사전 정보의 확대는 많은 사람의 노력을 필요로 하는 일이지만, 영한 기계번역 시스템의 개선을 위해서는 필수적이다. 본 논문에서 개발한 도구는 사람의 노력을 최소화 하면서, 영한 변환사전의 정보량 지속적인 확대를 위해 유용하게 활용되어 영한 기계번역 시스템의 번역품질 개선에 기여할 것으로 기대된다.

이독성을 통한 초등학교 5, 6학년 영어 교과서 읽기 지문의 연계성 분석 (Analysis of the Continuity of Reading Passages in the 5th and 6th Grade Elementary School English Textbooks Based on Readability)

  • 장한결;이제영
    • 한국콘텐츠학회논문지
    • /
    • 제22권6호
    • /
    • pp.116-124
    • /
    • 2022
  • 본 연구의 목적은 초등학교 5, 6학년 영어 교과서에 수록된 읽기 지문의 이독성을 분석하여 학년 간 수직적 연계성과 출판사 간 수평적 연계성을 살펴보는 것이다. 이를 위해 10종의 교과서에 수록된 읽기 지문을 코퍼스로 구축한 후, Coh-Metrix를 통해 각 교과서에 수록된 읽기 지문의 이독성을 분석하였다. 또한 일원배치 분산분석을 통해 산출된 이독성에 학년 간, 출판사 간에 통계적으로 유의한 수준의 차이가 있는지 살펴보았다. 이를 통해 얻어진 결과는 다음과 같다. 첫째, 동일 학년 내 읽기 지문의 출판사간 난이도 차이를 분석하여 수평적 연계성을 살펴본 결과 RDL2 지수에서 5학년 교과서간에 유의한 차이가 있었다. 둘째, 출판사 내에서의 학년 간 수직적 연계성을 분석한 결과 FRE와 FKGL 기준으로 교과서 A의 난이도가 5학년에 비해 6학년에서 높았으며, 이는 통계적으로 유의한 수준의 차이였다. 반면 RDL2를 기준으로 했을 경우 교과서 B의 난이도가 5학년에 비해 6학년에서 더 낮아지는 결과를 보았다. 이러한 결과는 FRE와 FKGL은 문장 길이와 단어 길이 중심으로 이독성을 산출하는 반면, RDL2는 내용어 중복, 단어 빈도 수, 문장의 통사적 유사성 등을 기초로 하고 있기 때문으로 보인다.