• 제목/요약/키워드: 어휘 분석기

검색결과 116건 처리시간 0.042초

대화 수준 FrameNet 구축을 위한 생략된 프레임 논항 복원 연구 (A Study of Null Instantiated Frame Element Resolution for Construction of Dialog-Level FrameNet)

  • 노영빈;허철훈;함영균;정유성;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.227-232
    • /
    • 2020
  • 본 논문은 의미역 주석(Semantic Role Labeling) 자원인 FrameNet을 준구어 말뭉치인 드라마 대본에 주석하는 과정과 주석 결과에 대해 서술한다. 본 논문에서는 프레임 - 프레임 논항 구조의 주석 범위를 한 문장에서 여러 발화로 이루어진 장면 (Scene) 단위의 대본으로 확장하여 문장 내에서 생략된 프레임 논항(Null-Instantiated Frame Elements)을 장면 단위 대본 내의 다른 발화에서 복원하였다. 본 논문은 프레임 자동 분석기를 통해 동일한 드라마의 한국어, 영어 대본에 FrameNet 주석을 한 드라마 대본을 선발된 주석자에 의해 대상 어휘 적합성 평가, 프레임 적합성 평가, 생략된 프레임 논항 복원을 실시하고, 자동 주석된 대본과 주석자 작업 후의 대본 결과를 비교한 결과와 예시를 제시한다. 주석자가 자동 주석된 대본 중 총 2,641개 주석 (한국어 1,200개, 영어 1,461개)에 대하여 대상 어휘 적합성 평가를 실시하여 한국어 190개 (15.83%), 영어 226개 (15.47%)의 부적합 대상 어휘를 삭제하였다. 프레임 적합성 평가에서는 대상 어휘에 자동 주석된 프레임의 적합성을 평가하여 한국어 622개 (61.68%), 영어 473개 (38.22%)의 어휘에 대하여 새로운 프레임을 부여하였다. 생략된 프레임 논항을 복원한 결과 작업된 평균 프레임 논항 개수가 한국어 0.780개에서 2.519개, 영어 1.290개에서 2.253개로 증가하였다.

  • PDF

정규화신뢰도 기반 가변어휘 고립단어 인식기의 거절기능 성능 분석 (Rejection Performance Analysis in Vocabulary Independent Speech Recognition Based on Normalized Confidence Measure)

  • 최승호
    • 한국음향학회지
    • /
    • 제25권2호
    • /
    • pp.96-100
    • /
    • 2006
  • 고립단어 인식기의 오 인식 단어를 거절하기 위한 방법으로 정규화 신뢰도가 제안되어 논문 [1-2]에서 성공적으로 적용된 바 있다. 그러나 정규화 신뢰도의 성능 측정을 위해 고정된 단어 셌을 대상으로 실험을 하였다. 본 논문에서는 정규화 신뢰도를 가변어휘 음성인식 영역에 적용하여 신뢰도의 거절성능을 밝히고 특히, 벡터양자화기를 이용하여 미 출현 트라이 폰의 문제를 극복하는 방법을 제안한다. 이때 정규화 신뢰도는 트라이 폰 신뢰도들의 통계적 특징(평균과 표준편차)을 사용한다. 가변어휘 인식실험 결과음소 단위의 정규화방법이 트라이 폰 기반 정규화방법에 비하여 우수한 성능을 보였으며 이러한 결과는 논문 [1-2]의 결과와는 상이한 것으로 트라이 폰 기반 정규화 방법이 미 출현 트라이 폰에 대하여 강인하지 못하다는 점을 시사하고 있다. 따라서 정규화 신뢰도가 음소 또는 트라이 폰에 상관없이 기준 신뢰도인 RLTC 신뢰도 [3]에 비하여 우수한 성능을 보였으며 가변어휘 인식에서도 동작함을 확인 할 수 있었다.

한국어 Word2vec 모델을 위한 최적의 형태소 분석기 선정 (Selection of the Optimal Morphological Analyzer for a Korean Word2vec Model)

  • 강형석;양장훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.376-379
    • /
    • 2018
  • 본 논문의 목적은 오픈 소스로 공개된 3가지 한국어 형태소 분석기 (kkma, twitter 및 mecab-ko)를 비교해서 한국어 자연어 처리에 가장 적합한 분석기를 선정하는 것이다. 이를 위해, 자연어 처리 분야에서 중요한 단어 임베딩 방법론 중 하나인 word2vec 모델의 성능 검증 방법을 사용해서 각 형태소 분석기의 성능을 정량적으로 비교했다. 그 결과 mecab-ko 형태소 분석기가 최적임이 확인되었다. 단 성능 검증에 사용된 어휘가 오직 명사뿐이라는 한계가 있으므로, 향후 연구에서는 좀 더 다양한 품사에 대한 성능검증이 필요할 것으로 보인다.

영어 SentiWordNet을 이용하여 구축한 한국어 감성어휘사전의 성능 평가와 한계 연구 (Performance and Limitations of a Korean Sentiment Lexicon Built on the English SentiWordNet)

  • 신동혁;김새롬;조동희;뉘엔 민디오;박순강;어건주;남지순
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.189-194
    • /
    • 2016
  • 본 연구는 다국어 감성사전 및 감성주석 코퍼스 구축 프로젝트인 MUSE 프로젝트의 일환으로 한국어 감성사전을 구축하기 위해 대표적인 영어 감성사전인 SentiWordNet을 이용하여 한국어 감성사전을 구축하는 방법의 의의와 한계점을 검토하는 것을 목적으로 한다. 우선 영어 SentiWordNet의 117,659개의 어휘중에서 긍정/부정 0.5 스코어 이상의 어휘를 추출하여 구글 번역기를 이용해 자동 번역하는 작업을 실시하였다. 그 중에서 번역이 되지 않거나, 중복되는 경우를 제거하고, 언어학 전문가들의 수작업으로 분류해낸 결과 3,665개의 감성어휘를 획득할 수 있었다. 그러나 이마저도 병명이나 순수 감성어휘로 보기 어려운 사례들이 상당수 포함되어 있어 실제 이를 코퍼스에 적용하여 감성어휘를 자동 판별했을 때에 맛집 코퍼스에서의 재현율(recall)이 긍정과 부정에서 각각 47.4%, 37.7%, IT 코퍼스에서 각각 55.2%, 32.4%에 불과하였다. 이와 더불어 F-measure의 경우, 맛집 코퍼스에서는 긍정과 부정의 값이 각각 62.3%, 38.5%였고, IT 코퍼스에서는 각각 65.5%, 44.6%의 낮은 수치를 보여주고 있어, SentiWordNet 기반의 감성사전은 감성사전으로서의 역할을 수행하기에 충분하지 않은 것으로 나타났다. 이를 통해 한국어 감성사전을 구축할 때에는 한국어의 언어적 속성을 고려한 체계적인 접근이 필요함을 역설하고, 현재 한국어 전자사전 DECO에 기반을 두어 보완 확장중인 SELEX 감성사전에 대해 소개한다.

  • PDF

영어 SentiWordNet을 이용하여 구축한 한국어 감성어휘사전의 성능 평가와 한계 연구 (Performance and Limitations of a Korean Sentiment Lexicon Built on the English SentiWordNet)

  • 신동혁;김새롬;조동희;뉘엔 민디오;박순강;어건주;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.189-194
    • /
    • 2016
  • 본 연구는 다국어 감성사전 및 감성주석 코퍼스 구축 프로젝트인 MUSE 프로젝트의 일환으로 한국어 감성사전을 구축하기 위해 대표적인 영어 감성사전인 SentiWordNet을 이용하여 한국어 감성사전을 구축하는 방법의 의의와 한계점을 검토하는 것을 목적으로 한다. 우선 영어 SentiWordNet의 117,659개의 어휘중에서 긍정/부정 0.5 스코어 이상의 어휘를 추출하여 구글 번역기를 이용해 자동 번역하는 작업을 실시하였다. 그 중에서 번역이 되지 않거나, 중복되는 경우를 제거하고, 언어학 전문가들의 수작업으로 분류해 낸 결과 3,665개의 감성어휘를 획득할 수 있었다. 그러나 이마저도 병명이나 순수 감성어휘로 보기 어려운 사례들이 상당수 포함되어 있어 실제 이를 코퍼스에 적용하여 감성어휘를 자동 판별했을 때에 맛집 코퍼스에서의 재현율(recall)이 긍정과 부정에서 각각 47.4%, 37.7%, IT 코퍼스에서 각각 55.2%, 32.4%에 불과하였다. 이와 더불어 F-measure의 경우, 맛집 코퍼스에서는 긍정과 부정의 값이 각각 62.3%, 38.5%였고, IT 코퍼스에서는 각각 65.5%, 44.6%의 낮은 수치를 보여주고 있어, SentiWordNet 기반의 감성사전은 감성사전으로서의 역할을 수행하기에 충분하지 않은 것으로 나타났다. 이를 통해 한국어 감성사전을 구축할 때에는 한국어의 언어적 속성을 고려한 체계적인 접근이 필요함을 역설하고, 현재 한국어 전자사전 DECO에 기반을 두어 보완 확장중인 SELEX 감성사전에 대해 소개한다.

  • PDF

한국어 어휘의미망에 기반한 논항 정보를 이용한 의존문법 구문분석기의 구현 (Implementation of Dependency Parser using Argument Information based on Korean WordNet)

  • 임경업;정영임;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.158-164
    • /
    • 2007
  • 한국어는 한 어절이 한 개 이상의 형태소로 이루어졌으며, 이 때문에 지역 중의성이 발생한다. 대부분의 선행 연구에서는 이러한 지역 중의성을 배제하거나, 태거를 사용하여 지역 중의성을 제거해왔다. 본 연구에서는 문장의 모든 형태소 분석에 대해 구문분석을 시도하며, 중의성을 제거하고자 적용된 의존문법 규칙과 구 묶음, 부사 하위범주화, 논항 정보 사전 이용 등의 다양한 기법을 설명하고, 구문분석 성능을 실험으로 나타낸다. 특히, 말뭉치마다 논항 정보 사전을 따로 구축하는 번거로움을 피하고자 한국어 어휘의미망을 사용한다.

  • PDF

안전한 코딩을 위한 정적 C 코드 분석기 개발 (An Implementation of Static C - Code Analyzer for Secure Coding)

  • 류두진;성시원;김덕헌;한익주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.244-247
    • /
    • 2010
  • 최근 Application 의 취약성을 악용한 해커들의 시스템 공격 사례가 증가하고 있다. 본 논문에서 다루는 코드 분석기는 이러한 해커의 공격을 사전에 차단하기 위해 사용자로부터 입력받은 Application 의 소스 코드가 사전에 탑재해 놓은 일련의 보안 규칙(Security Rule)을 제대로 준수하는지의 여부를 어휘 분석(Lexical Analysis)과 구문 분석(Semantic Analysis)을 통해 판별해 낸다. 본 코드 분석기는 미국 카네기멜론대학(CMU) 산하의 인터넷 해킹 보안 기구인 CERT 에서 제시하는 규칙을 그대로 적용하여 분석 결과의 정확도와 객관성을 높였으며, 이 분석기를 통해 프로그래머가 신뢰도와 보안성이 높은 소프트웨어를 개발할 수 있도록 하였다.

자동차 인테리어의 촉감 평가를 위한 대표감성 추출 (Extraction of Representative Emotions for Evaluations of Tactile Impressions in a Car Interior)

  • 박남춘;정성원
    • 감성과학
    • /
    • 제16권2호
    • /
    • pp.157-166
    • /
    • 2013
  • 자동차 인테리어에 사용된 여러 가지 재질에 대하여 현재까지 촉감을 측정하고 평가하여 소재의 적용과 표면질감의 기준을 결정하고자 했던 연구는 자동차의 조작 장치에 대한 인간공학적 평가, 시각적 디자인요소에 대한 연구에 비해서는 많지 않다. 본 연구에서는 자동차 인테리어의 여러 소재에 대한 촉감 관련 감성을 측정하고 평가하는데 사용될 수 있는 촉감 관련 대표감성을 추출하고자 하였다. 기존의 감성어휘 연구에서 추출되어 있는 대표감성어휘를 이용하여, 자동차에 탑승하여 여러 재질을 보고 만지면서 촉각으로 느껴지는 촉감에 대해 느껴지는 감성어휘와 자동차 사용기의 분석 및 자동차 전문가에 대한 인터뷰 등을 종합하여 최종적으로 52개의 촉감 관련 감성어휘를 추출하였다. 이를 요인분석한 결과 거칠기, 단단함, 마찰감, 안락감, 뻣뻣함, 부드러움, 온도감, 매끈함, 친숙함, 유연함 등 10개의 대표감성으로 분류되었다. 이러한 대표감성 어휘는 자동차 인테리어의 촉감에 대한 소비자의 감성을 측정하고 평가하는데 활용될 수 있을 것이며 금속, 플라스틱, 가죽 등 다양한 소재들의 고급감을 향상시킬 수 있는 질감을 결정할 수 있는 감성평가의 기본 자료로 활용될 수 있을 것이다.

  • PDF

음절에 기반한 한국어 형태소 분석기 (Syllable-Based Korean Morphological Analyzer)

  • 장동수;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.331-339
    • /
    • 1993
  • 본 논문에서는 한국어의 음절 특성을 이용한 한국어 형태소 분석기를 제시하였다. 이 형태소 분석기는 품사별 음절 정보, 불규칙 음절 정보, 활용어절 음절 정보, 선어말 어미 음절 정보 등을 이용하여 음절 단위로 형태소 분석을 한다. 음절 단위의 형태소 분석 방법은 음소 단위의 방법보다 형태소 분석시에 생성될 수 있는 잘못된 중간 분석 결과를 크게 감소시켜, 사전 탐색 부담을 최소화한다. 시스템의 사전은 품사별 결합 특성과 사전 표제어의 길이별 분포 특성을 이용하여 구성하였으며, 그 규모는 약 16만 어휘이다. 이러한 사전 구성은 효율적인 사전검색을 제공하며, 특히 철자 검색기와 자동 인덱싱 등의 다양한 응용 시스템 요구를 곧바로 수용할 수 있는 유연성과 효율성을 갖고 있다.

  • PDF

한국어 개념망 구축을 위한 지능형 워크벤치 (Intelligent Workbench for Korean Concept-Net Construction)

  • 허정;최미란;장명길
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.472-474
    • /
    • 2005
  • 개념망은 상당히 도메인에 의존적인 언어자원에 해당한다. 따라서, 도메인이 다른 분야에 적용하고자 한다면, 많은 수정이 요구된다. 그러나 개념망의 편집은 언어 이해 능력이 뛰어난 언어학자들 조차도 상당히 많은 시간이 요구되는 작업이다. 대부분의 시간소요는 개념망의 전체적인 계층구조를 스캐닝하는 작업과 특정 노드를 검색하는 작업에 의한 것이다. 기 구축된 개념망을 분석하면 계층관계에 있는 어휘들간의 일관된 규칙을 발견할 수 있다. 이 논문에서는 어휘들의 뜻풀이와 상위어간의 관계성, 복합명사와 상위어간의 관계성을 통계적으로 분석하였다 분석된 결과를 기반으로 확률모델을 이용하여 상위어 추천 기능을 구현하였다. 상위어 추천 기능의 시간 절감 효과를 실험하기 위해 실험자 2인을 대상으로 개념망 구축에 소요되는 시간을 측정하였다. 상위어 추천 기능이 있는 지능형 워크벤치를 이용할 경우 개념망 작업 시간은 약 $65\%$정도로 단축되는 것을 확인할 수 있었다. 본 지능형 워크벤치는 다양한 도메인에서 요구되는 개념망 구축의 시간 비용 절감에 크게 기절할 것으로 기대된다.

  • PDF