• 제목/요약/키워드: 어휘정보

검색결과 1,062건 처리시간 0.023초

한국어 어휘의미망을 활용한 Conditional Random Fields 기반 한국어 개체명 인식 (Conditional Random Fields based Named Entity Recognition Using Korean Lexical Semantic Network)

  • 박서연;옥철영;신준철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.343-346
    • /
    • 2020
  • 개체명 인식은 주어진 문장 내에서 OOV(Out of Vocaburary)로 자주 등장하는 고유한 의미가 있는 단어들을 미리 정의된 개체의 범주로 분류하는 작업이다. 최근 개체명이 문장 내에서 OOV로 등장하는 문제를 해결하기 위해 외부 리소스를 활용하는 연구들이 많이 진행되었다. 본 논문은 의미역, 의존관계 분석에 한국어 어휘지도를 이용한 자질을 추가하여 성능 향상을 보인 연구들을 바탕으로 이를 한국어 개체명 인식에 적용하고 평가하였다. 실험 결과, 한국어 어휘지도를 활용한 자질을 추가로 학습한 모델이 기존 모델에 비해 평균 1.83% 포인트 향상하였다. 또한, CRF 단일 모델만을 사용했음에도 87.25% 포인트라는 높은 성능을 보였다.

  • PDF

유발된 정서가 대학생의 부정적 어휘정보 처리에 미치는 효과 (The Effects of Priming Emotion among College Students at the Processes of Words Negativity Information)

  • 김충명
    • 융합정보논문지
    • /
    • 제10권10호
    • /
    • pp.318-324
    • /
    • 2020
  • 본 연구는 정상 및 불안 집단 대학생을 대상으로 하나 또는 그 이상의 부정적 어휘를 포함하는 서술어의 의미추론 과정에서 정서유형 및 부정어휘 출현의 정도가 과제처리 속도에 미치는 영향을 알아보고자 수행되었다. 정서 3유형, 자극 2유형 그리고 부정어휘 횟수 3유형을 피험자 내 변인으로, 벡(Beck) 불안척도로 구분된 불안수준을 피험자 간 변인으로 혼합반복측정 설계를 적용하여 피험자 반응시간에 대해 분석한 결과, 정서유형과 자극의 종류 그리고 부정어휘 횟수에 대한 주효과를 확인하였으며, 불안수준 x 부정어 횟수에서 상호작용이 발견되었다. 긍정적 정서에 비해 부정적 정서에서, 비언어 자극보다는 언어 자극 환경에서 과제처리에 더 효율적이었지만, 부정어휘 변인에서는 그 횟수의 증가가 정상집단의 신속한 반응과 불안집단의 지연된 반응으로 분기되면서 부정어휘처리 반응시간의 지체로 나타났다. 또한 유입 정서유형 및 자극의 종류와 상관없이 불안수준은 과제처리 속도를 지연시키는 요인으로 확인되었다. 아울러 추후 연구를 위한 함의와 한계를 논의하였다.

SMS 변형된 문자열의 자동 오류 교정 시스템 (Automatic Error Correction System for Erroneous SMS Strings)

  • 강승식;장두성
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (A)
    • /
    • pp.59-60
    • /
    • 2007
  • 휴대폰과 메신저 등 통신 환경에서 사용되는 표준어가 아닌 SMS의 변형된 어휘 및 띄어쓰기 오류를 자동으로 교정하여 형태소 분석 및 품사 태깅의 성능 저하 문제를 방지하는 문자열 오류의 교정 방법을 제안하였다. 통신 어휘들의 문자열 사전 구축 방법으로 통신어휘집을 기반으로 수동으로 구축하는 방법과 수작업으로 구축된 말뭉치로부터 자동으로 변형된 문자열을 추출하는 방법, 그리고 문맥을 고려하는 방법을 비교-분석하고 실험 및 성능 평가 결과를 제시하였다.

  • PDF

자모 빈도에 의한 통신 언어의 특성 연구 (A Study on the Features of Communicative Languages by Frequency Information)

  • 강승식;김보영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.501-504
    • /
    • 2003
  • 인터넷 채팅과 문자 메시지 등 통신 환경에서 사용되는 어휘들은 일정한 규칙성과 방향성을 가지고 있을 것으로 추정된다. 통신 용어의 생성 규칙과 음운론적 변형 현상을 규명하기 위하여 통신 용어의 사용 빈도의 분석과 언어학적 접근 방법을 통하여 통신 언어의 생성 원인을 분석한다 통신 환경에서 변형되어 사용되는 어휘들의 표준어와 통신상에서 사용되는 어휘 형태에 대해 각각 초성, 중성, 종성 빈도를 계산하고 통신 용어와 표준의 자모 사용 비율 변화를 분석하여 통신 용어가 생성되는 원인을 분석하였다.

  • PDF

감정동사 및 감정형용사 분류에 관한 연구 (Classification System for Emotional Verbs and Adjectives)

  • 장효진
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2001년도 제8회 학술대회 논문집
    • /
    • pp.29-34
    • /
    • 2001
  • 영상자료 및 소리자료의 색인과 검색을 위해서는 감정동사 및 감정형용사 등의 감정 어휘를 필요로 한다. 그러나 감정어휘는 그 뉘앙스가 미묘하여 분명한 분류체계가 없이는 체계적인 정리가 불가능하다. 이에 따라 본 연구에서는 국어학과 분류사전의 분류체계를 고찰하고 새로운 감정어휘의 분류방안을 연구하였으며, 감정에 따른 기쁨, 슬픔, 놀람, 공포, 혐오, 분노의 6가지 기본유형을 제시하였다.

  • PDF

LC주제명표목표와 시소러스의 색인어 구조 비교연구 (A Comparative Study on the Structures of Indexing Languages between LC Subject Headings and Thesaurus)

  • 김주성;김태수
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1995년도 제2회 학술대회 논문집
    • /
    • pp.111-114
    • /
    • 1995
  • 전산환경에서 유용한 색인도구로서의 통제어휘집을 구성하는 원칙과 방법을 제시하고자 전조합색인용 통제어휘집인 LC주제명표목표의 표목구조와 후조합색인용 통제어휘집인 시소러스의 용어구조를 비교하였다. 주제명표목표에서 사용되는 도치표목, 전치사로 연결된 표목, 접속사로 연결된 표목, 세목을 가진 표목을 시소러스에서 사용되는 색인구조와 비교분석 하였다. 주제명표목표가 참조구조를 시소러스체제로 변환시켰을 때 나타나는 문제점도 파악하였다.

  • PDF

의미속성 기반의 개념망을 위한 어휘 연관도 측정 (A Measurement of Lexical Relationship for Concept Network Based on Semantic Features)

  • 옥은주;이왕우;이수동;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.146-154
    • /
    • 2001
  • 본 논문에서는 개념망 구축을 위해 사전 뜻풀이말에서 추출 가능한 의미속성의 분포 정보를 기반으로 어휘 연관도를 측정하고자 한다. 먼저 112,000여 개의 사전 뜻풀이말을 대상으로 품사 태그와 의미 태그가 부여된 코퍼스에서 의미속성을 추출한다. 추출 가능한 의미속성은 체언류, 부사류, 용언류 등이 있는데 본 논문에서는 일차적으로 명사류와 수식 관계에 있는 용언류 중 관형형 전성어미('ㄴ/은/는')가 부착된 것을 대상으로 한다. 추출된 공기쌍 45,000여 개를 대상으로 정제 작업을 거쳐 정보이론의 상호 정보량(MI)을 이용하여 명사류와 용언류의 연관도를 측정한다. 한편, 자료의 희귀성을 완화하기 위해 수식 관계의 명사류와 용언류는 기초어휘를 중심으로 유사어 집합으로 묶어서 작업을 하였다. 이러한 의미속성의 분포 정보를 통해 측정된 어휘 연관도는 의미속성의 공유 정도를 계산하여 개념들간에 계층구조를 구축하는 데 이용할 수 있다.

  • PDF

감성정보를 처리하는 상황인식 미들웨어의 구조 설계 (The Design of Context-Aware Middleware Architecture for Processing Emotional Information)

  • 김진봉
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.889-890
    • /
    • 2009
  • 유비쿼터스 컴퓨팅 환경에서 가장 핵심적인 부분은 상황(Context)을 인식하고, 그 상황에 따라서 최적의 서비스를 제공해 주는 것이다. 이러한 최적의 서비스를 제공하기 위해서는 최적의 상황을 인식하는 상황인식 컴퓨팅 기술 연구와 그 상황을 설계하는 모델링 기술들이 중요하다. 현재 대부분의 상황인식 컴퓨팅 기술은 지정된 공간에서 상황을 발생시키는 객체를 식별하는 일과 식별된 객체가 발생하는 상황의 인식에 주된 초점을 두고 있다. 또한, 상황정보로는 객체의 위치 정보만을 주로 사용하고 있다. 그러나 본 논문에서는 객체의 감성어휘를 상황정보로 사용하여 감성을 인식할 수 있는 상황인식 미들웨어로서 EIP-CAM의 구조를 제안한다. EIP-CAM 구조의 모델링은 상황인식 모델링과 서비스 모델링으로 구성된다. 또한, 감성어휘의 범주화 기술을 기반으로 온톨로지를 구축하여 객체의 감성을 인식한다. 객체의 감성어휘를 상황정보로 사용하고, 부가적으로 환경정보(온도, 습도, 날씨 등)를 추가하여 인식한다.. 객체의 감성을 표현하기 위해서 OWL 언어를 사용하여 온톨로지를 구축하였으며, 감성추론 엔진은 Jena를 사용했다.

단어클러스터링을 이용한 동사 어휘의미망의 활용 및 평가 (The Application and Evaluation of Verbal Lexical-Semantic Network Using Automatic Word Clustering)

  • 김혜경;윤애선
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2006년도 춘계학술대회
    • /
    • pp.1-7
    • /
    • 2006
  • 최근 수년간 한국어를 위한 어휘의미망에 대한 관심은 꾸준히 높아지고 있지만, 그 결과물을 어떻게 평가하고 활용할 것인가에 대한 방안은 이루어지지 않고 있다. 본 논문에서는 단어클러스터링 시스템 개발을 통하여, 어휘의미망에 의해 확장되기 전후의 클러스터링을 수행하여 데이터를 서로 비교하였다. 단어클러스터링 시스템 개발을 위해 사용된 학습 데이터는 신문 말뭉치 기사로 총 68,455,856 어절 규모이며, 특성벡터와 벡터공간모델을 이용하여 시스템A를 완성하였다. 시스템B는 구축된 '[-하]동사류' 3,656개의 어휘의미를 포함하는 동사어휘의미망을 포함하여 확장된 것으로 확장대상정보를 선택하여 특성벡터를 재구성한다. 대상이 되는 실험 데이터는 '다국어 어휘의미망-코어넷'으로 클러스터링 결과 나타난 어휘들의 세 번째 층위까지의 노드 동일성 여부로 정확률 검수를 하였다. 같은 환경에서 시스템A와 시스템B를 비교한 결과 단어클러스터링의 정확률이 45.3%에서 46.6%로의 향상을 보였다. 향후 연구는 어휘의미망을 활용하여 좀 더 다양한 시스템에 체계적이고 폭넓은 평가를 통해 전산시스템의 향상은 물론, 연구되고 있는 많은 어휘의미망에 의미 있는 평가 방안을 확대시켜 나가야 할 것이다.

  • PDF

통계정보에 기반을 둔 한국어 어휘중의성해소 (Korean Lexical Disambiguation Based on Statistical Information)

  • 박하규;김영택
    • 한국통신학회논문지
    • /
    • 제19권2호
    • /
    • pp.265-275
    • /
    • 1994
  • 어휘중의성 해소는 음성 인식/생성, 정보 검색, 발뭉치 태킹 등 자연언어 처리에서 가장 기초가 되는 분야 중의 하나이다. 본 논문은 말뭉치로부터 추출된 통계정보를 이용하는 한국어 어휘중의성해소 기법에 대해 기술한다. 이 기법에서는 좀더 정밀한 중의성해소를 위해 품사태그 대신 형태소분석 결과에 해당하는 토큰태그를 사용하고 있다. 본 논문에서 제안한 어휘선택함수는 어미나 조사의 호응 관계등 한국어의 어휘적 특성을 잘 반영하기 때문에 상당히 높은 정확성을 보여준다. 그리고 활용분야에 적합하게 사용될 수 있도록 유일선택 방식과 다중선택 방식이라는 두가지 중의성해소 방식을 지원하고 있다.

  • PDF