• 제목/요약/키워드: word-net

검색결과 258건 처리시간 0.026초

언어적 특성을 이용한 '심리학적 한국어 글분석 프로그램(KLIWC)' 개발 과정에 대한 고찰 (The Review about the Development of Korean Linguistic Inquiry and Word Count)

  • 이창환;심정미;윤애선
    • 인지과학
    • /
    • 제16권2호
    • /
    • pp.93-121
    • /
    • 2005
  • 최근 심리학 연구에서 LIWC(Linguistic Inquiry and Word Count)라는 '심리학적 영어 글분석 프로그램'을 사용하여 사람들이 사용하는 언어적 양식을 종속측정치로 사용한 연구들은 괄목할 만한 성과를 거두었다. 본 연구는 이러한 영어분석 프로그램을 원형으로 한국어의 특성과 문화를 반영한 '한국어 글분석 프로그램(KLIWC)'을 개발하기 위하여 실시되었다. 형태소 태깅을 통하여 다수의 형태소가 교착된 어절을 분석하는 기능을 추가하였고 기본형 사전과 활용형 규칙을 구축하였다. 또한 체면, 한국적 정서와 관련된 단어를 분석 변인에 포함시켰다. 이러한 한국어 분석프로그램의 개발과정과 특성을 고찰하였고 프로그램의 추후 개선방향에 대하여 논의하였다. (KLIWC 제공 웹사이트: ww.k-liwc.net)

  • PDF

어휘의미 중의성이 인터넷 정보검색 효율에 미치는 영향에 관한 연구 (A Study of Word Sense Ambiguation which Affects Efficiency of the Internet-based Information Retrieval)

  • 황상규;오경묵;변영태
    • 정보관리학회지
    • /
    • 제16권3호
    • /
    • pp.65-82
    • /
    • 1999
  • 부적절한 검색어의 선정 및 검색식의 작성은 인터넷 정보검색 수행 시 검색 효율 저하의 주요 원인으로 작용하게 된다. 또한 정보검색 수행 시 발생하는 어휘의미중의성(Word Sense Ambiguation) 역시 검색 효율 저하의 주요 원인으로 작용하는데, 어휘의미중의성에 의한 효율 저하 정도를 실험을 통해 확인하였다. 어휘의미중의성에 의한 검색 효율 저하란 검색어로 입력한 어휘가 문서에서 서로 다른 의미로 사용됨에 따라 의도하지 않은 다른 문서가 검색될 수 있음을 의미한다. 본 논문에서는 새로운 정보검색 환경인 인터넷기반정보검색에 있어 어휘의미중의성이 검색 정확률에 미치는 영향을 살펴보고, 기존의 정보검색에 있어 어휘의미중의성에 관한 연구가 인터넷기반 정보검색에 있어서도 제대로 적용되는지를 조사 분석하였다.

  • PDF

Automatic extraction of similar poetry for study of literary texts: An experiment on Hindi poetry

  • Prakash, Amit;Singh, Niraj Kumar;Saha, Sujan Kumar
    • ETRI Journal
    • /
    • 제44권3호
    • /
    • pp.413-425
    • /
    • 2022
  • The study of literary texts is one of the earliest disciplines practiced around the globe. Poetry is artistic writing in which words are carefully chosen and arranged for their meaning, sound, and rhythm. Poetry usually has a broad and profound sense that makes it difficult to be interpreted even by humans. The essence of poetry is Rasa, which signifies mood or emotion. In this paper, we propose a poetry classification-based approach to automatically extract similar poems from a repository. Specifically, we perform a novel Rasa-based classification of Hindi poetry. For the task, we primarily used lexical features in a bag-of-words model trained using the support vector machine classifier. In the model, we employed Hindi WordNet, Latent Semantic Indexing, and Word2Vec-based neural word embedding. To extract the rich feature vectors, we prepared a repository containing 37 717 poems collected from various sources. We evaluated the performance of the system on a manually constructed dataset containing 945 Hindi poems. Experimental results demonstrated that the proposed model attained satisfactory performance.

시맨틱 웹에서의 도메인 온톨로지 구축 및 적용 (Building Domain Ontology for Semantic Web)

  • 공현장;정관호;신주현;김원필;김판구
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (중)
    • /
    • pp.919-922
    • /
    • 2003
  • 1990년대 중반부터 최근까지 시맨틱 웹에 대한 많은 관심과 더불어 많은 연구가 진행중이다. 무한한 정보 자원을 가지고 있는 인터넷에서 자원에 대한 효율적 처리가 더욱더 강조된다. 그렇지만 시맨틱 웹에 대한 뚜렷한 결론을 내리기 힘들뿐만 아니라, 지금의 연구들에서는 시맨틱 웹에 대한 전체적 구상에 치중하고 있을 뿐, 세부적인 기술에 관한 연구는 미흡하다 최근까지의 연구의 초점은 주로 XML, XML Schema에서 RDF, RDF Schema 그리고 DAML+OIL에 이르기까지 다양한 마크업 언어의 개발 및 적용에 대한 연구이다. 이러한 연구의 결과 시맨틱 웹에서의 표현을 위한 마크업 언어에 대한 많은 성과를 가져왔지만, 시맨틱 웹의 핵심이 되는 정보의 의미적 표현은 더 많은 연구들이 요구된다. 본 논문은 시맨틱 웹의 핵심적인 부분을 차지하고 있는 온톨로지에 대한 연구이다. 최근 널리 사용되어지고 있는 온톨로지 중 하나인 WordNet을 시맨틱 웹의 온톨로지로 적용함에 있어, 발생하는 문제점을 해결하기 위한 방법을 제시한다. WordNet에 기반 한 도메인 온톨로지의 구축 및 적용에 대한 내용이 이 문제점을 해결하기 위한 본 논문의 요지이다.

  • PDF

U-WIN을 이용한 WSD 기반의 문서 유사도 측정 (Measurement of WSD based Document Similarity using U-WIN)

  • 심강섭;배영준;옥철영;최호섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.90-95
    • /
    • 2008
  • 이미 국외에서는 WordNet과 같은 의미적 언어자원을 활용한 문서 유사도 측정에 관한 많은 연구가 진행되고 있다. 그러나 국내에서는 아직 WordNet과 같은 언어자원이 부족하여, 이를 바탕으로 한 문서 유사도 측정 방법이나 그 결과를 활용하는 방법에 관한 연구가 미흡하다. 기존에 국내에서 사용된 문서 유사도 측정법들은 대부분 문서 내에 출현하는 어휘들의 의미에 기반하기 보다는, 그 어휘들의 단순 매칭이나 빈도수를 이용한 가중치 측정법, 또는 가중치를 이용한 중요 어휘 추출방법들 이었다. 이 때문에, 기존의 유사도 측정법들은 문서의 문맥정보를 포함하지 못하고, 어휘의 빈도를 구하기 위하여 대용량의 문서집합에 의존적이며, 또한 특정 개념(의미)을 다른 어휘로 표현하거나, 유사/관련 어휘가 사용된 유사 문서에 대한 처리가 미흡하였다. 본 논문에서는 이에 착안하여 한국어 어휘 의미망인 U-WIN과 문맥에 사용된 어휘들의 overlap 정보를 사용하여, 단순히 어휘에 기반하지 않고, 기본적인 문맥정보를 활용하며, 어휘의 의미에 기반을 둔 문서유사도 측정법을 제안한다.

  • PDF

개미 군집 최적화 알고리즘과 센티워드넷을 이용한 사용자 감성 동향 분석 방법 연구 (A Study on Sentiment Trend Analysis Method Using Ant Colony Optimization Algorithm and SentiWordNet)

  • 권경락;강대현;최수봉;박한샘;정인정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.948-951
    • /
    • 2014
  • 본 논문에서는 개미 군집 최적화 알고리즘과 센티워드넷(SentiWordNet)을 이용한 감성 분석 방법을 제안한다. 먼저, 데이터 수집 단계에서는 소설 웹(예: 페이스북)으로부터 주어 (subject), 서술어(predicate), 목적어(object)의 3 개의 요소로 구성된 RDF (Resource Description Framework)의 형태로 데이터를 수집한다. 그리고 개미 군집 최적화 알고리즘을 이용하여 수집된 RDF 튜플(tuple)을 수치화한 후, 사용자의 감성에 대하여 제안한 수식을 이용하여 페르몬(pheromone)을 계산한다. 센티워드넷을 통하여 얻은 감성 지수를 반영하여 이전 단계에서 계산된 여러 개의 페르몬 값에 대한 전체 감성 지수를 계산한다. 제안한 방법의 타당성 검증을 위하여 전체 감성 지수를 바탕으로 계산된 사용자의 감성 동향이 적절하게 분석됨을 사용자의 실제 생활과의 비교를 통하여 보인다.

.NET하에서의 웹인터폰 응용에 대한 연구 (A Study on the Application of WebInterphone Under the .NET Environment)

  • 이정훈;강성천;이윤호;노용덕
    • 정보처리학회논문지D
    • /
    • 제14D권2호
    • /
    • pp.235-240
    • /
    • 2007
  • 웹인터폰(WebInterphone)은 Web과 Interphone의 임시 합성어이며, 웹인터폰 시스템은 호출자와 피호출자가 같은 장소에 있어야만 하는 인터폰의 단점을 보완하고 확장성을 높인 .NET 환경하에서 개발한 새로운 HW/SW 통합 솔루션이다. 웹인터폰 시스템은 웹인터폰과 가정의 PC를 인터넷과 연결하여 집주인의 위치에 상관없이 메신저를 통해 집주인과 방문객과의 실시간 커뮤니케이션을 가능하게 한다. 여기서는 웹인터폰 시스템의 구성과 작동 프로세스를 보인다.

Motion Ontology를 이용한 비디오내 객체 움직임의 의미표현 (Semantic Representation of Moving Objectin Video Data Using Motion Ontology)

  • 신주현;김판구
    • 한국멀티미디어학회논문지
    • /
    • 제10권1호
    • /
    • pp.117-127
    • /
    • 2007
  • 멀티미디어 데이터의 활용가치가 높아짐에 따라 멀티미디어 정보의 의미적인 인식과 검색 방법에 대한 필요성이 증대되고 있다. 본 논문에서는 비디오 내 이벤트에 대한 객체 움직임 요소간의 의미표현을 위해 모션 온톨로지(Motion Ontology)를 구축하고 적용한다. 본 연구에서 제안한 방법은 워드넷(WordNet)내 동사어휘들 중 장소 이동이나 방향등과 같이 움직임을 잘 표현하는 동사들에 대해 분류하여 계층구조로 표현하고, 또한 이를 OWL/RDF(S)로 작성한다. 이는 온톨로지(Ontology)의 IS-A관계와 동의어관계가 가진 특징을 이용한 추론을 위함이며, 온톨로지(Ontology)에 기반하여 비디오 데이터를 인덱싱함으로써, 의미적 표현을 가능하게 한다. 본 연구에서 비디오 데이터에 대하여 의미적 검색을 수행한 결과, 기존 키워드 기반 검색에 비해 정확률 측면에서 약 10% 정도 향상되었다.

  • PDF

자연어처리 모델을 이용한 이커머스 데이터 기반 감성 분석 모델 구축 (E-commerce data based Sentiment Analysis Model Implementation using Natural Language Processing Model)

  • 최준영;임희석
    • 한국융합학회논문지
    • /
    • 제11권11호
    • /
    • pp.33-39
    • /
    • 2020
  • 자연어 처리 분야에서 번역, 형태소 태깅, 질의응답, 감성 분석등 다양한 영역의 연구가 활발히 진행되고 있다. 감성 분석 분야는 Pretrained Model을 전이 학습하여 단일 도메인 영어 데이터셋에 대해 높은 분류 정확도를 보여주고 있다. 본 연구에서는 다양한 도메인 속성을 가지고 있는 이커머스 한글 상품평 데이터를 이용하고 단어 빈도 기반의 BOW(Bag Of Word), LSTM[1], Attention, CNN[2], ELMo[3], KoBERT[4] 모델을 구현하여 분류 성능을 비교하였다. 같은 단어를 동일하게 임베딩하는 모델에 비해 문맥에 따라 다르게 임베딩하는 전이학습 모델이 높은 정확도를 낸다는 것을 확인하였고, 17개 카테고리 별, 모델 성능 결과를 분석하여 실제 이커머스 산업에서 적용할 수 있는 감성 분석 모델 구성을 제안한다. 그리고 모델별 용량에 따른 추론 속도를 비교하여 실시간 서비스가 가능할 수 있는 모델 연구 방향을 제시한다.

한국어 어휘의미망 "KorLex 1.5"의 구축 (Construction of Korean Wordnet "KorLex 1.5")

  • 윤애선;황순희;이은령;권혁철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권1호
    • /
    • pp.92-108
    • /
    • 2009
  • 1980년대 중반부터 지난 20여 년간 구축해 온 영어 워드넷(PWN)은 인간의 심상어휘집을 재현하려는 목적으로 개발되기 시작하였으나, 그 활용 가능성에 주목한 것은 자연언어처리와 지식공학 분야다. 컴퓨터 매개 의사소통(CMC), 인간-컴퓨터 상호작용(HCI)에서 인간 언어를 자연스럽게 사용하여 필요한 정보를 획득하기 위해서는 의미와 지식의 처리가 필수적인데, 그 해결의 실마리를 어휘라는 실체를 가진 언어단위에서 찾을 수 있기 때문이다. 이후 전 세계적으로 약 50개 언어의 어휘의미망이 PWN을 참조모델로 구축되어 다국어처리의 기반을 제공할 뿐 아니라, 시맨틱 웹 이후 더욱 주목받고 다양한 방식으로 활용되고 있다. 이 논문은 PWN을 참조 모텔로 2004년부터 2007년까지 구축한 한국어 어휘의미망 KorLex 1.5를 소개하는 데 있다. 현재 KorLex는 명사, 동사, 형용사, 부사 및 분류사로 구성되며, 약 13만 개의 신셋과 약 15만 개의 어의를 포함하고 있다.