• 제목/요약/키워드: word-net

검색결과 258건 처리시간 0.023초

웹 검색을 활용한 워드넷에서의 IT 전문 용어 확장 (Wordnet Extension for IT terminology Using Web Search)

  • 박경국;이광모;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.189-193
    • /
    • 2007
  • 본 연구에서는 기존 워드넷에 등록되지 않은 IT 전문 용어와 같은 신규 용어들을 웹 검색을 사용하여 워드넷에 추가 시켜 확장시키는 설계를 하였다. 워드넷은 단어 간의 관계를 표현하는 어휘 사전이지만 일반적인 단어들로 구성되어 있고 새로이 등장하는 전문 용어는 포함하지 않는 경우가 많아 이러한 용어들을 새로이 워드넷에 등록함으로써 워드넷을 확장해야 한다. 이 작업은 웹 검색 결과를 분석하여 이 용어와 관련 깊은 용어들을 찾아서 워드넷에 없는 용어들을 워드넷에 추가시킴으로써 이루어 진다. 웹 검색 결과 문서를 형태소 분석기를 사용하여 가중치가 높은 순으로 관련 단어들을 찾고 이들 중 워드넷에 등록되어 있는 단어를 찾아 해당 단어의 하의어로 신규 단어의 위치를 배치시킨다.

  • PDF

영어 SentiWordNet을 이용하여 구축한 한국어 감성어휘사전의 성능 평가와 한계 연구 (Performance and Limitations of a Korean Sentiment Lexicon Built on the English SentiWordNet)

  • 신동혁;김새롬;조동희;뉘엔 민디오;박순강;어건주;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.189-194
    • /
    • 2016
  • 본 연구는 다국어 감성사전 및 감성주석 코퍼스 구축 프로젝트인 MUSE 프로젝트의 일환으로 한국어 감성사전을 구축하기 위해 대표적인 영어 감성사전인 SentiWordNet을 이용하여 한국어 감성사전을 구축하는 방법의 의의와 한계점을 검토하는 것을 목적으로 한다. 우선 영어 SentiWordNet의 117,659개의 어휘중에서 긍정/부정 0.5 스코어 이상의 어휘를 추출하여 구글 번역기를 이용해 자동 번역하는 작업을 실시하였다. 그 중에서 번역이 되지 않거나, 중복되는 경우를 제거하고, 언어학 전문가들의 수작업으로 분류해 낸 결과 3,665개의 감성어휘를 획득할 수 있었다. 그러나 이마저도 병명이나 순수 감성어휘로 보기 어려운 사례들이 상당수 포함되어 있어 실제 이를 코퍼스에 적용하여 감성어휘를 자동 판별했을 때에 맛집 코퍼스에서의 재현율(recall)이 긍정과 부정에서 각각 47.4%, 37.7%, IT 코퍼스에서 각각 55.2%, 32.4%에 불과하였다. 이와 더불어 F-measure의 경우, 맛집 코퍼스에서는 긍정과 부정의 값이 각각 62.3%, 38.5%였고, IT 코퍼스에서는 각각 65.5%, 44.6%의 낮은 수치를 보여주고 있어, SentiWordNet 기반의 감성사전은 감성사전으로서의 역할을 수행하기에 충분하지 않은 것으로 나타났다. 이를 통해 한국어 감성사전을 구축할 때에는 한국어의 언어적 속성을 고려한 체계적인 접근이 필요함을 역설하고, 현재 한국어 전자사전 DECO에 기반을 두어 보완 확장중인 SELEX 감성사전에 대해 소개한다.

  • PDF

WordNet기반의 형식개념분석기법을 이용한 사용자태그 분류체계의 구축 (Construction of Hierarchical Classification of User Tags using WordNet-based Formal Concept Analysis)

  • 황석형
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권10호
    • /
    • pp.149-161
    • /
    • 2013
  • 본 논문에서는, 어휘정보를 체계화한 워드넷(WordNet)을 토대로 형식개념분석기법(Formal Concept Analysis)을 사용하여 폭소노미 사용자들의 태그데이터를 분석하여 사용자태그의 분류체계를 구축하기 위한 기법을 제안하였다. 또한, 제안된 기법을 지원하기 위한 도구(TagLighter)의 개발에 대하여 설명하고, 그 유용성을 확인하기 위하여 Bibsonomy.org의 사용자 태그데이터를 대상으로 실시한 실험결과를 기술하였다. TagLighter에 의해 구축된 사용자태그 분류계층구조는 사용자태그에 대한 보다 상세한 이해를 제공하기 때문에, 폭소노미기반 시스템에서의 정보검색과 데이터 분석에 유용하다. 본 논문의 연구결과는, 폭소노미기반의 웹서비스와 소셀네트워크시스템, 시맨틱웹 어플리케이션 등을 대상으로 하는 웹데이터 마이닝분야에 응용할 수 있다.

스토리기반 저작물에서 감정어 분류에 기반한 등장인물의 감정 성향 판단 (Detection of Character Emotional Type Based on Classification of Emotional Words at Story)

  • 백영태
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권9호
    • /
    • pp.131-138
    • /
    • 2013
  • 본 논문에서는 등장인물이 대사에서사용한감정어를 이용하여 등장인물의 감정 유형을 분류하는 방법을 제안하고 성능을 평가한다. 감정 유형은 긍정, 부정, 중립의 3 종류로 분류하며, 등장인물이 사용한 감정어를 누적하여 3 종류의 감정 유형 중에 어디에 속하는지를 파악한다. 대사로부터 감정어를 추출하기 위해 WordNet 기반의 감정어 추출 방법을 제안하고 감정어가 가진 감정 성분을 벡터로 표현하는 방식을 제안한다. WordNet은 영어 단어 간에 상위어와 하위어, 유사어 등의 관계로 연결된 네트워크 구조의 사전이다. 이 네트워크 구조에서 최상위의 감정항목과의 거리를 계산하여 단어별감정량을 계산하여 대사를 30 차원의 감정벡터로 표현한다. 등장인물별로 추출된 감정 벡터 성분들을 긍정, 부정, 중립의 3가지 차원으로 축소하여 표현한 후, 등장인물의 감정 성향이 어떻게 나타나는지를 추출한다. 또한 감정 성향의 추출 성능에 대해 헐리우드 영화 4개의 영화에서 12명의 등장인물을 선정하여 평가하여 제안한 방법의 효율성을 측정하였다. 대사는 영어로 이루어진 대사만을 사용하였다. 추출된 감정 성향 판단 성능은 75%의 정확도로 우수한 추출 성능을 나타내었다.

다양한 합성곱 신경망 방식을 이용한 모바일 기기를 위한 시작 단어 검출의 성능 비교 (Performance comparison of wake-up-word detection on mobile devices using various convolutional neural networks)

  • 김상홍;이보원
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.454-460
    • /
    • 2020
  • 음성인식 기능을 제공하는 인공지능 비서들은 정확도가 뛰어난 클라우드 기반의 음성인식을 통해 동작한다. 클라우드 기반의 음성인식에서 시작 단어 인식은 대기 중인 기기를 활성화하는 데 중요한 역할을 한다. 본 논문에서는 공개 데이터셋인 구글의 Speech Commands 데이터셋을 사용하여 스펙트로그램 및 멜-주파수 캡스트럼 계수 특징을 입력으로 하여 모바일 기기에 대응한 저 연산 시작 단어 검출을 위한 합성곱 신경망의 성능을 비교한다. 본 논문에서 사용한 합성곱 신경망은 다층 퍼셉트론, 일반적인 합성곱 신경망, VGG16, VGG19, ResNet50, ResNet101, ResNet152, MobileNet이며, MobileNet의 성능을 유지하면서 모델 크기를 1/25로 줄인 네트워크도 제안한다.

질의어 의미별 사용자 선호도를 이용한 웹 검색의 성능 향상 (Improving Performance of Web Search using The User Preference in Query Word Senses)

  • 김형일;김준태
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권8호
    • /
    • pp.1101-1112
    • /
    • 2004
  • 본 논문에서는 웹 검색의 성능 향상을 위해 질의어 의미별 사용자 선호도를 이용한 웹 페이지의 가중치 부여 방식을 제안한다. 일반적으로 검색엔진들은 검색 질의어와 웹 페이지의 어휘 비교에 의한 관련도 측정만을 사용하여 웹 페이지의 가중치를 부여한다. 웹과 같이 방대한 자료를 대상으로 검색을 할 경우 유사한 관련도를 가진 검색 결과가 매우 많으므로 어휘 비교만으로는 중요한 웹 페이지를 선별하기 어렵다. 본 논문에서는 질의어의 의미를 구분하도록 워드넷(WordNet)을 이용한 사용자 인터페이스를 구축하고, 사용자의 클릭 수를 각 웹 페이지의 가중치에 누적함으로써 다수 사용자의 검색 행위에 의한 묵시적 평가가 웹 페이지의 검색 순위에 반영되는 검색 시스템을 구현하였다. 클릭수의 누적에 있어서 질의 어 의미별로 가중치를 구분하여 저장함으로써 일반적인 검색엔진보다 정확한 검색이 되었으며, 웹 페이지의 범주별 가중치와 질의어의 의미별 사용자 선호도를 이용함으로써 검색 시스템의 성능을 향상시킬 수 있다는 것을 20개의 어휘에 관련된 41개의 의미들을 대상으로 실험한 결과로 확인하였다.

워드넷을 이용한 문서내에서 단어 사이의 의미적 유사도 측정 (Semantic Similarity Measures Between Words within a Document using WordNet)

  • 강석훈;박종민
    • 한국산학기술학회논문지
    • /
    • 제16권11호
    • /
    • pp.7718-7728
    • /
    • 2015
  • 단어 사이의 의미적 유사성은 많은 분야에 적용 될 수 있다. 예를 들면 컴퓨터 언어학, 인공지능, 정보처리 분야이다. 본 논문에서 우리는 단어 사이의 의미적 유사성을 측정하는 문서 내의 단어 가중치 적용 방법을 제시한다. 이 방법은 워드넷의 간선의 거리와 깊이를 고려한다. 그리고 문서 내의 정보를 기반으로 단어 사이의 의미적 유사성을 구한다. 문서 내의 정보는 단어의 빈도수와 단어의 의미 빈도수를 사용한다. 문서 내에서 단어 마다 단어 빈도수와 의미 빈도수를 통해 각 단어의 가중치를 구한다. 본 방법은 단어 사이의 거리, 깊이, 그리고 문서 내의 단어 가중치 3가지를 혼합한 유사도 측정 방법이다. 실험을 통하여 기존의 다른 방법과 성능을 비교하였다. 그 결과 기존 방법에 대비하여 성능의 향상을 가져왔다. 이를 통해 문서 내에서 단어의 가중치를 문서 마다 구할 수 있다. 단순한 최단거리 기반의 방법들과 깊이를 고려한 기존의 방법들은, 정보에 대한 특성을 제대로 표현하지 못했거나 다른 정보를 제대로 융합하지 못했다. 본 논문에서는 최단거리와 깊이 그리고 문서 내에서 단어의 정보량까지 고려하였고, 성능의 개선을 보였다.

영어 트위터 감성 분석을 위한 SentiWordNet 활용 기법 비교 (A Comparative Study on Using SentiWordNet for English Twitter Sentiment Analysis)

  • 강인수
    • 한국지능시스템학회논문지
    • /
    • 제23권4호
    • /
    • pp.317-324
    • /
    • 2013
  • 트위터 감성 분석은 트윗글의 감성을 긍정과 부정으로 분류하는 작업이다. 이 연구에서는 SentiWordNet(SWN) 감성 사전에 기반한 트윗글 감성 분석을 다룬다. SWN은 전체 영어 단어에 대해 단어의 의미별로 긍정, 부정의 감성 강도를 저장해 둔 감성 사전이다. 기존 SWN 기반 감성 분석 연구들은 문서에 출현하는 각 용어의 감성을 SWN으로부터 결정한 다음 이를 바탕으로 문서 전체의 감성을 결정하였는데, 그 방법들이 매우 다양하다. 예를 들어, 한 용어의 감성 결정 시 해당 용어의 SWN 내 의미별 긍정, 부정 감성 강도 차이들의 평균을 계산하거나 긍정과 부정 각각의 감성 강도 평균 혹은 최대값을 구하기도 하며, 문서 전체의 감성을 결정하는 경우에도 문서 내 용어들의 감성 값들에 대해 평균 혹은 최대값을 취하기도 하였다. 또한 SWN 내 형용사, 동사, 명사, 부사의 품사 집합 전체 혹은 특정 부분집합에 대해 위의 감성 결정 작업을 적용하기도 한다. 이처럼 기존 연구에서는 SWN 기반의 다양한 감성 자질 추출 절차가 시도되고 있으나 이들 자질 추출 기법 전반에 대한 성능 비교 연구는 찾기 힘들다. 이 연구에서는 SWN을 트위터 감성 분석에 활용하는 다양한 방법들을 일반화하는 절차들을 소개하고 각 방법들의 성능 비교 및 분석 결과를 제시한다.

WordNet상에서 컬러기반 감성어 관계 생성에 관한 연구 (A Study on Creation of Kansei-Vocabulary Relation associated with color in WordNet)

  • 백선경;조미영;김판구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.568-570
    • /
    • 2004
  • 기존의 컬러 기반 감성시소러스 구축에서는 감성 어휘 관계 생성을 위해 IRI에서 개발한 단색이미지 스케일을 사용하여 컬러를 표현하였다. 그리고 컬러에 따라 연상되는 형용사를 단색 이미지 스케일에 배치하여 형용사 이미지 스케일의 공간관계를 생성하였다 즉, 컬러를 보고 연상되는 이미지를 형용사로 표현하고 색의 고유한 관계를 공간상에 배치하여 컬러 값에 따른 형용사를 매핑하였다. 이는 단순히 컬러의 관계만을 이용한 설정으로 의미적 감성어 표현에는 한계가 있었다. 이에 본 논문에서는 HP사의 'The Meaning of Color'표를 이용하여 컬러에 따른 감성 이미지를 정의하고, 정의된 어휘간의 의미적 표현을 위해 유의어, 동의어 관계 등을 포함한 WordNet 구조를 기반으로 새로운 감성어 관계 생성 방안을 제안한다. 방안을 제안한다.

  • PDF

WordNet과 HTML 태그를 활용한 특정영역 정보의 웹 문서 분류 (Web Document Clustering for Specific Subject Information Using WordNet and HTML Tags)

  • 조은휘;변영태
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2002년도 춘계학술대회
    • /
    • pp.28-32
    • /
    • 2002
  • 웹 상의 많은 정보들 속에서 사용자가 원하는 정보를 찾아내는 일은 쉽지 않다. 사용자가 의도하는 양질의 정보 제공을 위해 특정 영역과 관련한 정보 제공 시스템이 .개발되고 있다. 이전 시스템은 특정 영역 관련 지식베이스를 토대로 하여 웹 문서를 수집해 놓고, 사용자에게 정보를 제공한다. 본 논문에서는 전문 사이트 내에 문서간의 유사성을 토대로 하여 동물 영역에 대한 효과적인 문서 클러스타링(clustering)에 관해 실험하였다. 기존의 방법에서는 문서의 분류나 질의어와 관련한 문서 선택이나 순위 결정이 주로 텀(term)을 바탕으로 하고 있다. 본 논문에서는 각 문서 내의 텀 뿐만 아니라 HTML 태그(tag), 지식베이스에 WordNet의 계층구조를 적용한 data를 활용하고, SVD(Singular Value Decomposition)를 사용하여 문서간의 관계를 밝혀내어 문서 분류 및 수집에 이용하였다. 특정 영역의 전문 문서를 많이 제공하는 사이트에 적용하여 좋은 결과를 볼 수 있었다.

  • PDF