• 제목/요약/키워드: 어워드 시스템

검색결과 44건 처리시간 0.02초

한국어 오픈 워드넷 (KWN) : 사전 기반의 반자동 구축 (Open Korean WordNet (KWN): Dictionary-based Semi-Automatic Development)

  • 이인근;황도삼;함영균;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.193-196
    • /
    • 2014
  • 본 논문에서는 사전자원에 기반한 한국어 워드넷(Open Korean WordNet: KWN)의 반자동 구축 방법을 제안한다. 제안한 방법에서는 각 전문분야별로 분류된 영어-한국어 대역사전, 일본어-한국어 대역사전을 이용하여 영어 워드넷(Princeton WordNet 3.0)과 일본어 워드넷(Japanese WordNet 1.1)의 어휘를 번역하였다. 그리고 번역 결과의 애매성을 해소하기 위하여, (1)영어와 일본어에 대한 한국어 대역어의 중복 여부, (2)사전의 분야 정보와 워드넷의 계층구조를 고려하였다. 제안한 방법으로 117,659 개의 워드넷 synset 중 63,221 개(약 54 %)의 synset에 대한 자동번역을 수행하여 한국어 워드넷을 구축하였다. 그리고 워드넷 synset의 정의문은 한국어 사전의 정의문을 참조하여 한글화 할 수 있도록 하고, 이 과정을 지원하기 위한 정의문 추천 알고리즘을 제안한다. 제안한 방법에 기반하여 전문가들이 상호 협력하여 한국어 워드넷을 구축할 수 있는 시스템을 개발한다.

  • PDF

워드 임베딩과 유의어를 활용한 단어 의미 범주 할당 (Assignment Semantic Category of a Word using Word Embedding and Synonyms)

  • 박다솔;차정원
    • 정보과학회 논문지
    • /
    • 제44권9호
    • /
    • pp.946-953
    • /
    • 2017
  • 의미역 결정은 서술어와 논항들 사이의 의미 관계를 결정하는 문제이다. 의미역 결정을 위해 의미 논항 역할 정보와 의미 범주 정보를 사용해야 한다. 세종 전자사전은 의미역을 결정하는데 사용한 격틀 정보가 포함되어 있다. 본 논문에서는 워드 임베딩과 유의어를 활용하여 세종 전자사전을 확장하는 방법을 제시한다. 연관 단어가 유사한 벡터 표현을 갖도록 하기 위해 유의어 사전의 정보를 사용하여 재구성된 벡터를 생성한다. 기존의 워드 임베딩과 재구성된 벡터를 사용하여 동일한 실험을 진행한다. 워드 임베딩을 이용한 벡터로 단어의 세종 전자사전에 나타나지 않은 단어에 대해 의미 범주 할당의 시스템 성능은 32.19%이고, 확장한 의미 범주 할당의 시스템 성능은 51.14%이다. 재구성된 벡터를 이용한 단어의 세종 전자사전에 나타나지 않은 단어에 대해 의미 범주 할당의 시스템 성능은 33.33%이고, 확장한 의미 범주 할당의 시스템 성능은 53.88%이다. 의미 범주가 할당되지 않은 새로운 단어에 대해서 논문에서 제안한 방법으로 의미 범주를 할당하여 세종 전자사전의 의미 범주 단어 확장에 대해 도움이 됨을 증명하였다.

도메인 온톨로지와 워드임베딩을 활용한 영상검색 시스템의 질의어 확장 (Query Expansion of Video Retrieval System using Domain Ontology and Word Embedding)

  • 함경준;곽창욱;김선중
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2017년도 하계학술대회
    • /
    • pp.245-247
    • /
    • 2017
  • 기존 콘텐츠를 활용 및 조합하여 새로운 콘텐츠를 제작하는 개인 사용자가 늘어나고 있는 추세다. 사용자가 원하는 내용이 담긴 영상 콘텐츠를 활용하기 위해서는 이를 지원하는 영상 검색 시스템이 필요하다. 하지만 기존의 영상 검색 시스템은 키워드 매칭을 기반으로 하고 있기 때문에 사용자가 원하는 영상을 찾지 못하는 경우가 많다. 본 연구에서는 이러한 문제를 해결하기 위해 사용자의 검색 의도를 보다 정확하게 표현할 수 있는 질의어 확장 방법을 제시하고 있다. 제시하는 방법은 도메인 온톨로지와 워드 임베딩 결과를 이용하여 질의어와 의미적으로 밀접히 관련된 단어를 추가하고 확장된 질의어를 이용하여 검색을 수행하게 된다. 이를 통해 사용자는 만족할만한 검색 결과를 얻을 수 있게 된다. 구현한 시스템을 이용하여 질의어가 확장되는 과정을 보임으로써 본 연구에서 제시하고 있는 방법에 대한 평가를 수행하였다.

  • PDF

워드넷 기반의 단어 중의성 해소 프레임워크 (A Framework for WordNet-based Word Sense Disambiguation)

  • 임초람;조세형
    • 한국지능시스템학회논문지
    • /
    • 제23권4호
    • /
    • pp.325-331
    • /
    • 2013
  • 본 연구에서는 단어의 의미 중의성을 해소하기 위한 방법을 제안하고 그 결과를 제시한다. 본 연구에서는 워드넷을 두가지 차원에서 활용하였는데, 하나는 사전으로서의 활용이며 다른 하나는 단어간의 개념 계층 구조를 가진 일종의 온톨로지로서 활용하였다. 이 중의성 해소 방식의 장점은 첫째 매우 단순하다는데 있다. 둘째로는 코퍼스를 활용하는 지식 기반/통계 기반 방식이 아니기 때문에 의미 태그 부착된 코퍼스의 부족으로 인한 문제가 발생하지 않는다는 것이다. 현재는 워드넷 온톨로지 중에서 개념 계층 구조, 즉 상위어-하위어 (hypernym-hyponym)의 관계만을 사용하였으나 향후 어렵지 않게 다른 관계들, 즉 유사어(synonym), 반의어(antonym), 부분어(meronym) 등의 관계를 활용하여 확장함으로써 성능의 향상을 기대할 수 있다.

의미 커널과 워드넷을 이용한 주관식 문제 채점 시스템의 설계 및 구현 (Design and Implementation of Short-Essay Marking System by Using Semantic Kernel and WordNet)

  • 조우진;추승우;오정석;김한샘;김유섭;이재영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.1027-1030
    • /
    • 2005
  • 기존 의미커널을 적용한 주관식 채점 시스템은 여러 답안과 말뭉치에서 추출한 색인어들과의 상관관계를 벡터방식으로 표현하여 자연어 처리에 대한 문제를 해결하려 하였다. 본 논문에서는 기존 시스템의 답안 및 색인어의 표현 한계로 인한 유사도 계산오차 가능성에 대한 문제를 해결하고자 시소러스를 이용한 임의 추출 방식의 답안 확장을 적용하였다. 서술형 주관식 평가에서는 문장의 문맥보다는 사용된 어휘에 채점가중치가 높다는 점을 착안, 출제자와 수험자 모두의 답안을 동의어, 유의어 그룹으로 확장하여 채점 성능을 향상시키려 하였다. 우선 두 답안을 형태소 분석기를 이용해 색인어를 추출한 후 워드넷을 이용하여 동의어, 유의어 그룹으로 확장한다. 이들을 말뭉치 색인을 이용하여 단어들 간 상관관계를 측정하기 위한 벡터로 구성하고 의미 커널을 적용하여 정답 유사도를 계산하였다. 출제자의 채점결과와 각 모델의 채점 점수의 상관계수 계산 결과 ELSA 모델이 가장 높은 유사도를 나타내었다..

  • PDF

호주 어워드 시스템과 국내 건설공사 시중노임단가 체계 비교연구 (Comparative Study on Awards System of Australia and Wage Rate in Construction of Korea)

  • 임채연;백승호
    • 한국건축시공학회:학술대회논문집
    • /
    • 한국건축시공학회 2018년도 춘계 학술논문 발표대회
    • /
    • pp.70-71
    • /
    • 2018
  • The labor cost on construction project of Korea is calculated based on the Wage Rate in Construction of Korea which is published by Construction Association of Korea. The Wage Rate in Construction of Korea does not have any variation on the wage following skill level of labor although it has 123 work categories. In addition, the classification on skill level and career of construction labor in Korea does not defined. Therefore, to establish the concept of the classification on skill level and career of construction labor, this study aim to compare the difference between Wage Rate in Construction of Korea with Award system which present grade on skilled labor.

  • PDF

명사 워드넷과 단일어 사전을 이용한 한국어 동사 워드넷 구축 (Construction of Korean Verb Wordnet Using Preexisting Noun Wordnet and Monolingual Dictionary)

  • 이주호;배희숙;김은혜;김혜경;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.92-97
    • /
    • 2002
  • 의미기반 정보 검색, 자연어 질의 응답, 지식 자동 습득, 담화 처리 등 높은 수준의 자연언어처리 시스템에서 의미처리를 위한 대용량의 지식 베이스가 필요하다. 이러한 지식 베이스 중에서 가장 기본적인 것이 워드넷이다. 이러한 워드넷을 이용함으로써 여러 의미 사이의 의미 유사도를 구할 수 있고, 속성을 물려받을 수 있기 때문에 비슷한 속성을 가진 의미들을 한꺼번에 다루는 데 유용하다. 본 논문에서는 기본 어휘를 바탕으로 기존의 명사 워드넷과 단일어 사전을 이용하여 한국어 동사 워드넷을 구축하는 방법을 제시한다. 본 논문에서 1차 작업을 통하여 구축한 동사 워드넷에는 동사 1,757개에 대한 4,717개의 의미(중복을 포함하면 모두 5,235개의 의미)를 포함하고 있으며 특별히 의미가 많이 편중된 14개의 개념에 속한 571개의 의미를 53개의 세부 개념으로 재분류하여 최종적으로 모두 767개의 계층적 개념으로 구성된 동사 워드넷이 만들어 졌다.

  • PDF

워드 임베딩을 이용한 세종 전자사전 확장 (Extension Sejong Electronic Dictionary Using Word Embedding)

  • 박다솔;차정원
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.75-78
    • /
    • 2016
  • 본 논문에서는 워드 임베딩과 유의어를 이용하여 세종 전자사전을 확장하는 방법을 제시한다. 세종 전자사전에 나타나지 않은 단어에 대해 의미 범주 할당의 시스템 성능은 32.19%이고, 확장한 의미 범주 할당의 시스템 성능은 51.14%의 성능을 보였다. 의미 범주가 할당되지 않은 새로운 단어에 대해서도 논문에서 제안한 방법으로 의미 범주를 할당하여 세종 전자사전의 의미 범주 단어 확장에 대해 도움이 됨을 증명하였다.

  • PDF

워드 임베딩을 이용한 세종 전자사전 확장 (Extension Sejong Electronic Dictionary Using Word Embedding)

  • 박다솔;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.75-78
    • /
    • 2016
  • 본 논문에서는 워드 임베딩과 유의어를 이용하여 세종 전자사전을 확장하는 방법을 제시한다. 세종 전자사전에 나타나지 않은 단어에 대해 의미 범주 할당의 시스템 성능은 32.19%이고, 확장한 의미 범주 할당의 시스템 성능은 51.14%의 성능을 보였다. 의미 범주가 할당되지 않은 새로운 단어에 대해서도 논문에서 제안한 방법으로 의미 범주를 할당하여 세종 전자사전의 의미 범주 단어 확장에 대해 도움이 됨을 증명하였다.

  • PDF

한글 워드임베딩과 아프리오리를 이용한 검색 시스템의 질의어 확장 (Query Extension of Retrieve System Using Hangul Word Embedding and Apriori)

  • 신동하;김창복
    • 한국항행학회논문지
    • /
    • 제20권6호
    • /
    • pp.617-624
    • /
    • 2016
  • 한글 워드임베딩은 명사 추출과정을 거치지 않으면, 학습에 필요하지 않은 단어까지 학습하게 되어 효율적인 임베딩 결과를 도출할 수 없다. 본 연구는 한글 워드임베딩, 아프리오리, 텍스트 마이닝을 이용하여, 특정 도메인에서 질의어 확장에 의해 보다 효율적으로 답변을 검색할 수 있는 모델을 제안하였다. 워드임베딩과 아프리오리는 질의어에 대해서 의미와 맥락에 따라 연관 단어를 추출하여, 질의어를 확장하는 단계이다. 한글 텍스트 마이닝은 명사 추출, TF-IDF, 코사인 유사도를 이용하여, 유사답변 추출과 사용자에게 답변하는 단계이다. 제안모델은 특정 도메인의 답변을 학습하고, 연관성 높은 질의어를 확장함으로서 답변의 정확성을 높일 수 있다. 향후 연구과제로서, 데이터베이스에 저장된 사용자 질의를 분석하고, 보다 연관성 높은 질의어를 추출하는 연구가 필요하다.