• 제목/요약/키워드: multi-sense word

검색결과 13건 처리시간 0.023초

가중 문맥벡터와 X-means 방법을 이용한 변형 다의어스킵그램 (Modified multi-sense skip-gram using weighted context and x-means)

  • 정현우;이은령
    • 응용통계연구
    • /
    • 제34권3호
    • /
    • pp.389-399
    • /
    • 2021
  • 최근 자연어 처리 문제에서의 단어 임베딩은 아주 큰 주목을 받고 있는 연구 주제이며 스킵그램은 성공적인 단어 임베딩 기법 중 하나이다. 주변단어들 정보를 이용해서 단어들의 의미를 학습하여 단어 임베딩 벡터를 할당하며 텍스트 자료를 효과적으로 분석할 수 있게 한다. 그러나 벡터 공간 모델의 한계로 인해 기본적인 단어 임베딩 방법들은 모든 단어가 하나의 의미를 가지고 있다는 것을 가정한다. 다의어, 즉 하나 이상의 의미를 가진 단어가 실생활에서 존재 하기 때문에 Neelakantan 등 (2014)은 군집분석 기법을 이용하여 다의어의 여러 의미들에 해당하는 의미 임베딩 벡터를 찾기 위해 MSSG (multi-sense skip-gram)를 제안했다. 본 논문에서는 MSSG의 통계적 성능을 개선시킬 수 있는 변형된 MSSG 방법을 제안한다. 먼저, 가중치를 활용한 가중문맥 벡터를 제안한다. 나아가, 군집의 수, 즉 다의어의 의미 수를 자료에서 자동적으로 추정해주는 x-means 방법을 활용한 알고리즘을 제안한다. 본 논문에서 수행한 실증자료를 기반한 모의실험에서 제안한 방법은 기존 방법에 비해 우수한 성능을 보여주었다.

지지벡터기계를 이용한 단어 의미 분류 (Word Sense Classification Using Support Vector Machines)

  • 박준혁;이성욱
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.563-568
    • /
    • 2016
  • 단어 의미 분별 문제는 문장에서 어떤 단어가 사전에 가지고 있는 여러 가지 의미 중 정확한 의미를 파악하는 문제이다. 우리는 이 문제를 다중 클래스 분류 문제로 간주하고 지지벡터기계를 이용하여 분류한다. 세종 의미 부착 말뭉치에서 추출한 의미 중의성 단어의 문맥 단어를 두 가지 벡터 공간에 표현한다. 첫 번째는 문맥 단어들로 이뤄진 벡터 공간이고 이진 가중치를 사용한다. 두 번째는 문맥 단어의 윈도우 크기에 따라 문맥 단어를 단어 임베딩 모델로 사상한 벡터 공간이다. 실험결과, 문맥 단어 벡터를 사용하였을 때 약 87.0%, 단어 임베딩을 사용하였을 때 약 86.0%의 정확도를 얻었다.

The Structure of Polysemy: A study of multi-sense words based on WordNet

  • Lin, Jen-Yi;Yang, Chang-Hua;Tseng, Shu-Chuan;Huang, Chu-Ren
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2002년도 Language, Information, and Computation Proceedings of The 16th Pacific Asia Conference
    • /
    • pp.320-329
    • /
    • 2002
  • The issues in polysemy with respect to the verbs in WordNet will be discussed in this paper. The hypernymy/hyponymy structure of the multiple senses is observed when we try to build a bilingual network for Chinese and English. There are several types of polysemic patterns and a co-hypernym may have the same word form as its subordinates. Fellbaum (2000) dubbed autotroponymy that the verbs linked by mailer relation share the same verb form. However, her syntactic criteria seem not compatible to the hierarchies in WN. Either the criteria or the network should be reconducted. For most verbs in WN 1.7, polysemous relations are unlikely to extend over 3 levels of IS-A relation. Highly polysemous verbs are more complicated and may be involved in certain semantic structures. Semi-automatic sense grouping may be helpful for multimlinguital information retrieveal.

  • PDF

다중-어의 단어 임베딩을 적용한 CNN 기반 원격 지도 학습 관계 추출 모델 (CNN-based Distant Supervision Relation Extraction Model with Multi-sense Word Embedding)

  • 남상하;한기종;김은경;권성구;정유성;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.137-142
    • /
    • 2017
  • 원격 지도 학습은 자동으로 매우 큰 코퍼스와 지식베이스 간의 주석 데이터를 생성하여 기계 학습에 필요한 학습 데이터를 사람의 손을 빌리지 않고 저렴한 비용으로 만들 수 있어, 많은 연구들이 관계 추출 문제를 해결하기 위해 원격 지도 학습 방법을 적용하고 있다. 그러나 기존 연구들에서는 모델 학습의 입력으로 사용되는 단어 임베딩에서 단어의 동형이의어 성질을 반영하지 못한다는 단점이 있다. 때문에 서로 다른 의미를 가진 동형이의어가 하나의 임베딩 값을 가지다 보니, 단어의 의미를 정확히 파악하지 못한채 관계 추출 모델을 학습한다고 볼 수 있다. 본 논문에서는 원격 지도 학습 기반 관계 추출 모델에 다중-어의 단어 임베딩을 적용한 모델을 제안한다. 다중-어의 단어 임베딩 학습을 위해 어의 중의성 해소 모듈을 활용하였으며, 관계 추출 모델은 문장 내 주요 특징을 효율적으로 파악하는 모델인 CNN과 PCNN을 활용하였다. 본 논문에서 제안하는 다중-어의 단어 임베딩 적용 관계추출 모델의 성능을 평가하기 위해 추가적으로 2가지 방식의 단어 임베딩을 학습하여 비교 평가를 수행하였고, 그 결과 어의 중의성 해소 모듈을 활용한 단어 임베딩을 활용하였을 때 관계추출 모델의 성능이 향상된 결과를 보였다.

  • PDF

다중-어의 단어 임베딩을 적용한 CNN 기반 원격 지도 학습 관계 추출 모델 (CNN-based Distant Supervision Relation Extraction Model with Multi-sense Word Embedding)

  • 남상하;한기종;김은경;권성구;정유성;최기선
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.137-142
    • /
    • 2017
  • 원격 지도 학습은 자동으로 매우 큰 코퍼스와 지식베이스 간의 주석 데이터를 생성하여 기계 학습에 필요한 학습 데이터를 사람의 손을 빌리지 않고 저렴한 비용으로 만들 수 있어, 많은 연구들이 관계 추출 문제를 해결하기 위해 원격 지도 학습 방법을 적용하고 있다. 그러나 기존 연구들에서는 모델 학습의 입력으로 사용되는 단어 임베딩에서 단어의 동형이의어 성질을 반영하지 못한다는 단점이 있다. 때문에 서로 다른 의미를 가진 동형이의어가 하나의 임베딩 값을 가지다 보니, 단어의 의미를 정확히 파악하지 못한 채 관계 추출 모델을 학습한다고 볼 수 있다. 본 논문에서는 원격 지도 학습 기반 관계 추출 모델에 다중-어의 단어 임베딩을 적용한 모델을 제안한다. 다중-어의 단어 임베딩 학습을 위해 어의 중의성 해소 모듈을 활용하였으며, 관계 추출 모델은 문장 내 주요 특징을 효율적으로 파악하는 모델인 CNN과 PCNN을 활용하였다. 본 논문에서 제안하는 다중-어의 단어 임베딩 적용 관계추출 모델의 성능을 평가하기 위해 추가적으로 2가지 방식의 단어 임베딩을 학습하여 비교 평가를 수행하였고, 그 결과 어의 중의성 해소 모듈을 활용한 단어 임베딩을 활용하였을 때 관계추출 모델의 성능이 향상된 결과를 보였다.

  • PDF

시맨틱 구문 트리 커널을 이용한 생명공학 분야 전문용어간 관계 식별 및 분류 연구 (A Study on the Identification and Classification of Relation Between Biotechnology Terms Using Semantic Parse Tree Kernel)

  • 최성필;정창후;전홍우;조현양
    • 한국문헌정보학회지
    • /
    • 제45권2호
    • /
    • pp.251-275
    • /
    • 2011
  • 본 논문에서는 단백질 간 상호작용 자동 추출을 위해서 기존에 연구되어 높은 성능을 나타낸 구문 트리 커널을 확장한 시맨틱 구문 트리 커널을 제안한다. 기존 구문 트리 커널의 문제점은 구문 트리의 단말 노드를 구성하는 개별 어휘에 대한 단순 외형적 비교로 인해, 실제 의미적으로는 유사한 두 구문 트리의 커널 값이 상대적으로 낮아지는 현상이며 결국 상호작용 자동 추출의 전체 성능에 악영향을 줄 수 있다는 점이다. 본 논문에서는 두 구문 트리의 구문적 유사도(syntactic similarity)와 어휘 의미적 유사도(lexical semantic similarity)를 동시에 효과적으로 계산하여 이를 결합하는 새로운 커널을 고안하였다. 어휘 의미적 유사도 계산을 위해서 문맥 및 워드넷 기반의 어휘 중의성 해소 시스템과 이 시스템의 출력으로 도출되는 어휘 개념(WordNet synset)의 추상화를 통한 기존 커널의 확장을 시도하였다. 실험에서는 단백질 간 상호작용 추출(PPII, PPIC) 성능의 심층적 최적화를 위해서 기존의 SVM에서 지원되던 정규화 매개변수 외에 구문 트리 커널의 소멸인자와 시맨틱 구문 트리 커널의 어휘 추상화 인자를 새롭게 도입하였다. 이를 통해 구문 트리 커널을 적용함에 있어서 소멸인자 역할의 중요성을 확인할 수 있었고, 시맨틱 구문 트리 커널이 기존 시스템의 성능향상에 도움을 줄 수 있음을 실험적으로 보여주었다. 특히 단백질 간 상호작용식별 문제보다도 비교적 난이도가 높은 상호작용 분류에 더욱 효과적임을 알 수 있었다.

32비트 RISC/DSP CPU를 위한 고속 3포트 레지스터 파일의 설계 (High Speed Triple-port Register File for 32-bit RISC/DSP Processors)

  • 고재명;유동렬
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1998년도 추계종합학술대회 논문집
    • /
    • pp.1165-1168
    • /
    • 1998
  • This paper describes a 72-word by 32-bit 2-read/1-write multi-port register file, which is suitable for 32-bit RISC/DSP microprocessors. To minimize area and achieve high speed, advanced single-ended sense amplifiers are used. Each part of circuit is optimized at transistor level. The verification of functionality and timing is performed using HSPICE simulations. After modeling and validating the circuit at transistor level, it was laid out in a 0.6um 1-poly 3-metal layer CMOS technology. The simulation results show maximum operating frequency is 179MHz in worst case conditions. It contains 27,326 transistors and the size is 3.02mm by 2.20mm.

  • PDF

다층 퍼셉트론의 층별 학습을 위한 중간층 오차 함수 (A New Hidden Error Function for Layer-By-Layer Training of Multi layer Perceptrons)

  • 오상훈
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2005년도 추계 종합학술대회 논문집
    • /
    • pp.364-370
    • /
    • 2005
  • 다층 퍼셉트론의 학습을 빠르게 하기 위한 방법으로 층별 학습이 제안되었었다. 이 방법에서는 각 층별로 주어진 오차함수를 최적화 방법을 사용하여 감소시키도록 학습이 이루어진다. 이 경우 중간층 오차함수가 학습의 성능에 큰 영향을 미치는 데, 이 논문에서는 층별 학습의 성능을 개선하기 위한 중간층 오차함수를 제안한다. 이 중간층 오차함수는 출력층 오차함수에서 중간층 가중치의 학습에 관계된 성분을 유도하는 형태로 제안된다. 제안한 방법은 필기체 숫자 인식과 고립단어인식 문제의 시뮬레이션으로 효용성을 확인하였다.

  • PDF

다수 미사일의 공격에 대한 복합취약 표적의 생존확률에 대한 연구 (A Study on a Method for Computing the Kill/Survival 6Probability of Vulnerable Target)

  • 황흥석
    • 한국국방경영분석학회지
    • /
    • 제22권2호
    • /
    • pp.200-214
    • /
    • 1996
  • In this paper, the problem of determining the probability of kill(or survival) of a vulnerable target by one or more missiles is considered. The general formulas are obtained for the kill or survival probability the target is killed or survival. Several well-known concepts such as those of vulnerability, lethality, multi-component target, and a general combinatorial theorem of probability are introduced and used. For the convenience in this paper, the word missile is used in a very general sense and the target is generally taken to be a point target. And, this paper, is concentrated primarily with the probabilistic aspects of the problem, also a general numerical procedures are also described. Two examples are shown to illustrate the use of some of the formulas in this study, but also illustrate a few points which may not have been sufficiently emphasized. The extension study to complete a software package will be followed.

  • PDF

공동주택 주거환경의 어메니티 중요인자에 관한 연구 (The Study on the Important Factors of the Amenity in Multi-Family Housing Estates)

  • 이재준
    • 한국조경학회지
    • /
    • 제26권3호
    • /
    • pp.118-133
    • /
    • 1998
  • The residents, living in multi-family housing, prefer to have healthy and natural outdoor environmental for better human and environment quality. Thus, providing the high qulity of amenity has become a popular word in site planning and housing developments field. However, the scope and definition of amenity have not yet clearly identified and it becomes and issue in planning and development field. The purpose of this study isto examine and to evaluate the amenity and its implicationi for site planning so that analysis methods such as to interview and survey with residents were carried out. The results of this study are summarized below; The amenity of residential environment means total environmental quality to the residents in a broad sense. Abundent green environment would be very important factor to increase the amenity of residential environment so that the expansion of green field would improve the quality of multifamily housing. The expansion of green environment and biotope was the most important factor to increase the symbiosis system between residents and outdoor environment. And the amenity should be conformed to the certain standand of environmental quality and the high quality of amenity would be increased significantly in the future for residental developments. Thus, it should be accomplished by preparing practical methods in means of discriminative strategy products planning principle.

  • PDF