Search | Korea Science

Grammatical morphemes' effect on Korean word vector generation (형식형태소가 한국어 단어 벡터 생성에 미치는 영향)

Youn, Junyoung;Kim, Dowon;Min, Tae Hong;Lee, Jae Sung
- Annual Conference on Human and Language Technology
- /
- 2017.10a
- /
- pp.179-183
- /
- 2017
단어 벡터는 단어 사이의 관계를 벡터 연산으로 가능하게 할 뿐 아니라, 상위의 신경망 프로그램의 사전학습 데이터로 많이 활용되고 있다. 한국어 어절은 생산적인 조사나 어미 때문에 효율적인 단어 벡터 생성이 어려워 대개 실질형태소만을 사용하여 한국어 단어 벡터를 생성한다. 본 논문에서는 실질형태소와 형식형태소를 모두 사용하되, 형식형태소를 적절하게 분류하여 단어 벡터의 성능을 높이는 방법을 제안한다. 자체 구축한 단어 관계 테스트 집합으로 추출 성능을 평가해 본 결과, 제안한 방법으로 형식형태소를 사용할 경우, 성능이 향상되었다.
PDF

Grammatical morphemes' effect on Korean word vector generation (형식형태소가 한국어 단어 벡터 생성에 미치는 영향)

Youn, Junyoung;Kim, Dowon;Min, Tae Hong;Lee, Jae Sung
- 한국어정보학회:학술대회논문집
- /
- 2017.10a
- /
- pp.179-183
- /
- 2017
단어 벡터는 단어 사이의 관계를 벡터 연산으로 가능하게 할 뿐 아니라, 상위의 신경망 프로그램의 사전학습 데이터로 많이 활용되고 있다. 한국어 어절은 생산적인 조사나 어미 때문에 효율적인 단어 벡터 생성이 어려워 대개 실질형태소만을 사용하여 한국어 단어 벡터를 생성한다. 본 논문에서는 실질형태소와 형식형태소를 모두 사용하되, 형식형태소를 적절하게 분류하여 단어 벡터의 성능을 높이는 방법을 제안한다. 자체 구축한 단어 관계 테스트 집합으로 추출 성능을 평가해 본 결과, 제안한 방법으로 형식형태소를 사용할 경우, 성능이 향상되었다.
PDF

Learning-based Word Segmentation for Text Document Recognition (텍스트 문서 인식을 위한 학습 기반 단어 분할)

Lomaliza, Jean-Pierre;Moon, Kwang-Seok;Park, Hanhoon
- Proceedings of the Korean Society of Broadcast Engineers Conference
- /
- 2018.06a
- /
- pp.41-42
- /
- 2018
텍스트 문서 영상으로부터 단어를 검출하고, LLAH(locally likely arrangement hashing) 알고리즘을 이용하여 이웃 단어 사이의 기하 관계를 표현하는 특징 벡터를 계산한 후, 특징 벡터를 비교함으로써 텍스트 문서를 효과적으로 인식하거나 검색할 수 있다. 그러나, 이는 문서 내 각 단어가 정확하고 강건하게 검출된다는 전제를 필요로 한다. 본 논문에서는 텍스트 내 각 라인을 검출하고, 각 라인 내에서 단어 사이의 간격과 글자 사이의 간격을 깊은 신경망(deep neural network)을 이용하여 학습하고 분류함으로써, 보다 카메라와 텍스트 문서 사이의 거리나 방향이 동적으로 변하는 조건에서 각 단어를 강건하게 검출하는 방법을 제안한다. 모바일 환경에서 제안된 방법을 구현하였으며, 실험을 통해 단어 사이의 간격과 글자 사이의 간격을 92.5%의 정확도로 구별할 수 있으며, 이를 통해 동적인 환경에서 단어 검출의 강건성을 크게 개선할 수 있음을 확인하였다.
PDF

Improvement of Graphic User Interface for Motion Database of Sign Language Avatar (수화 아바타의 동작 데이터베이스를 위한 그래픽 사용자 인터페이스의 개선)

Oh, Young-Joon;Park, Kwang-Hyun;Jung, Seong-Hoon;Jang, Hyo-Young;Bien, Zeung-Nam
- 한국HCI학회:학술대회논문집
- /
- 2007.02a
- /
- pp.851-856
- /
- 2007
수화는 청각장애인이 주로 사용하는 시각적인 언어이다. OpenGL 기반의 가상현실 공간을 배경으로 하여 청각장애인들이 쉽게 이해할 수 있는 수화 아바타의 움직임을 구현하기 위해, 본 논문에서는 수화 동작 데이터베이스를 구축하는 그래픽 사용자 인터페이스를 개발한다. 개발한 시스템에서는 아바타의 사실적인 표현과 친근감을 강조하기 위해 3D MAX 기반의 인체 아바타 모델의 픽셀 값을 ASE를 사용하여 C언어 코드로 변환함으로써 인간과 거의 비슷한 모델을 생성하였다. 손 모양 편집프로그램은 슬라이드 바를 사용하여 21개의 손 관절 각도를 조정할 수 있으며, 손 모양 코드번호와 손 모양 이름을 지정하여 수화단어 편집프로그램에서 사용하는 손 모양 데이터 형식으로 저장할 수 있다. 수화단어 편집프로그램은 수화단어 데이터 형식의 값을 설정하는 기능과 함께 손 모양 대칭복사, 검색, 추가, 수정, 삭제 기능을 제공함으로써 사용자가 손 모양을 쉽게 편집할 수 있도록 하였다. 손 모양 편집프로그램과 수화단어 편집프로그램을 사용하여 구성한 데이터베이스를 기반으로 수화 아바타가 가상현실 공간에서 인간과 유사한 움직임을 표현할 수 있도록 하였다.
PDF

Triplet loss based domain adversarial training for robust wake-up word detection in noisy environments (잡음 환경에 강인한 기동어 검출을 위한 삼중항 손실 기반 도메인 적대적 훈련)

Lim, Hyungjun;Jung, Myunghun;Kim, Hoirin
- The Journal of the Acoustical Society of Korea
- /
- v.39 no.5
- /
- pp.468-475
- /
- 2020
A good acoustic word embedding that can well express the characteristics of word plays an important role in wake-up word detection (WWD). However, the representation ability of acoustic word embedding may be weakened due to various types of environmental noise occurred in the place where WWD works, causing performance degradation. In this paper, we proposed triplet loss based Domain Adversarial Training (tDAT) mitigating environmental factors that can affect acoustic word embedding. Through experiments in noisy environments, we verified that the proposed method effectively improves the conventional DAT approach, and checked its scalability by combining with other method proposed for robust WWD.
https://doi.org/10.7776/ASK.2020.39.5.468 인용 PDF KSCI

Word Sense Classification Using Support Vector Machines (지지벡터기계를 이용한 단어 의미 분류)

Park, Jun Hyeok;Lee, Songwook
- KIPS Transactions on Software and Data Engineering
- /
- v.5 no.11
- /
- pp.563-568
- /
- 2016
The word sense disambiguation problem is to find the correct sense of an ambiguous word having multiple senses in a dictionary in a sentence. We regard this problem as a multi-class classification problem and classify the ambiguous word by using Support Vector Machines. Context words of the ambiguous word, which are extracted from Sejong sense tagged corpus, are represented to two kinds of vector space. One vector space is composed of context words vectors having binary weights. The other vector space has vectors where the context words are mapped by word embedding model. After experiments, we acquired accuracy of 87.0% with context word vectors and 86.0% with word embedding model.
https://doi.org/10.3745/KTSDE.2016.5.11.563 인용 PDF KSCI

Word Embedding using word position information (단어의 위치정보를 이용한 Word Embedding)

Hwang, Hyunsun;Lee, Changki;Jang, HyunKi;Kang, Dongho
- Annual Conference on Human and Language Technology
- /
- 2017.10a
- /
- pp.60-63
- /
- 2017
자연어처리에 딥 러닝을 적용하기 위해 사용되는 Word embedding은 단어를 벡터 공간상에 표현하는 것으로 차원축소 효과와 더불어 유사한 의미의 단어는 유사한 벡터 값을 갖는다는 장점이 있다. 이러한 word embedding은 대용량 코퍼스를 학습해야 좋은 성능을 얻을 수 있기 때문에 기존에 많이 사용되던 word2vec 모델은 대용량 코퍼스 학습을 위해 모델을 단순화 하여 주로 단어의 등장 비율에 중점적으로 맞추어 학습하게 되어 단어의 위치 정보를 이용하지 않는다는 단점이 있다. 본 논문에서는 기존의 word embedding 학습 모델을 단어의 위치정보를 이용하여 학습 할 수 있도록 수정하였다. 실험 결과 단어의 위치정보를 이용하여 word embedding을 학습 하였을 경우 word-analogy의 syntactic 성능이 크게 향상되며 어순이 바뀔 수 있는 한국어에서 특히 큰 효과를 보였다.
PDF

Word Embedding using word position information (단어의 위치정보를 이용한 Word Embedding)

Hwang, Hyunsun;Lee, Changki;Jang, HyunKi;Kang, Dongho
- 한국어정보학회:학술대회논문집
- /
- 2017.10a
- /
- pp.60-63
- /
- 2017
자연어처리에 딥 러닝을 적용하기 위해 사용되는 Word embedding은 단어를 벡터 공간상에 표현하는 것으로 차원축소 효과와 더불어 유사한 의미의 단어는 유사한 벡터 값을 갖는다는 장점이 있다. 이러한 word embedding은 대용량 코퍼스를 학습해야 좋은 성능을 얻을 수 있기 때문에 기존에 많이 사용되던 word2vec 모델은 대용량 코퍼스 학습을 위해 모델을 단순화 하여 주로 단어의 등장 비율에 중점적으로 맞추어 학습하게 되어 단어의 위치 정보를 이용하지 않는다는 단점이 있다. 본 논문에서는 기존의 word embedding 학습 모델을 단어의 위치정보를 이용하여 학습 할 수 있도록 수정하였다. 실험 결과 단어의 위치정보를 이용하여 word embedding을 학습 하였을 경우 word-analogy의 syntactic 성능이 크게 향상되며 어순이 바뀔 수 있는 한국어에서 특히 큰 효과를 보였다.
PDF

Automatic Text Categorization Using Term Information of Anchor Text (Anchor Text의 단어 정보를 이용한 자동 문서 범주화)

Heo, Hee-keun;Han, Gi-deok;Jung, Sung-won;Lim, Sung-shin;Kwon, Hyuk-chul
- Proceedings of the Korea Information Processing Society Conference
- /
- 2004.05a
- /
- pp.665-668
- /
- 2004
최근의 웹 문서는 텍스트뿐만 아니라 이미지, 사운드 등 다른 여러 형태로 표현되고 있어서 텍스트의 비중이 낮아지고 있다. 그래서 문서 내에서 일정량 이상의 단어 추출이 어려운 문서들에 대해서 기존의 단어 정보만을 이용한 문서 범주화 방법은 좋은 성능을 기대할 수 없다. 그래서 본 논문은 Anchor Text 단어 정보의 자질 적합성 판단에 의한 새로운 자동 문서 범주화 모델을 제안한다. 문서 범주화 모델로는 베이지언 확률 모델을 이용하였으며, 카이제곱 통계량을 사용하여 자질을 선정하였다. 문서 내에서 추출된 단어 자질들이 해당 문서를 판단하는데 부족하다고 판단되면 문서의 링크정보를 이용하여 연결된 문서의 단어 자질과 Anchor Text의 단어 자질을 반영함으로써 성능을 향상시킨다.
PDF

A Semantic Similarity Decision Using Ontology Model Base On New N-ary Relation Design (새로운 N-ary 관계 디자인 기반의 온톨로지 모델을 이용한 문장의미결정)

Kim, Su-Kyoung;Ahn, Kee-Hong;Choi, Ho-Jin
- Journal of the Korean Society for information Management
- /
- v.25 no.4
- /
- pp.43-66
- /
- 2008
Currently be proceeded a lot of researchers for 'user information demand description' for interface of an information retrieval system or Web search engines, but user information demand description for a natural language form is a difficult situation. These reasons are as they cannot provide the semantic similarity that an information retrieval model can be completely satisfied with variety regarding an information demand expression and semantic relevance for user information description. Therefore, this study using the description logic that is a knowledge representation base of OWL and a vector model-based weight between concept, and to be able to satisfy variety regarding an information demand expression and semantic relevance proposes a decision way for perfect assistances of user information demand description. The experiment results by proposed method, semantic similarity of a polyseme and a synonym showed with excellent performance in decision.
https://doi.org/10.3743/KOSIM.2008.25.4.043 인용 PDF

Search Result 568, Processing Time 0.031 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)