• 제목/요약/키워드: 문서 군집화

Search Result 93, Processing Time 0.022 seconds

Coreference Resolution Pipeline Model using Mention Boundaries and Mention Pairs in Dialogues (대화 데이터셋에서 멘션 경계와 멘션 쌍을 이용한 상호참조해결 파이프라인 모델)

  • Damrin Kim;Seongsik Park;Harksoo Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.307-312
    • /
    • 2022
  • 상호참조해결은 주어진 문서에서 멘션을 추출하고 동일한 개체의 멘션들을 군집화하는 작업이다. 기존 상호참조해결 연구의 멘션탐지 단계에서 진행한 가지치기는 모델이 계산한 점수를 바탕으로 순위화하여 정해진 비율의 멘션만을 상호참조해결에 사용하기 때문에 잘못 예측된 멘션을 입력하거나 정답 멘션을 제거할 가능성이 높다. 또한 멘션 탐지와 상호참조해결을 종단간 모델로 진행하여 학습 시간이 오래 걸리고 모델 복잡도가 높은 문제가 존재한다. 따라서 본 논문에서는 상호참조해결을 2단계 파이프라인 모델로 진행한다. 첫번째 멘션 탐지 단계에서 후보 단어 범위의 점수를 계산하여 멘션을 예측한다. 두번째 상호참조해결 단계에서는 멘션 탐지 단계에서 예측된 멘션을 그대로 이용해서 서로 상호참조 관계인 멘션 쌍을 예측한다. 실험 결과, 2단계 학습 방법을 통해 학습 시간을 단축하고 모델 복잡도를 축소하면서 종단간 모델과 유사한 성능을 유지하였다. 상호참조해결은 Light에서 68.27%, AMI에서 48.87%, Persuasion에서 69.06%, Switchboard에서 60.99%의 성능을 보였다.

  • PDF

A R&D strategies for development using structured association map (구조화된 연관맵을 이용한 연구개발 전략 수립)

  • Song, Wonho;Lee, Junseok;Park, Sangsung
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.26 no.3
    • /
    • pp.190-195
    • /
    • 2016
  • A technology is continuously developed in a rapidly changing global market. A company requires an appropriate R&D strategy for adapting to this environment. That is, the technologies owned by the company needs to be thoroughly analyzed to improve its competitiveness. Alternatively, technology classification using IPC codes is carried out recently in an objective and quantitative way. International Patent Classification, IPC is an internationally specified classification system, so it is helpful to conduct an objective and quantitative patent analysis of technology. In this study, all of the patents owned by company C are investigated and a matrix representing IPC codes of each patent is created. Then, a structured association map of the patents is made through association rules mining based on Confidence. The association map can be used to inspect the current situation of a company about patents. It also allows highly associated technologies to be clustered. Using the association map, this study analyzes the technologies of company C and how it changes with time. The strategy for future technologies is established based on the result.

News Topic Extraction based on Word Similarity (단어 유사도를 이용한 뉴스 토픽 추출)

  • Jin, Dongxu;Lee, Soowon
    • Journal of KIISE
    • /
    • v.44 no.11
    • /
    • pp.1138-1148
    • /
    • 2017
  • Topic extraction is a technology that automatically extracts a set of topics from a set of documents, and this has been a major research topic in the area of natural language processing. Representative topic extraction methods include Latent Dirichlet Allocation (LDA) and word clustering-based methods. However, there are problems with these methods, such as repeated topics and mixed topics. The problem of repeated topics is one in which a specific topic is extracted as several topics, while the problem of mixed topic is one in which several topics are mixed in a single extracted topic. To solve these problems, this study proposes a method to extract topics using an LDA that is robust against the problem of repeated topic, going through the steps of separating and merging the topics using the similarity between words to correct the extracted topics. As a result of the experiment, the proposed method showed better performance than the conventional LDA method.

Korean Onomatopoeia Clustering for Sound Database (음향 DB 구축을 위한 한국어 의성어 군집화)

  • Kim, Myung-Gwan;Shin, Young-Suk;Kim, Young-Rye
    • Journal of Korea Multimedia Society
    • /
    • v.11 no.9
    • /
    • pp.1195-1203
    • /
    • 2008
  • Onomatopoeia of korean documents is to represent from natural or artificial sound to human language and it can express onomatopoeia language which is the nearest an object and also able to utilize as standard for clustering of Multimedia data. In this study, We get frequency of onomatopoeia in the experiment subject and select 100 onomatopoeia of use to our study In order to cluster onomatopoeia's relation, we extract feature of similarity and distance metric and then represent onomatopoeia's relation on vector space by using PCA. At the end, we can clustering onomatopoeia by using k-means algorithm.

  • PDF

Online VQ Codebook Generation using a Triangle Inequality (삼각 부등식을 이용한 온라인 VQ 코드북 생성 방법)

  • Lee, Hyunjin
    • Journal of Digital Contents Society
    • /
    • v.16 no.3
    • /
    • pp.373-379
    • /
    • 2015
  • In this paper, we propose an online VQ Codebook generation method for updating an existing VQ Codebook in real-time and adding to an existing cluster with newly created text data which are news paper, web pages, blogs, tweets and IoT data like sensor, machine. Without degrading the performance of the batch VQ Codebook to the existing data, it was able to take advantage of the newly added data by using a triangle inequality which modifying the VQ Codebook progressively show a high degree of accuracy and speed. The result of applying to test data showed that the performance is similar to the batch method.

Mention Detection and Coreference Resolution Pipeline Model for Dialogue Data (대화 데이터를 위한 멘션 탐지 및 상호참조해결 파이프라인 모델)

  • Kim, Damrin;Kim, Hongjin;Park, Seongsik;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.264-269
    • /
    • 2021
  • 상호참조해결은 주어진 문서에서 상호참조해결의 대상이 될 수 있는 멘션을 추출하고, 같은 개체를 의미하는 멘션 쌍 또는 집합을 찾는 자연어처리 작업이다. 하나의 멘션 내에 멘션이 될 수 있는 다른 단어를 포함하는 중첩 멘션은 순차적 레이블링으로 해결할 수 없는 문제가 있다. 본 논문에서는 이러한 문제를 해결하기 위해 멘션의 시작 단어의 위치를 여는 괄호('('), 마지막 위치를 닫는 괄호(')')로 태깅하고 이 괄호들을 예측하는 멘션 탐지 모델과 멘션 탐지 모델에서 예측된 멘션을 바탕으로 포인터 네트워크를 이용하여 같은 개체를 나타내는 멘션을 군집화하는 상호참조해결 모델을 제안한다. 실험 결과, 4개의 영어 대화 데이터셋에서 멘션 탐지 모델은 F1-score (Light) 94.17%, (AMI) 90.86%, (Persuasion) 92.93%, (Switchboard) 91.04%의 성능을 보이고, 상호참조해결 모델에서는 CoNLL F1 (Light) 69.1%, (AMI) 57.6%, (Persuasion) 71.0%, (Switchboard) 65.7%의 성능을 보인다.

  • PDF

Analysis of Vocabulary Relations by Dimensional Reduction for Word Vectors Visualization (차원감소 단어벡터 시각화를 통한 어휘별 관계 분석)

  • Ko, Kwang-Ho;Paik, Juryon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.01a
    • /
    • pp.13-16
    • /
    • 2022
  • LSTM과 같은 딥러닝 기법을 이용해 언어모델을 얻는 과정에서 일종의 부산물로 학습 대상인 말뭉치를 구성하는 어휘의 단어벡터를 얻을 수 있다. 단어벡터의 차원을 2차원으로 감소시킨 후 이를 평면에 도시하면 대상 문장/문서의 핵심 어휘 사이의 상대적인 거리와 각도 등을 직관적으로 확인할 수 있다. 본 연구에서는 기형도의 시(詩)을 중심으로 특정 작품을 선정한 후 시를 구성하는 핵심 어휘들의 차원 감소된 단어벡터를 2D 평면에 도시하여, 단어벡터를 얻기 위한 텍스트 전처리 방식에 따라 그 거리/각도가 달라지는 양상을 분석해 보았다. 어휘 사이의 거리에 의해 군집/분류의 결과가 달라질 수 있고, 각도에 의해 유사도/유추 연산의 결과가 달라질 수 있으므로, 평면상에서 핵심 어휘들의 상대적인 거리/각도의 직관적 확인을 통해 군집/분류작업과 유사도 추천/유추 등의 작업 결과의 양상 변화를 확인할 수 있었다. 이상의 결과를 통해, 영화 추천/리뷰나 문학작품과 같이 단어 하나하나의 배치에 따라 그 분위기와 정동이 달라지는 분야의 경우 텍스트 전처리에 따른 거리/각도 변화를 미리 직관적으로 확인한다면 분류/유사도 추천과 같은 작업을 좀 더 정밀하게 수행할 수 있을 것으로 판단된다.

  • PDF

Principal Components Self-Organizing Map PC-SOM (주성분 자기조직화 지도 PC-SOM)

  • 허명회
    • The Korean Journal of Applied Statistics
    • /
    • v.16 no.2
    • /
    • pp.321-333
    • /
    • 2003
  • Self-organizing map (SOM), a unsupervised learning neural network, has been developed by T. Kohonen since 1980's. Main application areas were pattern recognition and text retrieval. Because of that, it has not been spread to statisticians until late. Recently, SOM's are frequently drawn in data mining fields. Kohonen's SOM, however, needs improvements to become a statistician's standard tool. First, there should be a good guideline as for the size of map. Second, an enhanced visualization mode is wanted. In this study, principal components self-organizing map (PC-SOM), a modification of Kohonen's SOM, is proposed to meet such needs. PC-SOM performs one-dimensional SOM during the first stage to decompose input units into node weights and residuals. At the second stage, another one-dimensional SOM is applied to the residuals of the first stage. Finally, by putting together two stages, one obtains two-dimensional SOM. Such procedure can be easily expanded to construct three or more dimensional maps. The number of grid lines along the second axis is determined automatically, once that of the first axis is given by the data analyst. Furthermore, PC-SOM provides easily interpretable map axes. Such merits of PC-SOM are demonstrated with well-known Fisher's iris data and a simulated data set.

The Evaluation Measure of Text Clustering for the Variable Number of Clusters (가변적 클러스터 개수에 대한 문서군집화 평가방법)

  • Jo, Tae-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.233-237
    • /
    • 2006
  • This study proposes an innovative measure for evaluating the performance of text clustering. In using K-means algorithm and Kohonen Networks for text clustering, the number clusters is fixed initially by configuring it as their parameter, while in using single pass algorithm for text clustering, the number of clusters is not predictable. Using labeled documents, the result of text clustering using K-means algorithm or Kohonen Network is able to be evaluated by setting the number of clusters as the number of the given target categories, mapping each cluster to a target category, and using the evaluation measures of text. But in using single pass algorithm, if the number of clusters is different from the number of target categories, such measures are useless for evaluating the result of text clustering. This study proposes an evaluation measure of text clustering based on intra-cluster similarity and inter-cluster similarity, what is called CI (Clustering Index) in this article.

  • PDF

A Study on Shot Change Detection Applying the Law of Inertia (관성의 법칙을 적용시킨 장면 전환 검출에 관한 연구)

  • Kim, Kyong-Wook;Lee, Hyo-Jong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05a
    • /
    • pp.515-518
    • /
    • 2003
  • 멀티미디어 데이터베이스 시스템의 구현 과정 중 제일 첫 번째 단계라 할 수 있는 장면전환의 검출은 비디오 데이터베이스 시스템에서뿐만 아니라 비디오 검출, 비디오 압축 비디오 문서의 군집 화 등 여러 분야에서 유용하게 다루어지고 있고. 또 이미 많은 알고리즘들이 개발되어 있다. 이미 개발되어져 있는 알고리즘들을 구현 비교하는 과정에서, 제시된 알고리즘들은 부분적으로는 장면전환의 정확한 검출을 하고 있으나 잡음이 삽입되거나 특수한 상황에서는 잘못된 견과를 나타내고 있다. 실세계에서 적용되는 뉴턴의 제 1법칙인 관성의 법칙이 지니는 특성을 장면전화 검출에 적용시키고자 하였다. 제시된 알고리즘의 성능을 증명하기 위하여, 본 논문에서는 이미 발표된 여러 알고리즘들의 성능과 관성의 법칙을 적용시킨 알고리즘의 성능을 비교하였다.

  • PDF