• 제목/요약/키워드: 단어 군집화

검색결과 81건 처리시간 0.02초

텍스트 마이닝을 이용한 공군 부사관 지원자 자기소개서의 차별적 특성 분석 (Analyzing the discriminative characteristic of cover letters using text mining focused on Air Force applicants)

  • 권혁;김우주
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.75-94
    • /
    • 2021
  • 저출산 문제로 인한 병역자원 감소와 병 복무기간 단축에 따른 군 간부 대비 병 복무 선호 현상은 우수한 군 간부확보정책에 대한 추가적인 고찰을 필요로 한다. 이와 관련된 연구들은 대부분 사회과학에서 주로 사용되는 방법론으로 분석하였으나, 본 연구는 대량의 문헌조사에 적합한 텍스트 마이닝의 방법론으로 접근한다. 이를 위해, 본 연구는 공군 부사관 지원자 자기소개서에서 차별적인 특성의 단어들을 추출하고 합격 및 불합격의 극성을 분석한다. 본 연구는 총 3단계로 이루어졌다. 첫번째, 지원분야를 일반분야와 기술분야로 나누고, 자기소개서에서 특성을 가지는 단어들을 분야별 빈도수 비율의 차이대로 순서화 한다. 각 지원분야별 비율의 차이가 클수록 해당 지원분야의 특성을 나타내는 것으로 정의하였다. 두번째, 이 특성을 나타내는 단어들을 LDA를 통해 단어들의 Topic을 군집화하고 이를 바탕으로 Label을 정의하였다. 세번째, 이 군집화 된 지원분야별 단어들을 L-LDA를 통해 합격과 불합격의 극성을 분석하였다. L-LDA값의 차이가 합격에 가까울수록 합격자들이 많이 사용하는 단어로 정의하였다. 본 연구를 통해, 공군 부사관 자기소개서의 차별적 특성을 추출하기에는 LDA보다 L-LDA가 더 적합함을 알 수 있다. 또한, 이러한 방법론은 별도의 서면 또는 대면 설문 방식이 아니라, 대량 문서에 대한 텍스트 마이닝 기법을 적용하여 분석시간을 단축하고, 전체 모집단에 대한 신뢰성을 높일 수 있다. 따라서 본 연구인 공군 부사관 선발결과 분석을 통해, 선발제도 및 홍보제도에 활용 가능한 정보를 제공하고, 군 인력획득 분야 연구에 있어 활용 가능한 방법론을 제안하고자 한다.

동시출현단어 분석 기반 오픈 액세스 분야 지적구조에 관한 연구 (Domain Analysis on the Field of Open Access by Co-Word Analysis)

  • 서선경;정은경
    • 한국비블리아학회지
    • /
    • 제24권1호
    • /
    • pp.207-228
    • /
    • 2013
  • 학술 커뮤니케이션의 변화로 인해 오픈 액세스 분야는 상대적으로 최근에 많은 연구가 이루어지고 있다. 본 연구는 동시출현단어 분석을 사용하여 오픈 액세스 분야의 지적구조를 규명하여 연구동향을 제시하고자 하였다. 이를 위해서 데이터 수집은 Web of Science 기반으로 수행하였다. 검색 대상 기간은 1998년 1월 1일부터 2012년 7월 31일까지이며, Topic검색을 통하여 총 479건의 저널 논문을 수집하였다. 총 479건의 저널 논문 제목과 초록에서 명사구 형태의 키워드는 총 8,643개(문헌 당 18.04개)를 추출하였다. 오픈 액세스 분야의 지적구조 규명을 위해 첫째, 네트워크 분석을 통하여 18개의 세부 주제 영역을 밝혔으며, 오픈 액세스 분야 키워드들의 지적 관계를 시각화하여, 키워드 관계, 중심성 분석을 통한 전역 중심 키워드와 지역 중심이 높은 키워드를 제시하였다. 둘째, 군집분석을 실시하여 형성된 4개의 군집을 MDS지도에 표시하였으며, 각 키워드들 간의 상관관계에 따른 지적구조를 제시하였다. 이러한 연구의 결과는 오픈 액세스 분야의 지적구조를 밝히며, 향후 연구 방향성 모색에 유용하게 사용될 수 있을 것으로 기대한다.

단어 유사도를 이용한 뉴스 토픽 추출 (News Topic Extraction based on Word Similarity)

  • 김동욱;이수원
    • 정보과학회 논문지
    • /
    • 제44권11호
    • /
    • pp.1138-1148
    • /
    • 2017
  • 토픽 추출은 문서 집합으로부터 그 문서 집합을 대표하는 토픽을 자동 추출하는 기술이며 자연어 처리의 중요한 연구 분야이다. 대표적인 토픽 추출 방법으로는 잠재 디리클레 할당과 단어 군집화 기반 토픽 추출방법이 있다. 그러나 이러한 방법의 문제점으로는 토픽 중복 문제와 토픽 혼재 문제가 있다. 토픽 중복 문제는 특정 토픽이 여러 개의 토픽으로 추출되는 문제이며, 토픽 혼재 문제는 추출된 하나의 토픽 내에 여러 토픽이 혼재되어 있는 문제이다. 이러한 문제를 해결하기 위하여 본 연구에서는 토픽 중복 문제에 대해 강건한 잠재 디리클레 할당으로 토픽을 추출하고 단어 간 유사도를 이용하여 토픽 분리 및 토픽 병합의 단계를 거쳐 최종적으로 토픽을 보정하는 방법을 제안한다. 실험 결과 제안 방법이 잠재 디리클레 할당 방법에 비해 좋은 성능을 보였다.

시맨틱 네트워크를 통한 문학작품 속 인물과 의상의 관계 -소설 「노르웨이의 숲」- (The Relationship Between Character and Costume in literary Work using Semantic networks -The novel 「Norwegian Wood」-)

  • 최영현;김성은;이규혜
    • 디지털융복합연구
    • /
    • 제19권1호
    • /
    • pp.307-314
    • /
    • 2021
  • 본 연구에서는 시맨틱 네트워크의 원리를 장편소설에 적용하여, 문서 전체의 구조를 파악하고 단어와 단어 간의발현 관계를 알아보고자 했다. 무라카미 하루키의 소설 '노르웨이의 숲'을 분석 대상으로, 등장인물의 상징과 관계, 성격특성, 의상 표현을 네트워크 분석을 통해 분석했다. CNM 군집화 알고리즘을 통해 소설 속 등장인물들의 상징과 인물간의 관계 속성을 확인할 수 있었다. 이에 따라, 소설 속 등장인물의 관계와 인물이 상징하는 잠재적인 의미가 전체 네트워크 구조 내에서 서로 유사한 구조적 특성을 가지며 동일 집단에 나타나고 있음을 확인할 수 있었다. 작가가 의도한 세계관 내에서 만든 등장인물 간의 관계에 대한 묘사나 상징들을 파악할 수 있었다. 인물의 성격, 불안정한 정신상태, 심경 변화가 연결중심성이 높은 함축적인 몇 개의 단어를 통해 나타나고 있었다. 인물의 특성에 따른 의상 표현 역시 인물을 설명하는 단서로 적절하게 연결되는 것을 확인할 수 있었다. 본 연구는 융합연구로써, 문학작품을 대상으로 새로운 방법론을 제시했다는데 학술적 의의가 있다.

자동 범주유창성검사 평가를 향하여: 단어 군집화를 활용한 그룹간 구별 (Towards Automatic Evaluation of Category Fluency Test Performance : Distinguishing Groups using Word Clustering)

  • 이용재;;이희진;박종철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.471-473
    • /
    • 2012
  • The Category Fluency Test (CFT) is a widely used verbal fluency test. The standard measure of scoring the test is the number of distinct words that a subject generates during the test. Recently, other measures have also been proposed to evaluate performance, such as clustering and switching. In this study, we examine clusters and switches can be assessed using word similarity measures. Based on these measures, we can distinguish between subject groups.

sent2dl : 기술논리 SROIQ 기반 기호적 문장 의미 표상에 분산 표상 더하기 (sent2dl : Augmenting Distributional Semantics to Symbolic Sentence Meaning Representation based on Description Logic SROIQ)

  • 신승우;오주민;노형종;이연수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.199-204
    • /
    • 2020
  • 기존의 자연어 의미 표상 방법은 크게 나눠보았을 때 두 가지가 있다. 첫 번째로, 전통적인 기호 기반 의미 표상 방법론이다. 이 방법론들은 논리적이고 해석가능하다는 장점이 있으나, 구축에 시간이 많이 들고 정작 기호 자체의 의미를 더욱 미시적으로 파악하기 어렵다는 단점이 있었다. 반면, 최근 대두된 분산 표상의 경우 단어 하나하나의 의미는 상대적으로 잘 파악하는 반면, 문장 등의 복잡한 구조의 의미를 나타내는 데 있어 상대적으로 약한 측면을 보이며 해석가능하지 않다는 단점이 있다. 본 논문에서는 이 둘의 장점을 섞어서 서로의 단점을 보완하는 새로운 의미 표상을 제안하였으며, 이 표상이 유의미하게 문장의 의미를 담고 있음을 비지도 문장 군집화 문제를 통해 간접적으로 보였다.

  • PDF

빅데이터 분석을 이용한 이러닝 수강 후기 분석 (e-Learning Course Reviews Analysis based on Big Data Analytics)

  • 김장영;박은혜
    • 한국정보통신학회논문지
    • /
    • 제21권2호
    • /
    • pp.423-428
    • /
    • 2017
  • 인터넷과 스마트 기기의 사용량 증가로 인해 다양한 교육정보와 많은 양의 데이터가 생성되어 빠르게 확산되고 있다. 최근 이러닝 이용률이 증가하면서 발생하는 빅데이터를 활용하여 학습자들의 교육 성과와 교육 시스템의 효과성을 극대화 하는 것을 목표로 하는 교육 데이터 관련 연구 분야에 대한 관심이 높아지고 있으며 온라인에서 학습자들이 학습한 수많은 기록과 데이터들이 정보로 쌓이게 된다. 이에 본 논문에서는 이러닝 학습자들이 시스템에 남긴 수강 기록을 기반으로 학습자 현황에 대해 객관적으로 파악할 수 있도록 신경망 알고리즘인 Word2Vec을 적용하여 단어 간 유사도를 구하고 클러스터링 알고리즘을 이용하여 군집화 하였다. Word2vec을 이용하여 학습을 시키면 연관된 의미의 단어가 나타나게 되고 학습을 반복해 나가는 과정에서 점차 가까운 벡터를 지니게 된다. 또한 클러스터 알고리즘을 이용하여 명사, 동사, 형용사, 부사가 중심점에서 최소의 거리를 두고 같은 거리에 위치해 있음을 실험 검증하였다.

대용량 문서 데이터베이스를 위한 효율적인 점진적 문서 클러스터링 기법 (An Effective Incremental Text Clustering Method for the Large Document Database)

  • 강동혁;주길홍;이원석
    • 정보처리학회논문지D
    • /
    • 제10D권1호
    • /
    • pp.57-66
    • /
    • 2003
  • 컴퓨터의 발전과 인터넷의 급속한 발전으로 정보의 양이 폭발적으로 증가하게 되었고 이러한 방대한 양의 정보들은 대부분 문서 형태로 관리되고 있으며, 문서 단위별 표현된 많은 정보들을 효과적으로 관리하고 검색하기 위한 방법의 연구가 필요하게 되었다. 문서 클러스터링은 문서간의 유사도를 바탕으로 서로 연관된 문서들을 군집화하여 문서들을 주제별로 통합하는 방법으로 대용량의 문서들을 자동으로 분류하고, 검색하는 데 있어서 검색의 정확성을 증대시킬 수 있다. 본 논문에서는 새로운 문서의 추가나 기존문서의 삭제로 인하여 군집화 대상이 되는 문서 집합이 점진적으로 변화하는 환경을 위한 점진적 문서 클러스터링 알고리즘을 제안한다. 점진적 문서 클러스터링 알고리즘은 새로운 문서가 추가되었을 경우 문서 전체를 다시 클러스터링하지 않고, 이미 생성된 클러스터들의 구조를 적극적으로 변화시킴으로써 높은 효율성을 제공할 수 있다. 또한, 문서 클러스터링의 정확도를 높이기 위하여 통계적인 기법으로 불용어를 판별하여 제거하는 알고리즘을 제안하고, 문서 클러스터링에서 정확한 단어가중치 산출을 위해 TF$\times$IDF 공식을 수정한 TF$\times$NIDF 공식을 제안한다.

음향 데이터로부터 얻은 확장된 음소 단위를 이용한 한국어 자유발화 음성인식기의 성능 (Performance of Korean spontaneous speech recognizers based on an extended phone set derived from acoustic data)

  • 방정욱;김상훈;권오욱
    • 말소리와 음성과학
    • /
    • 제11권3호
    • /
    • pp.39-47
    • /
    • 2019
  • 본 논문에서는 대량의 음성 데이터를 이용하여 기존의 음소 세트를 확장하여 자유발화 음성인식기의 성능을 향상시키는 방법을 제안한다. 제안된 방법은 먼저 방송 데이터에서 가변 길이의 음소 세그먼트를 추출한 다음 LSTM 구조를 기반으로 고정 길이의 잠복벡터를 얻는다. 그런 다음, k-means 군집화 알고리즘을 사용하여 음향적으로 유사한 세그먼트를 군집시키고, Davies-Bouldin 지수가 가장 낮은 군집 수를 선택하여 새로운 음소 세트를 구축한다. 이후, 음성인식기의 발음사전은 가장 높은 조건부 확률을 가지는 각 단어의 발음 시퀀스를 선택함으로써 업데이트된다. 새로운 음소 세트의 음향적 특성을 분석하기 위하여, 확장된 음소 세트의 스펙트럼 패턴과 세그먼트 지속 시간을 시각화하여 비교한다. 제안된 단위는 자유발화뿐만 아니라, 낭독체 음성인식 작업에서 음소 단위 및 자소 단위보다 더 우수한 성능을 보였다.

대화 데이터셋에서 멘션 경계와 멘션 쌍을 이용한 상호참조해결 파이프라인 모델 (Coreference Resolution Pipeline Model using Mention Boundaries and Mention Pairs in Dialogues)

  • 김담린;박성식;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.307-312
    • /
    • 2022
  • 상호참조해결은 주어진 문서에서 멘션을 추출하고 동일한 개체의 멘션들을 군집화하는 작업이다. 기존 상호참조해결 연구의 멘션탐지 단계에서 진행한 가지치기는 모델이 계산한 점수를 바탕으로 순위화하여 정해진 비율의 멘션만을 상호참조해결에 사용하기 때문에 잘못 예측된 멘션을 입력하거나 정답 멘션을 제거할 가능성이 높다. 또한 멘션 탐지와 상호참조해결을 종단간 모델로 진행하여 학습 시간이 오래 걸리고 모델 복잡도가 높은 문제가 존재한다. 따라서 본 논문에서는 상호참조해결을 2단계 파이프라인 모델로 진행한다. 첫번째 멘션 탐지 단계에서 후보 단어 범위의 점수를 계산하여 멘션을 예측한다. 두번째 상호참조해결 단계에서는 멘션 탐지 단계에서 예측된 멘션을 그대로 이용해서 서로 상호참조 관계인 멘션 쌍을 예측한다. 실험 결과, 2단계 학습 방법을 통해 학습 시간을 단축하고 모델 복잡도를 축소하면서 종단간 모델과 유사한 성능을 유지하였다. 상호참조해결은 Light에서 68.27%, AMI에서 48.87%, Persuasion에서 69.06%, Switchboard에서 60.99%의 성능을 보였다.

  • PDF