• Title/Summary/Keyword: 동시단어 분석

검색결과 188건 처리시간 0.03초

클러스터링을 고려한 다차원척도법의 개선: 군집 지향 척도법 (Improved Multidimensional Scaling Techniques Considering Cluster Analysis: Cluster-oriented Scaling)

  • 이재윤
    • 정보관리학회지
    • /
    • 제29권2호
    • /
    • pp.45-70
    • /
    • 2012
  • 개체들 사이의 관계를 저차원 공간에 매핑하는 다차원척도법을 수행하기 위한 다양한 방법과 알고리즘이 개발되어왔다. 그러나 PROXSCAL이나 ALSCAL과 같은 기존의 기법들은 50개 이상의 개체를 포함하는 데이터 집합을 대상으로 개체 간의 관계와 군집 구조를 시각화하는데 있어서 효과적이지 못한 것으로 나타났다. 이 연구에서 제안하는 군집 지향 척도법 CLUSCAL(CLUster-oriented SCALing)은 기존 방법과 달리 입력되는 데이터의 군집 구조를 고려하도록 고안되었다. 50명의 저자동시인용 데이터와 85개 단어의 동시출현 데이터에 대해서 적용해본 결과 제안한 CLUSCAL 기법은 군집 구조를 잘 식별할 수 있는 MDS 지도를 생성하는 유용한 기법임이 확인되었다.

일화 기억의 의미적 범주화가 세부 기억의 부호화에 미치는 영향에 대한 자기공명영상 분석 연구 (The effect of semantic categorization of episodic memory on encoding of subordinate details: An fMRI study)

  • 이세중;한상훈
    • 인지과학
    • /
    • 제28권4호
    • /
    • pp.193-221
    • /
    • 2017
  • 의미적 연관성을 지닌 일화들의 범주화는 기억을 더 효과적으로 구조화하는데 도움이 된다. 그러나 해당 일화의 하위 세부 기억들에 대한 상기한 범주화의 영향은 아직 명확하게 알려져 있지 않다. 본 연구에서는 fMRI 실험을 통해 의미적 범주화가 이루어지는 동안 상위의 일화 기억에 주의를 기울이는 것이 하위 세부기억의 생성을 방해하는지, 혹은 강화하는지 실험하였다. 참가자들에게 한 사이클 내에서 각각 2개의 하위단어를 가지고 있는 5개의 목표 단어들이 순서대로 제시되었는데, 참가자들은 해당 사이클 내에서 제시된 목표 단어들을 포함할 수 있는 범주를 떠올릴 수 있는지 응답한 후 그 범주에 대한 주관적 확신도를 평정하였다. fMRI 내 과정이 끝난 후 참가자들은 스캐너 밖으로 이동하여 제시되었던 단서 단어의 하위 단어들에 대한 단서 회상과제를 수행하였다. 행동 실험 결과 매 사이클의 세 번째 시행에서 범주화 과제의 반응속도가 감소하였고 동시에 주관적 확신도 수준이 증가하였는데, 이는 해당 시행에서 의미적 범주화가 완성되었음을 의미한다. 주목할 점은 세 번째 시행 바로 직전에 제시되었던 하위 단어들의 회상 정확도가 그 다음 시행 직전에 제시된 단어들에 비해 유의미하게 낮았다는 점이며 이는 범주화가 완성될 때 일화 기억의 하위 세부 요소들이 손상되었음을 의미한다. 일반선형모델을 통한 분석 결과 의미적 범주화가 완성되기 직전의 시행에서 의미적 기억망과 관련이 있는 것으로 알려져 있는 측두회와 하전두회에서 유의미한 활성화가 나타났다. 또한 패턴 유사성 분석 결과 또한 측두회, 하전두회, 해마 영역에서 세 번째 시행 간의 활성화 패턴이 두 번째 시행의 활성화 패턴에 비해 더 일관적인 것으로 나타났다. 본 연구는 의미적 범주화가 하위 세부 일화 기억을 방해할 수 있다는 것을 보여주며, 이러한 범주화가 진행되는 동안 일어나는 의미적 인출 경험이 관련된 일화 기억의 흔적에 질적인 영향을 미칠 수 있음을 시사한다.

구문 . 통계적 기법을 이용한 한국어 자동색인에 관한 연구 (An experiment in automatic indexing with korean texts : a comparison of syntactico-statistical and manual methods)

  • 서은경
    • 정보관리학회지
    • /
    • 제10권1호
    • /
    • pp.97-124
    • /
    • 1993
  • 본 논문은 자연어 형태의 한국어 텍스트 부터 주제를 대표할 수 있는 색인어를 자동으로 추출하는 실험적인 구문 . 통계적 자동색인 시스템을 구현하였다. 구문 . 통계적 자동색인 시스템은 형태소 분석과 단어 가증 기법을 이용하여 단일어와 명사구를 동시에 선택하는 자동색인 시스템을 말한다. 시스템의 성능을 측정하기 위하여, 300개의 우리말 학술 및 학위논문 초록에서 선택된 단일 . 복합어 색인어를 수작업 색인과 비교하였다. 이와 같은 실험 결과를 가지고 아직 미흡한 연구상태인 우리말 자동색인 개발에 있어서 필요한 기초자료를 제시하였다.

  • PDF

언어 모델 다중 학습을 이용한 한국어 개체명 인식 (Korean Named Entity Recognition using Joint Learning with Language Model)

  • 김병재;박찬민;최윤영;권명준;서정연
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.333-337
    • /
    • 2017
  • 본 논문에서는 개체명 인식과 언어 모델의 다중 학습을 이용한 한국어 개체명 인식 방법을 제안한다. 다중 학습은 1 개의 모델에서 2 개 이상의 작업을 동시에 분석하여 성능 향상을 기대할 수 있는 방법이지만, 이를 적용하기 위해서 말뭉치에 각 작업에 해당하는 태그가 부착되어야 하는 문제가 있다. 본 논문에서는 추가적인 태그 부착 없이 정보를 획득할 수 있는 언어 모델을 개체명 인식 작업과 결합하여 성능 향상을 이루고자 한다. 또한 단순한 형태소 입력의 한계를 극복하기 위해 입력 표상을 자소 및 형태소 품사의 임베딩으로 확장하였다. 기계 학습 방법은 순차적 레이블링에서 높은 성능을 제공하는 Bi-directional LSTM CRF 모델을 사용하였고, 실험 결과 언어 모델이 개체명 인식의 오류를 효과적으로 개선함을 확인하였다.

  • PDF

초거대 언어모델의 재치에 관한 고찰: 수수께끼 해결 능력을 중심으로 (A Study on Proficiency in Solving Riddles of Large Language Model)

  • 어수경;박찬준;문현석;서재형;허윤아;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.25-30
    • /
    • 2023
  • 초거대 언어모델은 과연 수수께끼 문제에 재치있는 답변을 할 수 있을까? 최근 초거대 언어모델(Large language model, LLM)은 강력한 성능 및 유저 만족도를 보이며 세계의 이목을 집중시키고 있다. 여러 태스크들에 대한 정량 평가를 넘어서 최근에는 LLM의 창의력 및 고도화된 언어능력을 평가하는 연구들이 등장하고 있다. 본 논문에서는 이러한 연구 흐름에 따라 LLM의 재치에 관해 고찰해본다. 이때 재치를 평가하기 위한 태스크로 이를 요구하는 말놀이인 수수께끼를 활용한다. 본 논문은 LLM이 수수께끼를 잘 수행하는지를 모델 추론을 통해 평가하며, 모델 추론 시 활용되는 프롬프트들의 성격에 따른 성능 변화를 관찰한다. 또한 수수께끼의 종류에 따른 모델의 능력을 비교 분석하며 LLM의 추론 결과에 대한 오류 분석을 수행한다. 본 논문은 실험을 통해 GPT-4가 가장 높은 성능을 보이며, 설명글이나 데이터 예시를 추가할 시 성능을 한층 더 향상시킬 수 있음을 확인한다. 또한 단어 기반보다는 특성 기반의 수수께끼에 더욱 강력한 성능을 보이며, 오류 유형 분석을 통해 LLM이 환각(hallucination) 문제와 창의력을 동시에 가지고 있다고 분석한다.

  • PDF

실시간 이슈 탐지를 위한 일반-급상승 단어사전 생성 및 매칭 기법 (A Generation and Matching Method of Normal-Transient Dictionary for Realtime Topic Detection)

  • 최봉준;이한주;용우석;이원석
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권5호
    • /
    • pp.7-18
    • /
    • 2017
  • 트위터는 사용자들에게 정보를 받거나 교환하는 채널로써의 역할이 활발히 이루어지고 있고 새로운 사건이 발생했을 때 빠르게 반응하기 때문에 지진이나 홍수, 자살 등의 새로운 사건을 탐지하는 센서역할로 활용할 수 있다. 그리고 사건을 탐지하기 위해서 우선적으로 관련된 트윗 추출이 필수적이다. 하지만 관련된 트윗을 찾기 위해 관련 키워드를 포함한 트윗을 추출하기 때문에 해당 키워드가 없지만 의미적으로 사건과 관련이 있는 트윗은 찾지 못하는 문제점이 있다. 또한 기존의 연구들은 디스크에 저장된 데이터에 대한 분석이 주를 이루고 있어 원하는 결과를 얻기 위해서는 데이터를 수집하여 저장하고 분석에 이르기까지 오랜 시간이 소모된다. 이러한 문제점을 해결하기 위해 본 연구에서는 실시간 이슈 탐지를 위한 일반-급상승 단어 사전 생성 및 매칭 기법을 제안한다. 데이터 스트림 인메모리 기반으로 일반-급상승 단어 사전을 생성 및 관리하기 때문에 새로운 사건을 빠르게 학습하고 대응할 수 있다. 또한 분석을 원하는 주제의 일반 사전과 급상승 사전을 동시에 관리하기 때문에 기존의 방법으로 찾지 못하는 트윗을 검출해 낼 수 있다. 본 연구를 통해 빠른 정보와 대응이 필요한 분야에 즉시적으로 활용할 수 있다.

통합적 음악 감상을 통한 유아 소그룹 동시짓기 활동의 효과 (A Study on Children's Poetry Activity through Integrative Music Appreciation Program in A Small Group)

  • 박부숙;임명희;박윤조
    • 한국보육학회지
    • /
    • 제17권4호
    • /
    • pp.233-258
    • /
    • 2017
  • 음악적 경험 중에서 감상활동은 다른 음악 활동에 선행되는 가장 기본적인 과정임에도 불구하고 교사의 인식 부족과 교수 방법의 어려움 때문에 소홀히 여겨지고 있다. 본 연구는 유아의 생각을 반영하여 통합적 음악 감상을 구성하고 유아들이 음악 감상에 흥미를 갖게 하며, 유아 스스로 음악적 개념이나 구조를 발견, 창작할 수 있도록 하였고, 연계활동으로 유아 자신의 생각과 느낌을 동시로 표현하였다. 만 3, 4세의 발달 특성상 개인별 동시 짓기의 어려움이 있어서 자신의 의견을 나누며, 또래들의 반응을 직접 관찰할 수 있는 소그룹 토의를 통한 동시 짓기로 접근 하였다. 현장에서 음악 감상과 동시 짓기 활동을 어려워하는 교사들에게 교수 방법을 제시하고, 그 효과를 분석하고자 하였다. 유아의 생각을 반영한 통합적 음악 감상을 통한 소그룹 동시 짓기를 한 결과 유아들은 초기에는 음악 감상을 위한 준비과정에 더 많은 비중을 두었으나, 프로그램을 진행하면서 음악적 개념을 발견하고, 음악 감상에 적극적이었다. 연계활동으로 동시를 지을 때 또래의 이야기를 들으며 창의적인 생각을 할 수 있는 자극이 되었고, 동시에 관심이 없었던 유아들도 참여도가 높아졌으며, 교사도 유아의 창의적인 단어에 흥미를 보였고, 유아들과 함께 창작의 기쁨을 느꼈다.

Multi-channel과 Densely Connected Convolution Networks을 이용한 한국어 감성분석 (Korean Sentiment Analysis using Multi-channel and Densely Connected Convolution Networks)

  • 윤민영;구민재;이병래
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.447-450
    • /
    • 2019
  • 본 논문은 한국어 문장의 감성 분류를 위해 문장의 형태소, 음절, 자소를 입력으로 하는 합성곱층과 DenseNet 을 적용한 Text Multi-channel DenseNet 모델을 제안한다. 맞춤법 오류, 음소나 음절의 축약과 탈락, 은어나 비속어의 남용, 의태어 사용 등 문법적 규칙에 어긋나는 다양한 표현으로 인해 단어 기반 CNN 으로 추출 할 수 없는 특징들을 음절이나 자소에서 추출 할 수 있다. 한국어 감성분석에 형태소 기반 CNN 이 많이 쓰이고 있으나, 본 논문에서 제안한 Text Multi-channel DenseNet 모델은 형태소, 음절, 자소를 동시에 고려하고, DenseNet 에 정보를 밀집 전달하여 문장의 감성 분류의 정확도를 개선하였다. 네이버 영화 리뷰 데이터를 대상으로 실험한 결과 제안 모델은 85.96%의 정확도를 보여 Multi-channel CNN 에 비해 1.45% 더 정확하게 문장의 감성을 분류하였다.

학위논문 주제어 중심 연구동향 분석 -국어국문학, 국어교육학, 한국어교육학 분야를 중심으로- (esearch Trend Analysis Focused on Thesis Key Words: in the Fields of Korean Language and Literature, Korean Language Education, and Korean Language Education as a Foreign Language)

  • 김은실;강승혜
    • 한국어교육
    • /
    • 제29권2호
    • /
    • pp.25-48
    • /
    • 2018
  • The aim of this study was to analyze research trends in the fields of Korean Language and Literature, Korean Language Education, and Korean Language Education as a Foreign Language. To this end, key words were extracted from 29,470 academic theses published between 2000 and 2017. The results of the analysis are as follows. First, in the field of Korean Language and Literature, there is greater quantity in studies about Korean language than about literature, and starting from 2010, there was an increase in studies similar to those from the field of Korean Language Education as a Foreign Language. Next, in comparison to the other fields, the field of Korean Language Education has greater variance in its research theme-in particular, numerous studies related to the site of education. Finally, the field of Korean Language Education has the following trends: a) there are copious studies focused on Korean language learners in comparison to other fields, b) there are a greater number of studies focused on culture, and c) the key words change by time period which suggest that research demands transformed over time. Overall, a total of 64 highest frequency key words from the three academic fields were investigated. Of these, 22 were common key words and 42 were differential key words. In this way, it was possible to illuminate the identity of each field.

텍스트 마이닝과 토픽 모델링을 기반으로 한 트위터에 나타난 사회적 이슈의 키워드 및 주제 분석 (Keywords and Topic Analysis of Social Issues on Twitter Based on Text Mining and Topic Modeling)

  • 곽수정;김현희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권1호
    • /
    • pp.13-18
    • /
    • 2019
  • 본 연구는 커뮤니케이션이 활발한 SNS 속에서 사회적 이슈가 어떤 주제별로 나뉘어져 있고, 어떤 키워드들이 유기적으로 연결되었는지 그 연결 관계를 알아보고자 하였다. '미투'라는 새로운 단어가 생겨남과 동시에 큰 운동으로 번지고 있는 '미투운동'을 사회적 이슈로 간주하였고, 여러 SNS 중 특히 실시간 소통이 가장 활발한 트위터를 중심으로 분석을 실시하였다. 우선 키워드를 '미투'로 하여 관련된 키워드를 각 날짜별로 추출하였고, 주요 키워드를 파악한 후 토픽 모델링을 수행하였다. 이를 통해 사회적 이슈를 둘러싼 키워드들이 시간의 흐름에 따라 어떻게 변화하였는지 파악하고, 각 토픽 내의 키워드를 종합하여 토픽별 사회적 이슈의 다양한 관점을 해석하였다.