• Title/Summary/Keyword: NCsoft

Search Result 61, Processing Time 0.026 seconds

Study on Making Chunking Dataset for Keyword Extraction and its Improvement Methods (키워드 추출용 구묶음 데이터 구축 및 개선 방법 연구)

  • Lee, Minho;Choi, Maengsik;Kim, Jeongah;Lee, Chunghee;Kim, Bohui;Oh, Hyo-Jung;Lee, Yeonsoo
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.512-517
    • /
    • 2020
  • 구묶음은 문장을 겹치지 않는 문장 구성 성분으로 나누는 과정으로, 구묶음 방법에 따라 구문분석, 관계 추출 등 다양한 하위 태스크에 사용할 수 있다. 본 논문에서는 문장의 키워드를 추출하기 위한 구묶음 방식을 제안하고, 키워드 단위 구묶음 데이터를 구축하기 위한 가이드라인을 제작하였다. 해당 가이드라인을 적용하여 구축한 데이터와 BERT 기반의 모델을 이용하여 학습 및 평가를 통해 구축된 데이터의 품질을 측정하여 78점의 F1점수를 얻었다. 이후 패턴 통일, 형태소 표시 여부 등 다양한 개선 방법의 적용 및 재실험을 통해 가이드라인의 개선 방향을 제시한다.

  • PDF

Noise Robust Baseball Event Detection with Multimodal Information (멀티모달 정보를 이용한 잡음에 강인한 야구 이벤트 시점 검출 방법)

  • Young-Ik Kim;Hyun Jo Jung;Minsoo Na;Younghyun Lee;Joonsoo Lee
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.11a
    • /
    • pp.136-138
    • /
    • 2022
  • 스포츠 방송/미디어 데이터에서 특정 이벤트 시점을 효율적으로 검출하는 방법은 정보 검색이나 하이라이트, 요약 등을 위해 중요한 기술이다. 이 논문에서는, 야구 중계 방송 데이터에서 투구에 대한 타격 및 포구 이벤트 시점을 강인하게 검출하는 방법으로, 음향 및 영상 정보를 융합하는 방법에 대해 제안한다. 음향 정보에 기반한 이벤트 검출 방법은 계산이 용이하고 정확도가 높은 반면, 영상 정보의 도움 없이는 모호성을 해결하기 힘든 경우가 많이 발생한다. 특히 야구 중계 데이터의 경우, 투수의 투구 시점에 대한 영상 정보를 활용하여 타격 및 포구 이벤트 검출의 정확도를 보다 향상시킬 수 있다. 이 논문에서는 음향 기반의 딥러닝 이벤트 시점 검출 모델과 영상 기반의 보정 방법을 제안하고, 실제 KBO 야구 중계 방송 데이터에 적용한 사례와 실험 결과에 대해 기술한다.

  • PDF

A Study on the Dense Vector Representation of Query-Passage for Open Domain Question Answering (오픈 도메인 질의응답을 위한 질문-구절의 밀집 벡터 표현 연구)

  • Minji Jung;Saebyeok Lee;Youngjune Kim;Cheolhun Heo;Chunghee Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.115-121
    • /
    • 2022
  • 질문에 답하기 위해 관련 구절을 검색하는 기술은 오픈 도메인 질의응답의 검색 단계를 위해 필요하다. 전통적인 방법은 정보 검색 기법인 빈도-역문서 빈도(TF-IDF) 기반으로 희소한 벡터 표현을 활용하여 구절을 검색한다. 하지만 희소 벡터 표현은 벡터 길이가 길 뿐만 아니라, 질문에 나오지 않는 단어나 토큰을 검색하지 못한다는 취약점을 가진다. 밀집 벡터 표현 연구는 이러한 취약점을 개선하고 있으며 대부분의 연구가 영어 데이터셋을 학습한 것이다. 따라서, 본 연구는 한국어 데이터셋을 학습한 밀집 벡터 표현을 연구하고 여러 가지 부정 샘플(negative sample) 추출 방법을 도입하여 전이 학습한 모델 성능을 비교 분석한다. 또한, 대화 응답 선택 태스크에서 밀집 검색에 활용한 순위 재지정 상호작용 레이어를 추가한 실험을 진행하고 비교 분석한다. 밀집 벡터 표현 모델을 학습하는 것이 도전적인 과제인만큼 향후에도 다양한 시도가 필요할 것으로 보인다.

  • PDF

Bayesian Model based Korean Semantic Role Induction (베이지안 모형 기반 한국어 의미역 유도)

  • Won, Yousung;Lee, Woochul;Kim, Hyungjun;Lee, Yeonsoo
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.111-116
    • /
    • 2016
  • 의미역은 자연어 문장의 서술어와 관련된 논항의 역할을 설명하는 것으로, 주어진 서술어에 대한 논항인식(Argument Identification) 및 분류(Argument Labeling)의 과정을 거쳐 의미역 결정(Semantic Role Labeling)이 이루어진다. 이를 위해서는 격틀 사전을 이용한 방법이나 말뭉치를 이용한 지도 학습(Supervised Learning) 방법이 주를 이루고 있다. 이때, 격틀 사전 또는 의미역 주석 정보가 부착된 말뭉치를 구축하는 것은 필수적이지만, 이러한 노력을 최소화하기 위해 본 논문에서는 비모수적 베이지안 모델(Nonparametric Bayesian Model)을 기반으로 서술어에 가능한 의미역을 추론하는 비지도 학습(Unsupervised Learning)을 수행한다.

  • PDF

Sequence-to-sequence Autoencoder based Korean Text Error Correction using Syllable-level Multi-hot Vector Representation (음절 단위 Multi-hot 벡터 표현을 활용한 Sequence-to-sequence Autoencoder 기반 한글 오류 보정기)

  • Song, Chisung;Han, Myungsoo;Cho, Hoonyoung;Lee, Kyong-Nim
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.661-664
    • /
    • 2018
  • 온라인 게시판 글과 채팅창에서 주고받는 대화는 실제 사용되고 있는 구어체 특성이 잘 반영된 텍스트 코퍼스로 음성인식의 언어 모델 재료로 활용하기 좋은 학습 데이터이다. 하지만 온라인 특성상 노이즈가 많이 포함되어 있기 때문에 학습에 직접 활용하기가 어렵다. 본 논문에서는 사용자 입력오류가 다수 포함된 문장에서의 한글 오류 보정을 위한 sequence-to-sequence Denoising Autoencoder 모델을 제안한다.

  • PDF

Bayesian Model based Korean Semantic Role Induction (베이지안 모형 기반 한국어 의미역 유도)

  • Won, Yousung;Lee, Woochul;Kim, Hyungjun;Lee, Yeonsoo
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.111-116
    • /
    • 2016
  • 의미역은 자연어 문장의 서술어와 관련된 논항의 역할을 설명하는 것으로, 주어진 서술어에 대한 논항 인식(Argument Identification) 및 분류(Argument Labeling)의 과정을 거쳐 의미역 결정(Semantic Role Labeling)이 이루어진다. 이를 위해서는 격틀 사전을 이용한 방법이나 말뭉치를 이용한 지도 학습(Supervised Learning) 방법이 주를 이루고 있다. 이때, 격틀 사전 또는 의미역 주석 정보가 부착된 말뭉치를 구축하는 것은 필수적이지만, 이러한 노력을 최소화하기 위해 본 논문에서는 비모수적 베이지안 모델(Nonparametric Bayesian Model)을 기반으로 서술어에 가능한 의미역을 추론하는 비지도 학습(Unsupervised Learning)을 수행한다.

  • PDF

Effects of the Loss Function for Korean Left-To-Right Dependency Parser (의존 구문 분석에 손실 함수가 미치는 영향: 한국어 Left-To-Right Parser를 중심으로)

  • Lee, Jinu;Choi, Maengsik;Lee, Chunghee;Lee, Yeonsoo
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.93-97
    • /
    • 2020
  • 본 연구는 딥 러닝 기반 의존 구문 분석에서, 학습에 적용하는 손실 함수에 따른 성능을 평가하였다. Pointer Network를 이용한 Left-To-Right 모델을 총 세 가지의 손실 함수(Maximize Golden Probability, Cross Entropy, Local Hinge)를 이용하여 학습시켰다. 그 결과 LH 손실 함수로 학습한 모델이 선행 연구와 같이 MGP 손실 함수로 학습한 것에 비해 UAS/LAS가 각각 0.86%p/0.87%p 상승하였으며, 특히 의존 거리가 먼 경우에 대하여 분석 성능이 크게 향상됨을 확인하였다. 딥러닝 의존 구문 분석기를 구현할 때 학습모델과 입력 표상뿐만 아니라 손실 함수 역시 중요하게 고려되어야 함을 보였다.

  • PDF

sent2dl : Augmenting Distributional Semantics to Symbolic Sentence Meaning Representation based on Description Logic SROIQ (sent2dl : 기술논리 SROIQ 기반 기호적 문장 의미 표상에 분산 표상 더하기)

  • Schin, Seung-Woo;Oh, Ju-Min;Noh, Hyung-Jong;Lee, Yeon-Soo
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.199-204
    • /
    • 2020
  • 기존의 자연어 의미 표상 방법은 크게 나눠보았을 때 두 가지가 있다. 첫 번째로, 전통적인 기호 기반 의미 표상 방법론이다. 이 방법론들은 논리적이고 해석가능하다는 장점이 있으나, 구축에 시간이 많이 들고 정작 기호 자체의 의미를 더욱 미시적으로 파악하기 어렵다는 단점이 있었다. 반면, 최근 대두된 분산 표상의 경우 단어 하나하나의 의미는 상대적으로 잘 파악하는 반면, 문장 등의 복잡한 구조의 의미를 나타내는 데 있어 상대적으로 약한 측면을 보이며 해석가능하지 않다는 단점이 있다. 본 논문에서는 이 둘의 장점을 섞어서 서로의 단점을 보완하는 새로운 의미 표상을 제안하였으며, 이 표상이 유의미하게 문장의 의미를 담고 있음을 비지도 문장 군집화 문제를 통해 간접적으로 보였다.

  • PDF

The Strategic Ambidexterity of Online Game Companies: The Exploitation and Exploration of NCsoft (온라인 게임회사의 전략적 양면성: 엔씨소프트의 활용과 탐험)

  • Bae, Joonheui;Koo, Dong Mo
    • Journal of Korea Game Society
    • /
    • v.15 no.1
    • /
    • pp.115-124
    • /
    • 2015
  • This research analyzed the case of Ncsoft to study the organizational learning, exploitation and exploration that create dynamic capability in hypercompetitive environment. First of all, we demonstrated the activities of exploitation and exploration in Ncsoft according to the life cycle of online game industry. An exploitation related to routine, learning and fit with existing environment brings about incremental innovation. In contrast, an exploration associated with non-learning, flexibility with changing environment results in radical innovation. We examined them based on the life cycle of its various game services. NCsoft that built the leading position in online game industry focused the exploitation activities at the stage of beginning period and growth, whereas NCsoft has increased the activities of exploration at period of mature. In addition, the firm conducts an exploration for its brand new game services and R&D. Conversely, An exploitation is conducted for sustainable updating of patch service and marketing and system building. The result implies that online game companies create sustainable competitive advantage using the balance between exploitation and exploration.

Innovative Capabilities of NCsoft, the Leading Firm in the Korean Online Games Industry (게임산업 선도기업의 혁신역량 분석과 시사점 : 엔씨소프트를 사례로)

  • Choi, Ji-Sun;Kim, Hyung-Jin
    • Journal of Korea Game Society
    • /
    • v.10 no.5
    • /
    • pp.51-63
    • /
    • 2010
  • This paper investigates the innovative capabilities of the leading company in the Korean online games industry, 'NCsoft'. The company is analyzed with the three types of innovation capabilities such as the capability to manage core competencies, the capability to integrate internal and external knowledge source, and the capability to build innovation policy/strategy. This paper concludes with suggesting the future strategies of the NCsoft by each capability.