• Title/Summary/Keyword: 존재의 언어

검색결과 716건 처리시간 0.026초

동사 정보를 활용한 의미 관계 추출을 위한패턴 구축 (Pattern Construction for Semantic Relation Extraction using Verb Information)

  • 김세종;이용훈;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.118-123
    • /
    • 2008
  • 온톨로지란 실세계에 존재하는 사물 및 개념, 그리고 용어들 간의 관계들을 컴퓨터가 이해할 수 있는 형태로 표현한 것이다. 온톨로지 구축에 있어서 대용량 코퍼스의 활용은 해당코퍼스에서 등장하는 용어들과 이들 사이에서 나타나는 문자열을 일종의 패턴으로 취급하여 특정 패턴과 함께 나타나는 용어 쌍들을 해당 패턴이 대표하는 의미 관계로 설정하는 방식을 취한다. 그러나 기존의 방법은 주로 두 용어들 사이에서 나타나는 문자열만을 고려하여 패턴을 추출하기 때문에 해당 문장에 포함된 보다 다양한 문장 정보들을 활용할 수 없다. 본 논문은 이러한 한계점을 감안하여, 용어 쌍 사이에서 나타나는 문자열과 주변 동사 정보를 함께 고려함으로써 패턴의 정교성을 향상시키는 방법을 제안한다. 또한 동사들의 동의어를 활용하여 다양한 용어들을 포괄할 수 있는 일반화된 패턴을 구축한다. 본 방법론은 is-a 관계의 경우 64%, part-of 관계의 경우 83%, made-of 관계의 경우 73%, use 관계의 경우 72%의 정확률을 보였으며 모두 기존 방법보다 향상된 결과를 가져왔다.

  • PDF

자연어 처리 기반 텍스트 마이닝을 위한 한글 어간 추출 알고리즘 (Hangeul Stem Extraction Algorithm for Text Mining Based on Natural Language Processing)

  • 최기원;최성훈;조상현;김희철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.718-721
    • /
    • 2017
  • 텍스트 마이닝의 기반이 되는 자연어 처리는 언어의 종류에 따라 처리 방법이 다를 수 있다. 특히 타 언어에 비해 비교적 표현의 자유도가 높은 한글은 어미의 활용에 따라서 여러 가지 단어의 형태가 존재한다. 이처럼 다양한 형태로 굴절하는 단어에서 변화하지 않는 부분을 어간이라고 하며, 효과적인 텍스트 마이닝을 위해선 어간을 추출하여 다양한 형태의 단어들을 단일화하는 과정이 필수적이다. 따라서 본 논문에서는 한글문서의 효과적인 텍스트 마이닝을 위하여 한글 어간 추출 알고리즘을 제시한다.

  • PDF

토픽 모델을 이용한 모바일 앱 설명 노이즈 제거 (Noise Elimination in Mobile App Descriptions Based on Topic Model)

  • 윤희근;김솔;박성배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.64-69
    • /
    • 2013
  • 스마트폰의 대중화로 인하여 앱 마켓 시장이 급속도로 성장하였다. 이로 인하여 하루에도 수십개의 새로운 앱들이 출시되고 있다. 이러한 앱 마켓 시장의 급격한 성장으로 인해 사용자들은 자신이 흥미를 가질만한 앱들을 선택하는데 큰 어려움을 겪고 있어 앱 추천 방법에 대한 연구에 많은 관심이 집중되고 있다. 기존 연구에서 협력 필터링 기반의 추천 방법들을 제안하였으나 이는 콜드 스타트 문제를 지니고 있다. 이와는 달리 컨텐츠 기반 필터링 방식은 콜드 스타트 문제를 효율적으로 해소할 수 있는 방법이지만 앱설명에는 광고, 공지사항등 실질적으로 앱의 특징과는 무관한 노이즈들이 다수 존재하고 이들은 앱 사이의 유사관계를 파악하는데 방해가 된다. 본 논문에서는 이런 문제를 해결하기 위하여 앱 설명에서 노이즈에 해당하는 설명들을 자동으로 제거할 수 있는 모델을 제안한다. 제안하는 모델은 모바일 앱 설명을 구성하고 있는 각 문단을 LDA로 학습된 토픽들의 비율로 나타내고 이들을 분류문제에서 우수한 성능을 보이는 SVM을 이용하여 분류한다. 실험 결과에 따르면 본 논문에서 제안한 방법은 기존에 문서 분류에 많이 사용되는 Bag-of-Word 표현법에 기반한 문서 표현 방식보다 더 나은 분류 성능을 보였다.

  • PDF

대화형 개인 비서 시스템을 위한 하이브리드 방식의 개체명 및 문장목적 동시 인식기술 (A Simultaneous Recognition Technology of Named Entities and Objects for a Dialogue Based Private Secretary Software)

  • 이창수;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.18-23
    • /
    • 2013
  • 기존 대화시스템과 달리 대화형 개인 비서 시스템은 사용자에게 정보를 제공하기 위해 앱(APP)을 구동하는 방법을 사용한다. 사용자가 앱을 통해 정보를 얻고자 할 때, 사용자가 필요로 하는 정보를 제공해주기 위해서는 사용자의 목적을 정확하게 인식하는 작업이 필요하다. 그 작업 중 중요한 두 요소는 개체명 인식과 문장목적 인식이다. 문장목적 인식이란, 사용자의 문장을 분석해 하나의 앱에 존재하는 여러 정보 중 사용자가 원하는 정보(문장의 목적)가 무엇인지 찾아주는 인식작업이다. 이러한 인식시스템을 구축하는 방법 중 대표적인 방법은 사전규칙방법과 기계학습방법이다. 사전규칙은 사전정보와 규칙을 적용하는 방법으로, 시간이 지남에 따라 새로운 규칙을 추가해야하는 문제가 있으며, 규칙이 일반화되지 않을 경우 오류가 증가하는 문제가 있다. 또 두 인식작업을 파이프라인 방식으로 적용 할 경우, 개체명 인식단계에서의 오류를 가지고 문장목적 인식단계로 넘어가기 때문에 두 단계에 걸친 성능저하와 속도저하를 초래할 수 있다. 이러한 문제점을 해결하기 위해 우리는 통계기반의 기계학습방법인 Conditional Random Fields(CRF)를 사용한다. 또한 사전정보를 CRF와 결합함으로써, 단독으로 수행하는 CRF방식의 성능을 개선시킨다. 개체명과 문장목적인식의 구조를 분석한 결과, 비슷한 자질을 사용할 수 있다고 판단하여, 두 작업을 동시에 수행하는 방법을 제안한다. 실험결과, 사전규칙방법보다 제안한 방법이 문장단위 2.67% 성능개선을 보였다.

  • PDF

단어 표현에 기반한 연관 바이오마커 발굴 (Biomarker Detection of Specific Disease using Word Embedding)

  • 윤영신;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.317-320
    • /
    • 2016
  • 기계학습 기반의 자연어처리 모듈에서 중요한 단계 중 하나는 모듈의 입력으로 단어를 표현하는 것이다. 벡터의 사이즈가 크고, 단어 간의 유사성의 개념이 존재하지 않는 One-hot 형태와 대조적으로 유사성을 표현하기 위해서 단어를 벡터로 표현하는 단어 표현 (word representation/embedding) 생성 작업은 자연어 처리 작업의 기계학습 모델의 성능을 개선하고, 몇몇 자연어 처리 분야의 모델에서 성능 향상을 보여 주어 많은 관심을 받고 있다. 본 논문에서는 Word2Vec, CCA, 그리고 GloVe를 사용하여 106,552개의 PubMed의 바이오메디컬 논문의 요약으로 구축된 말뭉치 카테고리의 각 단어 표현 모델의 카테고리 분류 능력을 확인한다. 세부적으로 나눈 카테고리에는 질병의 이름, 질병 증상, 그리고 난소암 마커가 있다. 분류 능력을 확인하기 위해 t-SNE를 이용하여 2차원으로 단어 표현 결과를 맵핑하여 가시화 한다. 2차원으로 맵핑된 결과 값을 코사인 유사도를 사용하여 질병과 바이오 마커간의 유사도를 구한다. 이 유사도 결과 값 상위 20쌍의 결과를 가지고 실제 연구가 되고 있는지 구글 스콜라를 통해 관련 논문을 검색하여 확인하고, 검색 결과를 점수화 한다. 실험 결과 상위 20쌍 중에서 85%의 쌍이 실제적으로 질병과 바이오 마커 간의 관계를 파악하는 방향으로 진행 되고 있으나, 나머지 15%의 쌍에 대해서는 실질적인 연구가 잘 되고 있지 않은 것으로 파악되었다.

  • PDF

중한 기계 번역 시스템을 위한 형태소 분석기 (A Morph Analyzer For MATES/CK)

  • 강원석;김지현;송영미;송희정;황금하;채영숙;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.331-336
    • /
    • 2000
  • MATES/CK는 기계번역 시스템에서 전통적으로 사용하고 있는 세 단계(분석/변환/생성)에 의해서 중한 번역을 수행하는 시스템이다. MATES/CK는 시스템 성능을 높이기 위해 패턴 기반과 통계적 정보를 이용한다. 태거(Tagger)는 중국어 단어 분리를 최장일치법으로 수행하기 때문에 일부 단어에 대해 오류를 범하게 되고 품사(POS : Part Of Speech) 태깅 시 확률적 정보만 이용하여 특정 단어가 다 품사인 경우 그 단어에 대해 특정 품사만 태깅되는 문제점이 발생한다. 또한 중국어 및 외국어 인명 및 지명에 대한 미등록들에 대해서도 올바른 결과를 도출하지 못한다. 사전에 있어서 텍스트 기반으로 존재하여 이를 관리하기에 힘이 든다. 본 논문에서는 단어 분리 오류 및 품사 태깅 오류를 해결하기 위해 중국어 태깅 제약 규칙을 적용하는 방법을 제시하고 중국어 및 외국어 인명/지명에 대한 미등록어 처리방법을 제시한다. 또한 중국어 사전 관리에 대해 알아본다.

  • PDF

인쇄 문서 영상의 단어 단위 속성 인식 (Recognition of Word-level Attributed in Machine-printed Document Images)

  • 곽희규;김수형
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권5호
    • /
    • pp.412-421
    • /
    • 2001
  • 본 논문은 문서 영상에 존재하는 개별 단어들에 대한 속성정보 추출 방법을 제안한다. 단어 단위의 속성 인식은 단어 영상 매칭의 정확도 및 속도 개선, OCR 시스템에서 인식률 향상, 문서의 재생산 등 다양한 응용 가치를 찾을 수 있으며, 메타정보(meta-information) 추출을 통해 영상 검색(image retrieval)이나 요약(summary) 생성 등에 활용할 수 있다. 제안하는 시스템에서 고려하는 단어 영상의 속성은 언어의 종류(한글, 영문), 스타일(볼드, 이탤릭, 보통, 밑줄), 문자 크기(10, 12, 14 포인트), 문자 개수 (한글: 2, 3, 4, 5, 영문: 4, 5, 6, 7, 8, 9, 10), 서체(명조, 고딕)의 다섯 가지 정보이다. 속성 인식을 위한 특징은, 언어 종류 인식에 2개, 스타일 인식에 3개, 문자 크기와 개수는 각각 1개, 한글 서체 인식은 1개, 영문 서체 인식은 2개를 사용한다. 분류기는 신경망, 2차형 판별함수(QDF), 선형 판별함수(LDF)를 계층적으로 구성한다. 다섯 가지 속성이 조합된 26,400개의 단어 영상을 사용한 실험을 통해, 제안된 방법이 소수의 특징만으로도 우수한 속성 인식 성능을 보임을 입증하였다.

  • PDF

OntoCloud와 워드넷 연결 (Linking OntoCloud to WordNet)

  • 박광희;김은경;최동현;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.172-176
    • /
    • 2010
  • 본 논문에서는 위키피디아의 '틀(temp late)'을 기조로 하여 작성된 온톨로지인 OntoCloud의 신뢰도를 보장하고 공유 및 재사용을 가능하게 하기 위하여 또 다른 어휘집합체인 워드넷(WordNet)과의 매핑을 한다. 온톨로지 매핑 기술은 온톨로지 개발 기술의 한 방법으로, 서로 비슷한 도메인을 대상으로 이미 구축되어진 서로 다른 다수의 온롤로지를 연결시킴으로서 하나의 풍부한 정보를 가지고 있는 연결망을 구축하는 방법이다. 본 논문에서는 OntoCloud와 워드넷을 두개의 온톨로지로 정의하고 각 온톨로지의 개념에 대한 정의문 비교 방법을 통해서 두개의 온톨로지에 존재하는 유사한 개념을 연결한다. 이렇게 매핑된 정보들은 OntoCloud 개념을 워드넷 어휘로 연결함으로써 개념에 대한 직관적인 이해를 돕고, 워드넷에 연결된 다른 시소러스 (예: SUMO, CoreNet 등)와 간접적으로 연결할 수 있는 틀을 마련한다. 또한 온톨로지의 상하위 계층정보를 자동으로 보강하는 등의 OntoCloud 유지보수에 활용될 수 있다. 본 논문의 실험에서는 두개의 서로 다른 온톨로지의 정의문에 사용된 어휘의 겹침 정도로 두개의 개념의 유사성을 판별하는 방법을 보인다. 본 논문에서 제시한 방법으로 약 73%의 개념 매핑에 성공하였으나, 추후 매핑 프로세스의 전처리 과정(약자 처리 및 복합명사 대응 모듈)을 추가하고 온톨로지의 구조적 특성을 활용하여 유사 개념 자동 매핑 기술을 향상시키고자 한다.

  • PDF

전자 태그 기반 전자 상품 코드를 이용한 정보 서비스 시스템의 설계 및 구현 (Design and Implementation of Information Service System using the EPC on RFID Tag)

  • 이승주;이명환;윤여창;김태원;박종호;신용학
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.1136-1139
    • /
    • 2012
  • 본 연구에서는 EPCIS(전자상품코드 정보 서비스) 시스템의 요구사항인 추상화, 고성능, 확장성, 상호 운용성을 기반으로 EPCIS 시스템의 구조를 설계하고 구현한다. EPCIS 시스템의 추상화를 위해 기존에 존재하는 다양한 데이터 베이스 시스템과 상호 운용을 위한 공통 인터페이스를 구현하고 내부적으로 확장 질의 인터페이스, 공통 질의 언어를 가진다. 연속 질의 처리 시간을 감소 시키고 중복된 결과를 효과적으로 처리하기 위한 연속 질의 처리 모듈을 구현한다. 또한 RFID(전자 태그)의 이력 추적 질의의 고성능을 지원하기 위해 RFID 환경에 최적화된 색인 기술과 질의 처리를 위한 구성 요소(Component)를 추가하여 EPCIS 시스템의 고성능 질의 처리를 가능하게 한다. 또한 확장성을 위해 저장소(EPCIS Repository) 관리자를 구현하여 비즈니스 이벤트의 메타 데이터의 스키마를 정의하여 새로운 종류의 비즈니스 이벤트를 쉽게 등록하고 사용할 수 있도록 하였다. 또한 기업의 응용 시스템과 협력 기업간에 정보 교환을 위해서 EPC 글로벌에서 제시하는 웹 서비스를 지원하며 표준 데이터 형식인 확장성 생성 언어(XML)를 사용한다.

게임 'Paper, Please'의 번역을 통한 콘텐츠 현지화 사례 연구: 한국어와 문화어 번역의 차이를 중심으로 (Study of Contents Localization Case on the Game 'Paper, Please': Based on the Korean and North Korean Translations)

  • 원호혁;구본혁;김형엽
    • 한국게임학회 논문지
    • /
    • 제19권2호
    • /
    • pp.145-160
    • /
    • 2019
  • 해당 연구는 게임 'Paper, Please'의 한국어(Korean) 번역본과 문화어(North Korean) 번역본에서 나타나는 차이점을 통해 언어와 이미지가 현지화에 끼치는 영향에 대해서 고찰하고자 한다. 'Paper, Please'의 문화어 번역본에 등장하는 북한의 언어와 문화적 개념은 북한의 외래어 사용하고 시대가 다른 각시탈을 비밀조직으로 차용하는 등의 오류가 존재함에도 불과하고 사람들에게 북한의 모습을 적절하게 보여주는 것으로 평가가 되었다. 이를 통해 현지화에서는 심각한 오류가 아닐 경우 사람은 이미지와 모티브로 해당 문화에 몰입하며 재미를 얻게 된다는 사실을 알 수 있다.