• 제목/요약/키워드: 어휘-의미 패턴

검색결과 53건 처리시간 0.026초

개념간 유사성 측정을 이용한 개념 기반 이미지 검색 (Concept based Image Retrieval Using Similarity Measurement Between Concepts)

  • 조미영;최춘호;신주현;김판구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.253-255
    • /
    • 2003
  • 기존의 개념 기반 이미지 검색에서는 이미지의 의미적 내용 인식을 위해 일반적으로 어휘적 정보나 텍스트 정보를 이용했다. 이러한 텍스트 정보 기반 이미지 검색은 전통적인 검색 방법인 키워드 검색 기술을 그대로 사용하여 쉽게 구현할 수 있으나 텍스트의 개념적 매칭이 아닌 스트링 매칭이므로 주석처리된 단어와 정확한 매칭이 없다면 찾을 수가 없었다. 이에 본 논문에서는 ontology의 일종인 WordNet을 이용하여 깊이 정보량 링크 타입, 밀도 등을 고려한 개념간 유사성 측정으로 패턴 매칭의 문제를 해결하고자 했다. 또한 키워드로 주석처리 되어 있는 Microsofts Design Gallery Live의 이미지를 이용하여 개념간 유사성 측정법을 실질적으로 개념 기반 이미지 검색에 적용해 보았다.

  • PDF

위키백과를 이용한 질의응답 시스템의 구현 (Implementation of Question-Answering System using Wikipedia)

  • 박영민;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.206-208
    • /
    • 2012
  • 본 논문에서는 위키백과를 이용한 지식DB구축의 예로서 연예인 관련 정보들을 자동으로 추출한다. 우리는 위키백과의 연예인 문서로부터 생년월일, 학력, 본명 등 총 9가지 정보들을 추출하고 이를 지식DB로 구축한다. 또한 추출된 지식 DB를 이용하여 질의응답 시스템을 구현하여 유용함을 입증하였다. 질의응답 시스템은 어휘의미패턴 방법으로 질의를 분석하고, 템플릿 기반의 문장생성 방법으로 정답을 자연어문장으로 생성한다. 성능 평가결과 총 6471명의 연예인 정보들을 추출하였고 95%에 해당하는 질의분석 성능을 제공하였다.

  • PDF

신문 사설의 특징적 표현들에 대한 연구 (Key Expressions in Editorial Texts: Determining the Unithood and Termhood of Word Sequences based on a 2009 Newspaper Corpus)

  • 김혜영;강범모
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.185-190
    • /
    • 2012
  • 본 논문은 동아, 조선, 중앙, 한겨레 신문의 2009년 신문 사설의 제목과 본문에서 나타나는 n-gram에 대한 논의이다. 구체적으로 자주 출현하는 단어들의 연속 단위 3~6개의 형태소를 추출하여 신문 사설에서 나타난 고빈도 형태소 연속체를 살펴본다. 또한 이들을 기사문에서 추출한 패턴과 로그공산비로 비교하여 신문 사설에서 더 특징적인 의미로 사용되는 어휘들을 살펴본다. 그 결과, 사설 본문에서는 3-gram은 '아야 한다'. 4-gram은 'ㄹ 것이다', 5-gram은 'ㄹ 수밖에 없다', 6-gram은 '아야 할 것이다' 등이, 사설 제목은 '것인가, 안 된다'가 하나의 용어처럼 사용되고 있었다. 이러한 형태소 연속체를 살펴봄으로써, 신문사설의 텍스트 특징과 정형적인 표현에 대해서 살펴볼 수 있다.

  • PDF

SVM을 이용한 중국어 개체명 식별 (Recognition Of Chinese Named-Entity Using Support Vector Machine)

  • 김풍;나승훈;강인수;리금희;김동일;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.934-936
    • /
    • 2004
  • 본문에서는 최근 들어 각광을 받고 있는 패턴인식 방법론인 Support Vector Machine을 이용하여 중국어 개체명을 식별하는 방법을 제안하고자 한다. SVM(support vector machine)은 입력 자질이 많을 경우에도 안정적인 성능을 나타내고 보편적으로 적용할 수 있는 모델을 개발할 수 있는 장점이 있다. 실험에서 어휘. 품사, 의미부류 등 많은 수의 자질을 이용하였다. 실험결과는 본문에서 제안한 방법이 튜닝을 거치지 않아도 좋은 성능을 나타낼 수 있고, 수행 속도도 만족스럽다는 것을 보여주었다.

  • PDF

명사 어휘의미망을 활용한 문법 검사기의 문맥 오류 결정 규칙 일반화 (Generalization of error decision rules in a grammar checker using Korean WordNet, KorLex)

  • 소길자;이승희;권혁철
    • 정보처리학회논문지B
    • /
    • 제18B권6호
    • /
    • pp.405-414
    • /
    • 2011
  • 국내에서 가장 일반적으로 사용되고 있는 규칙 기반 오류 검출 방법은 언어 전문가가 한국어 문서에서 자주 발생하는 오류에 대한 검출 규칙을 경험적으로 구축하고 있다. 그러나 이렇게 경험적으로 규칙을 만들면 새로운 패턴의 문장이 나타날 때마다 규칙이 수정되어야 하므로 일관성 있는 오류 검사 및 교정을 기대할 수 없다. 본 논문에서는 이를 해결하려고 최근 개발되고 있는 어휘의미망 중에서 KorLex와 같은 정규화된 언어 자원을 활용하여 단어들의 범주 정보를 추출하고 이를 이용하여 오류 결정 규칙을 일반화한다. 그러나 현재 구축된 KorLex에는 명사의 계층관계 정보는 구축되어 있지만, 문장 요소와의 관계 정보, 즉, 격틀 정보가 부족하다. 본 논문에서는 용언 의미 오류 결정 규칙으로 사용할 선택제약 명사 클래스를 정보이론에 기초한 MDL과 Tree Cut Model을 활용하여 추출하고 이러한 선택제약 명사 클래스를 사용하여 문법 검사기 규칙을 일반화하는 방안을 제안한다. 실험 결과, 혼동하기 쉬운 네 개의 용언에 대해 목적어로 사용된 명사를 선택제약 명사 클래스로 일반화하여 문법 검사기 오류 결정 규칙 수를 평균 64.8%로 줄였고 기존 명사를 사용한 문법 검사기보다 정확도 측면에서 평균 약 6.2%정도 향상된 결과를 얻을 수 있었다.

지지 벡터 기계를 이용한 질의 유형 분류기 (A Question Type Classifier Using a Support Vector Machine)

  • 안영훈;김학수;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.129-136
    • /
    • 2002
  • 고성능의 질의응답 시스템을 구현하기 위해서는 사용자의 질의 유형의 난이도에 관계없이 의도를 파악할 수 있는 질의유형 분류기가 필요하다. 본 논문에서는 문서 범주화 기법을 이용한 질의 유형 분류기를 제안한다. 본 논문에서 제안하는 질의 유형 분류기의 분류 과정은 다음과 같다. 우선, 사용자 질의에 포함된 어휘, 품사, 의미표지와 같은 다양한 정보를 이용하여 사용자 질의로부터 자질들을 추출한다. 이 과정에서 질의의 구문 특성을 반영하기 위해서 슬라이딩 윈도 기법을 이용한다. 또한, 다량의 자질들 중에서 유용한 것들만을 선택하기 위해서 카이 제곱 통계량을 이용한다. 추출된 자질들은 벡터 공간 모델로 표현되고, 문서 범주화 기법 중 하나인 지지 벡터 기계(support vector machine, SVM)는 이 정보들을 이용하여 질의 유형을 분류한다. 본 논문에서 제안하는 시스템은 질의 유형 분류 문제에지지 벡터 기계를 이용한 자동문서 범주화 기법을 도입하여 86.4%의 높은 분류 정확도를 보였다. 또한 질의 유형 분류기를 통계적 방법으로 구축함으로써 lexico-syntactic 패턴과 같은 규칙을 기술하는 수작업을 배제할 수 있으며, 응용 영역의 변화에 대해서도 안정적인 처리와 빠른 이식성을 보장한다.

  • PDF

DECO-LGG 언어자원 및 의존파서와 LSTM을 활용한 하이브리드 자질기반 감성분석 플랫폼 DecoFESA 구현 (DecoFESA: A Hybrid Platform for Feature-based Sentiment Analysis Based on DECO-LGG Linguistic Resources with Parser and LSTM)

  • 황창회;유광훈;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.321-326
    • /
    • 2020
  • 본 연구에서는 한국어 감성분석 성능 향상을 위한 DECO(Dictionnaire Electronique du COreen) 한국어 전자사전과 LGG(Local-Grammar Graph) 패턴문법 기술 프레임에 의존파서 및 LSTM을 적용하는 하이브리드 방법론을 제안하였다. 본 연구에 사용된 DECO-LGG 언어자원을 소개하고, 이에 기반하여 의미 정보를 의존파서(D-PARS)와 페어링하는 한편 OOV(Out Of Vocabulary)의 문제를 LSTM을 통해 해결하여 자질기반 감성분석 결과를 제시하였다. 부트스트랩 방식으로 반복 확장될 수 있는 LGG 언어자원 및 알고리즘을 통해 수행되는 자질기반 감성분석 프로세스는 전용 플랫폼 DecoFESA를 통해 그 범용성을 확장하였다. 실험을 위해서 네이버 쇼핑몰의 '화장품 구매 후기글'을 크롤링하였으며, DecoFESA 플랫폼을 통해 현재 구축된 DECO-LGG 언어자원 기반의 감성분석 성능을 평가하였다. 이를 통해 대용량 언어자원의 구축과 이를 활용하기 위한 어휘 시퀀스 처리 알고리즘의 구현이 보다 정확한 자질기반 감성분석 결과를 제공할 수 있음을 확인하였다.

  • PDF

연결어미가 글 이해와 기억에 미치는 효과 (The effects of Korean logical ending connective affix on text comprehension and recall)

  • 남기춘;김현정;박창수;황유미;김영태;심현섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.251-258
    • /
    • 2004
  • 본 연구는 연결어미가 글 이해와 기억에 미치는 영향을 조사하고, 연결어미의 효과와 글읽기 능력과는 어떤 관련성이 있는지를 조사하기 위해 실시되었다. 연결어미로는 인과 관계와 부가 관계를 나타내는 연결어미가 사용되었다. 앞뒤에 제시되는 두 문장의 국소적 응집성(Local coherence)을 형성하는데 연결어미가 도움을 준다면, 연결어미가 있는 경우에 문장을 이해하는 속도가 빨라지고 글 내용을 기억하는 데에도 도움을 줄 것으로 예측하였다. 만일에 글읽기 능력이 연결어미를 적절히 사용할 수 있는 능력에 의해서도 영향을 받는다면, 연결어미의 출현 여부와 읽기 능력간에 상호작용이 있을 것으로 예측하였다. 실험 1에서는 인과 관계 연결어미를 사용하여 문장 읽기 시간에 연결어미의 출현이 미치는 효과와 문장 회상에 미치는 효과를 조사하였다. 실험 결과, 인과 관계 연결어미는 뒤의 문장을 읽는데 촉진적인 효과를 주었으며, 이런 연결어미의 효과는 읽기 능력에 관계없이 일관된 촉진 효과를 나타냈다. 또한, 연결어미의 출현은 문장의 회상에 도움을 주었으며, 연결어미가 문장 회상에 미치는 효과는 읽기 능력의 상하에 관계없이 일관되게 나타났다. 실험 2에서는 부가 관계 연결어미가 문장 읽기 시간과 회상에 미치는 효과를 조사하였다. 실험 결과. 부가 관계 연결어미 역시 인과 관계 연결어미와 유사한 형태의 효과를 보였다. 실험 1과 실험 2의 결과는 인과 관계와 부가 관계 연결어미가 앞뒤 문장의 응집성 형성에 긍정적인 영향을 주고, 이런 연결어미의 글읽기에 대한 효과는 글읽기 능력에 관계없이 일정하다는 것을 시사한다.건이 복합 명사의 중심어 선택과 의미 결정에 재활용 될 수 있으며, 병렬말뭉치에 의해 반자동으로 구축되는 의미 대역 패턴을 사용하여 데이터 구축의 어려움을 개선하고자 한다. 및 산출 과정에 즉각적으로 활용될 수 있을 것이다. 또한, 이러한 정보들은 현재 구축중인 세종 전자사전에도 직접 반영되고 있다.teness)은 언화행위가 성공적이라는 것이다.[J. Searle] (7) 수로 쓰인 것(상수)(象數)과 시로 쓰인 것(의리)(義理)이 하나인 것은 그 나타난 것과 나타나지 않은 것들 사이에 어떠한 들도 없음을 말한다. [(성중영)(成中英)] (8) 공통의 규범의 공통성 속에 규범적인 측면이 벌써 있다. 공통성에서 개인적이 아닌 공적인 규범으로의 전이는 규범, 가치, 규칙, 과정, 제도로의 전이라고 본다. [C. Morrison] (9) 우리의 언어사용에 신비적인 요소를 부인할 수가 없다. 넓은 의미의 발화의미(utterance meaning) 속에 신비적인 요소나 애정표시도 수용된다. 의미분석은 지금 한글을 연구하고, 그 결과에 의존하여서 우리의 실제의 생활에 사용하는 $\ulcorner$한국어사전$\lrcorner$ 등을 만드는 과정에서, 어떤 의미에서 실험되었다고 말할 수가 있는 언어과학의 연구의 결과에 의존하여서 수행되는 철학적인 작업이다. 여기에서는 하나의 철학적인 연구의 시작으로 받아들여지는 이 의미분석의 문제를 반성하여 본다.반인과 다르다는 것이 밝혀졌다. 이 결과가 옳다면 한국의 심성 어휘집은 어절 문맥에 따라서 어간이나 어근 또는 활용형 그 자체로 이루어져

  • PDF

한국어 규칙 동사와 불규칙 동사의 심성 어휘집 접근 과정 (The Lexical Access of Regular and Irregular Korean Verbs in the Mental Lexicon)

  • 박희진;구민모;남기춘
    • 인지과학
    • /
    • 제23권1호
    • /
    • pp.1-23
    • /
    • 2012
  • 본 연구는 한국어 동사의 활용된 형태인 굴절 동사의 심성어휘집 접근 과정을 알아보기 위한 연구이다. 이를 위하여 차폐 점화 어휘 판단과제 실험을 실시하여 점화크기를 비교하였다. 한국어 규칙 동사와 불규칙 동사를 다섯 가지로 나누어 실험을 수행하였다. 활용의 종류는 1) 완전규칙 2) 발음변화규칙 3) 철자변화규칙 4) 어간변화 불규칙 5) 어미변화 불규칙으로 1), 2), 3)은 규칙 활용의 범주로 4), 5)는 불규칙활용의 범주이다. 기본형의 동사를 표적자극으로 사용하였고, 점화자극으로 총 세 가지 유형이 사용하였다. 점화자극으로 사용한 자극은 기본형의 어간의 변화가 없는 규칙활용, 기본형의 어간이 철자적, 음운적으로 변화하는 불규칙활용과, 의미 및 형태적으로 관련 없는 통제된 단어이다. 또한 단어재인의 처리에서 형태소 분해 정보처리의 시간대를 살펴보기 위하여 SOA의 간격을 43ms, 72ms, 230ms의 3가지로 나누어 실험하였다. 모든 동사가 모든 SOA에서 규칙활용과 불규칙활용이 통제단어에 비해 빠른 반응시간을 보임으로써 점화효과가 관찰되었다. 그러나 규칙활용과 불규칙활용에서 뚜렷이 점화효과의 차이가 관찰되지 않는다. 이러한 규칙활용과 불규칙활용의 범주의 구분 없이 비슷한 패턴을 보여주는 결과는 한국어가 단순히 규칙과 불규칙의 기준으로 나뉘어서 처리되지 않는다는 것을 시사한다. 또한 모든 SOA에서 촉진효과를 보임으로써 형태소 정보처리가 초기과정부터 일어남을 확인하였다.

  • PDF

웹툰 콘텐츠 추천을 위한 소비자 감성 패턴 맵 개발 (Development of Customer Sentiment Pattern Map for Webtoon Content Recommendation)

  • 이준식;박도형
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.67-88
    • /
    • 2019
  • 웹툰은 인터넷의 특징적 요소들을 활용하여 제작되는 만화 콘텐츠를 온라인 환경에서 소비 가능한 형태로 유통하는 한국형 디지털 만화 플랫폼이다. 최근 웹툰 산업의 급격한 성장과 함께 웹툰 콘텐츠의 공급량이 기하급수적으로 증가함에 따라, 효과적인 웹툰 콘텐츠 추천 방안의 필요성이 커지고 있다. 웹툰은 회화적 요소와 문학적 요소, 디지털 요소의 복합적 산물로서, 독자로 하여금 재미를 느끼게 하고 웹툰이 연출하는 상황에 이입·공감하게 하는 등 소비자의 감성을 자극하는 디지털 콘텐츠 상품이다. 따라서 웹툰이 소비자에게 전달하는 감성이 소비자가 웹툰을 선택함에 있어 중요한 기준으로 작용할 것이라 기대할 수 있다. 본 연구는 기존에 충분히 논의되지 않았던 소비자 감성을 중심으로, 웹툰 콘텐츠의 효과적인 추천을 지원할 수 있는 소비자 감성 패턴맵의 개발을 목적으로 한다. 본 연구의 수행을 위해 '네이버 웹툰' 플랫폼에서 서비스되는 200개 작품에 대한 메타데이터와 소비자 감성어휘 정보를 수집하였다. 분석 목적에 부합하지 않는 작품을 제외한 127개 작품에 대해 488개의 감성어휘가 수집되었다. 이후 수집된 감성어휘들 간 유사감성 통합, 중복감성 배제 과정을 Bottom-up 접근으로 수행하여 총 63개 감성유형으로 축소된 웹툰 특화 감성지표를 구축하였다. 구축한 감성지표에 대한 탐색적 요인분석을 수행하여 웹툰 유형을 분류할 수 있는 3개의 중요 차원을 도출하고, 이를 기준으로 K-Means 클러스터링을 수행하여 전체 웹툰을 4개 유형으로 분류하였다. 각각의 유형에 대해 웹툰-감성 2-Mode 네트워크를 구축하여 웹툰 유형별로 나타나는 감성 패턴의 특징을 살펴보았으며, 프로파일링 분석을 통해 웹툰 유형별 인사이트와 실무적으로 의미 있는 전략적 시사점을 도출할 수 있었다. 본 연구의 결과를 통해 웹툰의 추천 및 분류의 영역에서 소비자 감성의 활용 가능성을 확인하고, 웹툰 생태계 내 구성원들이 소비자를 보다 잘 이해하고 전략을 수립할 수 있도록 돕는 가이드라인을 제시하였다는 점에서 의의가 있다.