• 제목/요약/키워드: 부분문법그래프

검색결과 9건 처리시간 0.111초

HRNCE 문법의 언어 생성력 (Language-generating-Power of HRNCE Grammars)

  • 정태의;박동선
    • 한국정보처리학회논문지
    • /
    • 제3권7호
    • /
    • pp.1659-1668
    • /
    • 1996
  • 스트링 문법은 그래프 언어와 부분집합인 스트링 언어를 생성하는 반면 그래프 문법은 그래프 언어를 생성한다. 그래프 문법 모델중 가장 성공적인 것중의 하나인 NLC문법은 노드 레이블을 이용하여 하나의 노드를 하나의 그래프로 치환 하므로서 그래프를 생성한다. 그래프를 포함하는 하아피그래프를 생성하는 하이퍼그래프 문법 모델로는 미리 정해놓은 접착점들의 순서를 이용하여 하나의 하이퍼에지를 하나의 하이퍼그래프로 치환하는 CFHG 문법, CFHG 문법의 확장형으로서 복제 및 삭제의 방벙 을 통해 하이페이지와 그것이 포함하고 있는 노드들, 즉 하나의 핸들을 하나의 하아 퍼그래프로 차환하는 HH 문법, 그리고 eNCE방식을 이용하여 하나의 핸들을 하나의 하아퍼그래프로 치환하는 HRNCE 문법 등이 소개되었다. 본 논문에서는 HRNCE 문법이 생성하는 그래프 언어와 위에서 언급된 기타의 그래프 문법들이 생성하는 그래프 언어 들을 비교하므로서 HRNCE 문법과 타 그래프 문법들의 언어 생성력을 비교 검토하고자 한다.

  • PDF

비디오 스크립트를 이용한 문법적 패턴 습득 모델링 (Modelling Grammatical Pattern Acquisition using Video Scripts)

  • 석호식;장병탁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.127-129
    • /
    • 2010
  • 본 논문에서는 다양한 코퍼스를 통해 언어를 학습하는 과정을 모델링하여 무감독학습(Unsupervised learning)으로 문법적 패턴을 습득하는 방법론을 소개한다. 제안 방법에서는 적은 수의 특성 조합으로 잠재적 패턴의 부분만을 표현한 후 표현된 규칙을 조합하여 유의미한 문법적 패턴을 탐색한다. 본 논문에서 제안한 방법은 베이지만 추론(Bayesian Inference)과 MCMC (Markov Chain Mote Carlo) 샘플링에 기반하여 특성 조합을 유의미한 문법적 패턴으로 정제하는 방법으로, 랜덤하이퍼그래프(Random Hypergraph) 모델을 이용하여 많은 수의 하이퍼에지를 생성한 후 생성된 하이퍼에지의 가중치를 조정하여 유의미한 문법적 패턴을 탈색하는 방법론이다. 우리는 본 논문에서 유아용 비디오의 스크립트를 이용하여 다양한 유아용 비디오 스크립트에서 문법적 패턴을 습득하는 방법론을 소개한다.

  • PDF

화장품 후기글의 자질기반 감성분석을 위한 다단어 표현의 유한그래프 사전 및 문법 구축 (Building Korean Multi-word Expression Lexicons and Grammars Represented by Finite-State Graphs for FbSA of Cosmetic Reviews)

  • 황창회;유광훈;최성용;신동혁;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.400-405
    • /
    • 2018
  • 본 연구는 한국어 화장품 리뷰 코퍼스의 자질기반 감성 분석을 위하여, 이 도메인에서 실현되는 중요한 다단어 표현(MWE)의 유한상태 그래프 사전과 문법을 구축하는 방법론을 제시하고, 실제 구축된 사전과 문법의 성능을 평가하는 것을 목표로 한다. 본 연구에서는 자연어처리(NLP)에서 중요한 화두로 논의되어 온 MWE의 어휘-통사적 특징을 부분문법 그래프(LGG)로 형식화하였다. 화장품 리뷰 코퍼스에 DECO 한국어 전자사전을 적용하여 어휘 빈도 통계를 획득하고 이에 대한 언어학적 분석을 통해 극성 MWE(Polarity-MWE)와 화제 MWE(Topic MWE)의 전체 네 가지 하위 범주를 분류하였다. 또한 각 모듈간의 상호관계에 대한 어휘-통사적 속성을 반복적으로 적용하는 이중 증식(double-propagation)을 통해 자원을 확장하였다. 이 과정을 통해 구축된 대용량 MWE 유한그래프 사전 DECO-MWE의 성능을 테스트한 결과 각각 0.844(Pol-MWE), 0.742(Top-MWE)의 조화평균을 보였다. 이를 통해 본 연구에서 제안하는 MWE 언어자원 구축 방법론이 다양한 도메인에서 활용될 수 있고 향후 자질기반 감성 분석에 중요한 자원이 될 것임을 확인하였다.

  • PDF

SNS 텍스트의 비정규토큰 분석 성능 향상을 위한 의존명사 내포 어형의 LGG 기반 패턴문법 사전 (LGG-based Phrase-Pattern Dictionaries of Non-Standard Tokens that contain Bound Nouns in Social Media Texts)

  • 최성용;신동혁;황창회;유광훈;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.394-399
    • /
    • 2018
  • 본 연구는 SNS 텍스트에서 형태소 분석기로 분석되지 않는 비정규토큰 유형 중 고빈도로 나타나는 의존명사 내포 어형의 형태소를 인식할 수 있는 LGG 기반 패턴문법 사전 구축과 그 성능을 평가하는 것을 목표로 한다. SNS 텍스트에서는 기존의 정형화된 텍스트와 달리, 띄어쓰기 오류로 인한 미분석어가 매우 높은 빈도로 나타나는데, 특히 의존명사를 포함한 유형이 20% 이상을 차지하며 가장 빈번한 것으로 나타났다. 이에 본 연구에서는 의존명사를 내포한 비정규토큰의 띄어쓰기 오류 문제를 효과적으로 처리하기 위해, 부분 문법 그래프(Local Grammar Graph: LGG) 프레임에 기반한 패턴문법 사전을 구축하였다. 이를 SNS 코퍼스에 적용하여 성능을 평가한 결과, 정확률 91.28%, 재현율 89%, 조화 평균 90.13%의 성능을 통해 본 연구의 접근 방법론의 유용성과 구축 자원의 실효성을 입증하였다.

  • PDF

기업 리뷰 웹 사이트 텍스트 분석을 통한 직원 불만 표현 추출과 불만 원인 도출 및 해소 방안 (Employee's Discontent Text Analysis on Anonymous Company Review Web and Suggestions for Discontent Resolve)

  • 백혜연;박용석
    • 한국정보통신학회논문지
    • /
    • 제23권4호
    • /
    • pp.357-364
    • /
    • 2019
  • 전현직 직원에 의한 산업정보 유출 비율이 80%에 이르나 산업정보유출 사고에 대한 뉴스기사나 정보유출 행위의 원인에 대한 연구들에서는 그 원인들을 처우나 인사 불만 등으로 간략하게 설명하고 있다. 본 연구에서는 전현직 직원들이 익명 기업리뷰 웹사이트에 남긴 기업에 대한 평가 텍스트를 분석하여 기업에 대한 불만 내용들을 더욱 구체적으로 확인하였다. 이 중 어떠한 불만사항이 퇴직이나 퇴사, 나아가 산업인력유출의 결과로 이어질 수 있는지 파악하기 위해 불만 분야에 대한 의미사전목록을 제시하고 부분문법그래프(LGG)를 구축하였다. 또한 텍스트 분석 결과에서 나타난 전현직 직원들의 불만사항과 기존 연구들에서 설문을 통해 정리한 인력유출 원인을 서로 비교하였다. 추가적으로 분석된 불만을 바탕으로 기업불만 해소를 통한 인력유출 방지 방안을 간략 제시하였다. 기존 설문 위주의 산업 인력 유출에 대한 분석에 더하여, 웹 크롤링을 통한 자유롭고 솔직한 불만 분석을 제공하는 데 의의가 있다.

휴먼 오피니언 자동 분류 시스템 구현을 위한 비결정 오피니언 형용사 구문에 대한 연구 (Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion)

  • 안애림;한용진;박세영;남지순
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.248-251
    • /
    • 2011
  • 본 연구에서는, 웹 문서로부터 특정 상품에 대한 의견 문장을 분석하는 오피니언 마이닝(Opinion Mining) 연구의 일환으로, 특히 함께 공기하는 자질 명사에 따라 그 극성 값이 달라지는 '비결정 오피니언어휘'의 처리를 위해서 도메인을 '맛집'으로 한정하여 공기하는 도메인 키워드의 목록을 결정하고, 이를 부분문법그래프(Local Grammar Graphs) 방법론을 통해서 이들 간의 어휘 통사적 관계를 결정해 주었다.

반자동 언어데이터 증강 방식에 기반한 FbSA 모델 학습을 위한 감성주석 데이터셋 FeSAD 구축 (Building Sentiment-Annotated Datasets for Training a FbSA model based on the SSP methodology)

  • 윤정우;황창회;최수원;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.66-71
    • /
    • 2021
  • 본 연구는 한국어 자질 기반 감성분석(Feature-based Sentiment Analysis: FbSA)을 위한 대규모의 학습데이터 구축에 있어 반자동 언어데이터 증강 기법(SSP: Semi-automatic Symbolic Propagation)에 입각한 자질-감성 주석 데이터셋 FeSAD(Feature-Sentiment-Annotated Dataset)의 개발 과정과 성능 평가를 소개하는 것을 목표로 한다. FeSAD는 언어자원을 활용한 SSP 1단계 주석 이후, 작업자의 주석이 2단계에서 이루어지는 2-STEP 주석 과정을 통해 구축된다. SSP 주석을 위한 언어자원에는 부분 문법 그래프(Local Grammar Graph: LGG) 스키마와 한국어 기계가독형 전자사전 DECO(Dictionnaire Electronique du COréen)가 활용되며, 본 연구에서는 7개의 도메인(코스메틱, IT제품, 패션/의류, 푸드/배달음식, 가구/인테리어, 핀테크앱, KPOP)에 대해, 오피니언 트리플이 주석된 FeSAD 데이터셋을 구축하는 프로세싱을 소개하였다. 코스메틱(COS)과 푸드/배달음식(FOO) 두 도메인에 대해, 언어자원을 활용한 1단계 SSP 주석 성능을 평가한 결과, 각각 F1-score 0.93과 0.90의 성능을 보였으며, 이를 통해 FbSA용 학습데이터 주석을 위한 작업자의 작업이 기존 작업의 10% 이하의 비중으로 감소함으로써, 학습데이터 구축을 위한 프로세싱의 소요시간과 품질이 획기적으로 개선될 수 있음을 확인하였다.

  • PDF

반자동구축된 개체명 주석코퍼스 DecoNAC과 KoBERT를 이용한 개체명인식 플랫폼 DecoNERO (A Named Entity Recognition Platform Based on Semi-Automatically Built NE-annotated Corpora and KoBERT)

  • 김신우;황창회;윤정우;이성현;최수원;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.304-309
    • /
    • 2020
  • 본 연구에서는 한국어 전자사전 DECO(Dictionnaire Electronique du COreen)와 다단어(Multi-Word Expressions: MWE) 개체명을 부분 패턴으로 기술하는 부분문법그래프(Local-Grammar Graph: LGG) 프레임에 기반하여 반자동으로 개체명주석 코퍼스 DecoNAC을 구축한 후, 이를 개체명 분석에 활용하고 또한 기계학습에 필요한 도메인별 학습 데이터로 활용하는 DecoNERO 개체명인식 플랫폼을 소개하는 데에 목적을 두었다. 최근 들어 좋은 성과를 보이는 것으로 보고되고 있는 기계학습 방법론들은 다양한 도메인을 기반으로한 대규모의 학습데이터를 필요로 한다. 본 연구에서는 정교하게 설계된 개체명 사전과 다단어 개체명 시퀀스에 대한 언어자원을 바탕으로 하는 반자동으로 학습데이터를 생성하는 방법론을 제안하였다. 본 연구에서 제안된 개체명주석 코퍼스 DecoNAC 기반 접근법의 성능을 실험하기 위해 온라인 뉴스 기사 텍스트를 바탕으로 실험을 진행하였다. 이 실험에서 DecoNAC을 적용한 경우, KoBERT 모델만으로 개체명을 인식한 결과에 비해 약 7.49%의 성능향상을 기대할 수 있음을 확인하였다.

  • PDF

IT 인물 관련 텍스트 정보의 효율적인 검색을 위한 Sub-language의 속성 연구 (Studies on the linguistic properties of the IT-People documents for an efficient Information Retrieval)

  • 고승희;김소연;천승미;남지순;김권양;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.241-249
    • /
    • 2007
  • 본 연구는 IT 인물 관련 텍스트 정보의 효율적인 검색을 위하여 문서 내에서 인물과 관련된 정보를 담고 있는 문장들이 어떠한 특징을 가지고 실현되는가를 살펴보고 언어적 속성을 어떻게 구조화하고 형식화할 것인가를 논의하는 것을 목적으로 한다. 언어적 속성 분석을 위해서 전자신문 내에서 인물 관련 코퍼스를 수집하고 이들의 분석을 통해 다음과 같이 문제가 되는 특징들을 확인하였다. 즉 외래어 음차 표기문제, 복합명사 및 명사구 그리고 서술 명사적 표현의 문제 등으로 요약된다. IT라는 특정 영역에 대해 텍스트 내에서의 어휘-통사적 패턴을 분석하고 언어적 특징에 대한 효율적 기술을 위해서는 LGG 부분 문법 그래프 모델을 활용하도록 한다. 본 연구는 특정 영역인 IT 관련 문서에서 자연언어 텍스트를 대상으로 정보 검색할 때 문제가 되는 다양한 언어학적 현상들을 다루며, 향후보다 확장된 영역에서의 효율적 언어 처리에 대한 방법론적 대안을 제시할 수 있을 것으로 기대된다.

  • PDF