• Title/Summary/Keyword: 언어 분석

Search Result 4,670, Processing Time 0.025 seconds

An Approach to Automatically Generating Infobox for Wikipedia in Cross-languages through Translation and Webgraph (번역과 웹그래프를 활용한 언어 간 위키피디아 인포박스 자동생성 기법)

  • Kim, Eun-Kyung;Choi, DongHyun;Go, Eun-Bi;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.9-15
    • /
    • 2011
  • 여러 언어로 작성되는 위키피디아의 경우 언어 간에 등록되어 있는 정보의 양과 내용이 달라 언어 간 정보를 상호 추출하고 서로 통합하는 연구에 대한 관심이 증가하고 있다. 특히, 위키피디아의 요약본으로써 의미가 있는 인포박스는 위키피디아 아티클에 존재하는 구조화된 정보 중 가장 근간이 되는 정보로, 본 논문에서는 위키피디아에 존재하는 인포박스를 1)소스 언어 자원으로부터 획득하여 타겟 언어로 번역하고, 2)번역된 결과물과 웹그래프를 이용하여 타겟 언어 데이터에서 획득하는 정보와 결합하는 과정을 통해 자동으로 인포박스를 생성하는 기법에 대하여 설명한다. 웹그래프는 위키피디아에 존재하는 링크 구조를 통해 서로 다른 두 용어간의 관련도를 측정하여 인포박스에 추가될 내용을 파악하는데 사용한다. 본 논문의 기법은 언어 간 인포박스를 생성하는 측면에서, 영어 인포박스 데이터를 입력으로 하여 한국어 인포박스 데이터를 생성하는 방식으로 진행하였다. 평가를 위하여 기존 한국어에 실제 존재하는 인포박스 데이터와 비교 실험하는 방식을 사용하여 평균적으로 40%의 정확률과 83%의 재현율을 나타내었다. 하지만, 기존 한국어에 존재하는 인포박스 데이터의 내용이 인포박스에 포함될 완전한 데이터를 모두 포함했다고 볼 수 없으므로 본 논문에서 제안하는 수행한 실험의 정확률이 상대적으로 낮게 나온 것으로 분석되었다. 실제 사람이 수작업으로 새롭게 생성된 인포박스 데이터의 적합성을 판별한 경우 평균 76%의 정확률과 91%의 재현율을 나타내었다.

  • PDF

Korean Idiom Classification Using Word Embedding (워드 임베딩을 활용한 관용표현 인식 연구)

  • Park, Seo-Yoon;Kang, Ye-Jee;Kang, Hye-Rin;Jang, Yeon-Ji;Kim, Han-Saem
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.548-553
    • /
    • 2020
  • 우리가 쓰는 일상 언어 중에는 언어적 직관이 없는 사람은 의미 파악이 힘든 관용표현이 존재한다. 관용표현을 이해하기 위해서는 표현에 대한 형태적, 의미적 이해가 수반되어야 하기 때문이다. 기계도 마찬가지로 언어적 직관이 없기 때문에 관용표현에 대한 자연어 처리에는 어려움이 따른다. 특히 일반표현과 중의성 관계에 있는 관용표현의 특성이 고려되지 않은 채 문자적으로만 분석될 위험성이 높다. 본 연구에서는 '관용표현은 주변 문맥과의 관련성이 떨어진다'라는 가정을 중심으로 워드 임베딩을 활용한 관용표현과 일반표현에 대한 구분을 시도하였다. 실험은 4개 표현에 대해 이루어 졌으며 Skip-gram, Fasttext를 활용한 방법을 통해 관용표현은 주변 단어들과의 유사성이 떨어짐을 확인하였다.

  • PDF

Political Bias in Large Language Models and Implications on Downstream Tasks (거대 언어 모델의 정치적 편향과 하위 작업에서의 영향)

  • Jeong yeon Seo;Sukmin Cho;Jong C. Park
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.552-557
    • /
    • 2023
  • 거대 언어 모델의 성능이 비약적으로 높아지며 인간과의 직접적인 상호 작용 과정이 가능해지고, 이에 따라 윤리 검증의 필요성이 대두되고 있다. 본 연구에서는 인간이 지닌 여러 가치관 중에 정치에 초점을 둔다. 거대 언어 모델의 정치 성향이 사용자의 입력에 따라 변할 수 있는지와 하위 작업에 끼치는 영향에 대해 알아보고자 두 개의 실험을 설계하였고 이에 대한 결과를 분석하였다. 실험에는 거대 언어 모델의 정치 성향을 입력 대조군으로, 세가지 다른 입력 (탈옥 기법, 정치 페르소나, 탈옥 페르소나)을 입력 실험군으로 규정하였다. 실험 결과, 거대 언어 모델의 정치 성향은 탈옥 기법에서 가장 큰 폭으로 변화하였고, 정치 페르소나와 탈옥 페르소나에서는 변화가 크지 않아, 거대 언어 모델에 내재된 정치 성향의 영향에서 크게 벗어나지 못함을 확인하였다. 또한, 하위 작업에서의 실험을 통해 변화된 정치 성향은 하위 작업의 성능 개선을 가져올 수 있으며, 각 실험군에 따라 하위 작업에서 다른 방식의 양상을 보임을 확인하였다. 이는 실제 모델이 사용될 때 개인화된 응답보다는 모델이 선호하는 응답을 받게 되며, 거대 언어 모델의 정치 성향이 사용자에게 여과없이 노출될 수 있음을 시사한다.

  • PDF

Korean Dependency Parsing using Dynamic Oracle (동적 오라클을 이용한 한국어 의존 구문분석)

  • Lee, Gyoung Ho;Lee, Kong Joo
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.87-91
    • /
    • 2017
  • 구문분석은 자연언어처리의 오랜 관심 분야로 다양한 접근방법과 알고리즘이 시도되어 계속 발전하고 있다. 하지만 기존의 접근방법은, 학습단계에서는 정답으로부터 추출된 이전 정보를 사용하고 평가 단계에서는 예측으로 이루어진 정보를 활용한다는 근본적인 차이가 있다. 이러한 차이를 극복하기 위한 다양한 시도가 있었고 그 중 동적 오라클 기법이 합리적인 시간 증가와 성능향상을 보였다. 본 연구에서는 이러한 동적 오라클 기법을 한국어 구문분석에 적용하였다. 동적 오라클 기법을 한국어에 적용할 때 고려해야하는 부분에 대해 탐구하고 실험을 통해 동적 오라클 기법을 한국어 구문분석에 적용하여 결과를 살펴보았다.

  • PDF

Korean Dependency Parser Based on New Interpretation of Eojeol (새로운 어절 해석에 기반한 한국어 의존관계 파서)

  • Kang, Ho-Gwan;Lee, Jong-Hyeok;Lee, Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.327-331
    • /
    • 1997
  • 본 논문에서는 기계번역과 의미분석의 전단계로서의 구문분석에 대하여 논한다. 의존 문법에 기반을 둔 구문분석의 효율성을 위하여 한국어 어절에 대한 새로운 해석을 시도하며, 이를 기반으로 한국어 의존관계 파서의 새로운 기본 단위(SynN: Syntactic Node)를 제시한다. 또한 새로운 기본 단위를 구문분석 과정에 적용하는 방법과 그 결과를 보인다. 마지막으로, 구현된 구문분석기를 중간언어 방식 시스템인 한-중 기계번역 시스템에 채용하여 그 성능을 검증한다.

  • PDF

Unification based Chart Parsing for Korean (Chart와 단일화를 이용한 한국어 분석 기법)

  • Kwon, Hyuk-Chul;Chae, Young-Soog;Yun, Ae-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1989.10a
    • /
    • pp.15-20
    • /
    • 1989
  • 이 논문은 상대적으로 어순이 자유로운 언어인 한국어의 특성을 반영하면서, 모든 가능한 문장 구조를 분석할 수 있는 한국어 분석 방법을 제시한다. 특히 구절 구조에 의한 통사 표현 기능을 하위 범주화와 단일화에 의해 보완하는 기법을 이용하면서, bottom-up과 left-right에 의해 분석이 가능한 단일 과정 (one-path) 분석 기법을 이용하는 것이 본 논문의 특징이다. 그리고 하위 범주화와 서술어의 어미가 가진 양상 정보에 의존하여 한국어의 내포문 처리가 이루어져야함을 보여준다.

  • PDF

Semantic Parsing of Questions based on the Frame Semantics for Korean Question Answering System (한국어 질의응답 시스템을 위한 프레임 시멘틱스 기반 질의 의미 분석)

  • Hahm, Younggyun;Nam, Sangha;Choi, Key-Sun
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.122-127
    • /
    • 2016
  • 본 논문에서서는 질의응답 시스템을 위한 자연언어 질의 이해를 위하여 프레임 시멘틱스 기반 의미 분석방식을 제안한다. 지식베이스에 의존적인 질의 이해는 지식베이스의 불완전성에 의해 충분한 정보를 분석하지 못한다는 점에 착안하여, 질의의 술부-논항구조 및 그 의미에 대한 분석을 수행하여 자연언어 질의에서 나타난 정보들을 충분히 파악하고자 하였다. 본 시스템은 자연언어 질의를 입력으로 받아 이를 프레임 시멘틱스의 구조에 기반하여 기계가 읽을 수 있는 임의의 RDF 표현방식의 모형 쿼리를 생성한다.

  • PDF

A Quantitative Approach to a Similarity Analysis on the Culinary Manuscripts in the Chosun Periods (계량적 접근에 의한 조선시대 필사본 조리서의 유사성 분석)

  • Lee, Ki-Hwang;Lee, Jae-Yun;Paek, Doo-Hyun
    • Language and Information
    • /
    • v.14 no.2
    • /
    • pp.131-157
    • /
    • 2010
  • This article reports an attempt to perform a similarity analysis on a collection of 25 culinary manuscripts in Chosun periods using a set of quantitative text analysis methods. Historical culinary texts are valuable resources for linguistic, historic, and cultural studies. We consider the similarity of two texts as the distributional similarities of the functional components of the texts. In the case of culinary texts, text elements such as food names, cooking methods, and ingredients are regarded as functional components. We derive the similarity information from the distributional characteristics of the two key functional components, cooking methods and ingredients. The results are also quantified and visualized to achieve a better understanding of the properties of the individual texts and the collection of the texts as a whole.

  • PDF

A Korean Grammar Chacker Founded on Expanded Lexical Disambiguation Rule and Partial Parsing (확장한 어휘적 중의성 제거 규칙에 따른 부분 문장 분석에 기반한 한국어 문법 검사기)

  • Park, Su-Ho;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.516-522
    • /
    • 2001
  • 본 논문에서는 한국어 형태소 분석기가 처리할 수 없는 어휘적 중의성 해결을 위한 방법으로 부분 문장 분석 기법을 연구한다. 부분 문장 분석 기법의 신뢰도를 높이기 위해서 말뭉치를 이용한 데이터를 통해 학습한 경험적 규칙을 이용한다. 학습한 경험적 규칙을 오류 유형에 따라 확장하고 전문화하여 축적된 연구결과를 지식 베이스로 삼아 한국어 맞춤법 및 문법 검사기에서 사용하는 부분 문장 분석기의 성능을 향상시킨다. 본 논문에서 사용한 확장하고 전문화한 지식 베이스는 말뭉치에서 얻은 경험적 규칙을 기반으로 한다. 이 경험적 규칙은 언어적 지식을 기반으로 한다.

  • PDF

A Right-to-Left Parsing using Headable Path (지배가능경로를 이용한 오른쪽 우선 구문 분석)

  • Kim, Chang-Hyun;Kim, Jae-Hoon;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.35-44
    • /
    • 1993
  • 본 논문에서는 의존문법을 이용해 한국어와 같이 비교적 어순이 자유롭고, 지배성분 후위의 특성을 갖는 언어를 효율적으로 분석할 수 있는 오른쪽 우선 분석 방법을 제안한다. 지배가능경로를 이용하면 생성되는 의존 트리의 수를 줄일 수 있음을 보이며, 의존 관계의 검사를 위해서는 지배가능경로 상의 문장 성분만을 조사하면 됨을 보인다. 한국어에 적용한 실험 결과를 보이며, 각 방식에 따른 비교 기준은 생성되는 외존 트리의 갯수와 분석 수행 시간으로 한다. 이때 한국어 문장성분간의 의존관계는 품사 분류에 의한 기본적인 의존 관계만을 이용하며, 격돌이나 의미 속성 등 추가적인 제약 사항은 이용하지 않는다. 오른쪽 우선 구문 분석은 지배가능경로를 이용함으로써 의존 관계의 빠른 검색을 할 수 있었으며, 문장 지배 성찰을 포함하지 않는 부분 의존 트리를 생성하지 않음으로써 생성되는 의존 트리의 수를 줄일 수 있었다.

  • PDF