• 제목/요약/키워드: Semantic tagging

검색결과 37건 처리시간 0.021초

의미역 태깅의 제문제 (Consideration of Semantic Role Tagging)

  • 김윤정;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.75-80
    • /
    • 2015
  • 본고는 기존 연구에서 상정한 의미역에 기반하여 의미역 태깅 작업 중 실제 문장에 의미역을 태깅하는 데 나타난 문제점들에 대해 재고해보았다. 의미역을 태깅하는 데에 격틀 사전을 이용한 반자동의미역태깅프로그램의 정상적인 구동을 위한 사전의 재정비와 실제 문장에서는 드러나지만 사전에서는 나타나지 않는 문형 정보를 상세히 검토해야 함을 알게 되었다. 이를 해결하기 위해 격틀사전의 기본 사전이 표준국어대사전의 통사정보 제시를 문제삼아 이를 해결하기 위한 방안을 모색하고, 실제 문장에서 격교체에 의해 나타나고 있는 논항정보교체에 대처하기 위한 방안을 마련하고자 한다.

  • PDF

하위범주화 사전의 구축 및 자동 확장 (Development and Automatic Extraction of Subcategorization Dictionary)

  • 이수선;박현재;우요섭
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.179-181
    • /
    • 2000
  • 한국어의 통사적, 의미적 중의성 해결을 위해 하위범주화 사전을 구축하였다. 용언에 따라 제한될 수 있는 문형 패턴과 의미역(semantic roles) 정보의 표준을 정하여 이를 부가하였고 구축한 하위범주화 사전이 명사에 대한 의미를 갖고 있는 계층 시소러스 의미사전과 연동하도록 용언과 명사와의 의미적 연어 관계에 따라 의미마커를 부여했다. 논문에서 구현된 하위범주화 사전이 구문과 어휘의 중의성을 어느 정도 해소하는지 확인하기 위해 반자동적으로 의미 태깅(Sense Tagging)된 말뭉치와 구문분석된 말뭉치를 통해 검증 작업을 수행했다. 이 과정에서 자동으로 하위범주 패턴에 대한 빈도 정보나, 연어정보, 각 의미역과 용언의 통계적 공기 정보 등을 추출하여 하위범주화사전에 추가시켰다. 또한 여기서 얻은 정보를 기준으로 하위범주화 사전을 자동으로 확장하는 알고리즘을 적용하여 확장시켰다.

  • PDF

A Rule-Based Analysis from Raw Korean Text to Morphologically Annotated Corpora

  • Lee, Ki-Yong;Markus Schulze
    • 한국언어정보학회지:언어와정보
    • /
    • 제6권2호
    • /
    • pp.105-128
    • /
    • 2002
  • Morphologically annotated corpora are the basis for many tasks of computational linguistics. Most current approaches use statistically driven methods of morphological analysis, that provide just POS-tags. While this is sufficient for some applications, a rule-based full morphological analysis also yielding lemmatization and segmentation is needed for many others. This work thus aims at 〔1〕 introducing a rule-based Korean morphological analyzer called Kormoran based on the principle of linearity that prohibits any combination of left-to-right or right-to-left analysis or backtracking and then at 〔2〕 showing how it on be used as a POS-tagger by adopting an ordinary technique of preprocessing and also by filtering out irrelevant morpho-syntactic information in analyzed feature structures. It is shown that, besides providing a basis for subsequent syntactic or semantic processing, full morphological analyzers like Kormoran have the greater power of resolving ambiguities than simple POS-taggers. The focus of our present analysis is on Korean text.

  • PDF

폭소노미 사이트를 위한 랭킹 프레임워크 설계: 시맨틱 그래프기반 접근 (A Folksonomy Ranking Framework: A Semantic Graph-based Approach)

  • 박현정;노상규
    • Asia pacific journal of information systems
    • /
    • 제21권2호
    • /
    • pp.89-116
    • /
    • 2011
  • In collaborative tagging systems such as Delicious.com and Flickr.com, users assign keywords or tags to their uploaded resources, such as bookmarks and pictures, for their future use or sharing purposes. The collection of resources and tags generated by a user is called a personomy, and the collection of all personomies constitutes the folksonomy. The most significant need of the folksonomy users Is to efficiently find useful resources or experts on specific topics. An excellent ranking algorithm would assign higher ranking to more useful resources or experts. What resources are considered useful In a folksonomic system? Does a standard superior to frequency or freshness exist? The resource recommended by more users with mere expertise should be worthy of attention. This ranking paradigm can be implemented through a graph-based ranking algorithm. Two well-known representatives of such a paradigm are Page Rank by Google and HITS(Hypertext Induced Topic Selection) by Kleinberg. Both Page Rank and HITS assign a higher evaluation score to pages linked to more higher-scored pages. HITS differs from PageRank in that it utilizes two kinds of scores: authority and hub scores. The ranking objects of these pages are limited to Web pages, whereas the ranking objects of a folksonomic system are somewhat heterogeneous(i.e., users, resources, and tags). Therefore, uniform application of the voting notion of PageRank and HITS based on the links to a folksonomy would be unreasonable, In a folksonomic system, each link corresponding to a property can have an opposite direction, depending on whether the property is an active or a passive voice. The current research stems from the Idea that a graph-based ranking algorithm could be applied to the folksonomic system using the concept of mutual Interactions between entitles, rather than the voting notion of PageRank or HITS. The concept of mutual interactions, proposed for ranking the Semantic Web resources, enables the calculation of importance scores of various resources unaffected by link directions. The weights of a property representing the mutual interaction between classes are assigned depending on the relative significance of the property to the resource importance of each class. This class-oriented approach is based on the fact that, in the Semantic Web, there are many heterogeneous classes; thus, applying a different appraisal standard for each class is more reasonable. This is similar to the evaluation method of humans, where different items are assigned specific weights, which are then summed up to determine the weighted average. We can check for missing properties more easily with this approach than with other predicate-oriented approaches. A user of a tagging system usually assigns more than one tags to the same resource, and there can be more than one tags with the same subjectivity and objectivity. In the case that many users assign similar tags to the same resource, grading the users differently depending on the assignment order becomes necessary. This idea comes from the studies in psychology wherein expertise involves the ability to select the most relevant information for achieving a goal. An expert should be someone who not only has a large collection of documents annotated with a particular tag, but also tends to add documents of high quality to his/her collections. Such documents are identified by the number, as well as the expertise, of users who have the same documents in their collections. In other words, there is a relationship of mutual reinforcement between the expertise of a user and the quality of a document. In addition, there is a need to rank entities related more closely to a certain entity. Considering the property of social media that ensures the popularity of a topic is temporary, recent data should have more weight than old data. We propose a comprehensive folksonomy ranking framework in which all these considerations are dealt with and that can be easily customized to each folksonomy site for ranking purposes. To examine the validity of our ranking algorithm and show the mechanism of adjusting property, time, and expertise weights, we first use a dataset designed for analyzing the effect of each ranking factor independently. We then show the ranking results of a real folksonomy site, with the ranking factors combined. Because the ground truth of a given dataset is not known when it comes to ranking, we inject simulated data whose ranking results can be predicted into the real dataset and compare the ranking results of our algorithm with that of a previous HITS-based algorithm. Our semantic ranking algorithm based on the concept of mutual interaction seems to be preferable to the HITS-based algorithm as a flexible folksonomy ranking framework. Some concrete points of difference are as follows. First, with the time concept applied to the property weights, our algorithm shows superior performance in lowering the scores of older data and raising the scores of newer data. Second, applying the time concept to the expertise weights, as well as to the property weights, our algorithm controls the conflicting influence of expertise weights and enhances overall consistency of time-valued ranking. The expertise weights of the previous study can act as an obstacle to the time-valued ranking because the number of followers increases as time goes on. Third, many new properties and classes can be included in our framework. The previous HITS-based algorithm, based on the voting notion, loses ground in the situation where the domain consists of more than two classes, or where other important properties, such as "sent through twitter" or "registered as a friend," are added to the domain. Forth, there is a big difference in the calculation time and memory use between the two kinds of algorithms. While the matrix multiplication of two matrices, has to be executed twice for the previous HITS-based algorithm, this is unnecessary with our algorithm. In our ranking framework, various folksonomy ranking policies can be expressed with the ranking factors combined and our approach can work, even if the folksonomy site is not implemented with Semantic Web languages. Above all, the time weight proposed in this paper will be applicable to various domains, including social media, where time value is considered important.

컴포넌트 그리드: 개발자 친화적인 국방 소프트웨어 재사용 지원 환경 (Component Grid: A Developer-centric Environment for Defense Software Reuse)

  • 고인영;구형민
    • 소프트웨어공학소사이어티 논문지
    • /
    • 제23권4호
    • /
    • pp.151-163
    • /
    • 2010
  • 국방 소프트웨어 개발 분야는 응용 도메인이 다양하며 각 도메인의 규모도 다른 분야보다 커서 소프트웨어 자산의 재사용이 중요시 되고 있고, 재사용 되는 자산의 품질 및 신뢰성이 강조된다. 국방 분야에서 이러한 중요성을 인식하고 재사용 방법론들을 개발하여 사용하려는 시도가 많았지만 체계적인 재사용이 이루어지지 않아 재사용 이익을 극대화 하지 못하였다. 본 연구에서는 실질적으로 재사용이 왜 잘 이루어지지 않는지에 대한 문제점들을 분석하고, 이러한 문제점들을 해결할 수 있는 요구사항들을 정리하였다. 이러한 요구사항을 만족하며 전군적 소프트웨어 재사용을 지원하는 개발자 친화적인 재사용 지원 환경인 컴포넌트 그리드 시스템을 개발하고 있다. 컴포넌트 그리드 시스템 개발을 위해 아키텍처를 설계하였고, 아키텍처를 구성하는 세부적인 핵심 요소들과 그 역할을 정의하였다. 개발자 부담의 감소를 위한 시맨틱 태깅(Semantic Tagging) 기반의 요구사항 추적 기술을 개발하였고, 재사용 지식 표현 모델을 개발하였다. 또한 개발자들 간의 자유로운 의사소통 과 자산 및 지식의 교류를 지원하기 위해 웹 기반의 자산 관리 환경과 소셜 네트워크 기반의 자산 검색 및 커뮤니티 추천 기법, 위키(Wik) 기반의 참여적, 협력적 지식 정제 및 증식 환경을 개발하였다. 이러한 접근법들을 통합하여 재사용을 지원할 수 있는 웹 기반 컴포넌트 그리드 시스템의 프로토타입을 구현하였다. 본 연구를 통해 국방 소프트웨어 개발 분야에서 개발자들이 소프트웨어 자산들을 투명하고 효율적으로 공유 및 재사용이 가능하게 하여 국방 소프트웨어의 재사용성 및 품질을 향상시킬 수 있으리라 기대한다.

  • PDF

NLP기반 NER을 이용해 소셜 네트워크의 조직 구조 탐색을 위한 협력 프레임 워크 (A Collaborative Framework for Discovering the Organizational Structure of Social Networks Using NER Based on NLP)

  • 프랭크 엘리호데;양현호;이재완
    • 인터넷정보학회논문지
    • /
    • 제13권2호
    • /
    • pp.99-108
    • /
    • 2012
  • 방대한 양의 데이터로부터 정보추출의 정확도를 향상시키기 위한 많은 방법이 개발되어 왔다. 본 논문에서는NER(named entity recognition), 문장 추출, 스피치 태깅과 같은 여러 가지의 자연어 처리 작업을 통합하여 텍스트를 분석하였다. 데이터는 도메인에 특화된 데이터 추출 에이전트를 사용하여 웹에서 수집한 텍스트로 구성하였고, 위에서 언급한 자연어 처리 작업을 사용하여 비 구조화된 데이터로부터 정보를 추출하는 프레임 워크를 개발하였다. 조직 구조의 탐색을 위한 택스트 추출 및 분석 관점에서 연구의 성능을 시뮬레이션을 통해 분석하였으며, 시뮬레이션 결과, 정보추출에서 MUC 및 CoNLL과 같은 다른 NER 분석기 보다 성능이 우수함을 보였다.

한국어 동형이의어 태깅 시스템 구현 (Implementation Tagging System of Korea Homonym)

  • 김준수;최호섭;이왕우;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.24-30
    • /
    • 2002
  • 본 논문은 한국어 정보처리에서 발생하는 단어 중의성 문제를 해결하기 위하여, 사전 뜻풀이 말뭉치에서 추출하여 구축한 의미정보 데이터베이스(Semantic Information Database)와 이를 활용한 단어 중의성 해결 모델을 이용한 실용적인 동형이의어 태깅 시스템 개발을 목적으로 한다. 중 소규모의 국어사전 150,000여 개의 표제어 전체의 뜻풀이에 품사 태그를 부착한 117만 어절 규모의 뜻풀이 말뭉치를 구축한 후 사전에 등재된 14,000여 개의 동형이의어 중 뜻풀이에 나타나는 8,164개의 동형이의어에 표제어 어깨번호를 이용한 의미 태그를 부착함으로써, 대량의 동형이의어 분별을 위한 공기(coocurrence)하는 단어와 빈도(frequency)정보를 추출하여 데이터베이스화 할 수 있었다. 본 동형이의어 태깅 시스템의 정확률 측정과 문제점 발견을 위해 (21세기 세종 계획) 프로젝트에서 제공하는 150만 어절 의미 태그 부착 말뭉치를 대상으로 실험한 결과 세종 150만 의미 태그 부착 말뭉치에 고빈도로 출현하는 469개 어휘(총 출현 횟수 249.249개)에 대한 정확률이 91.58%로 나타났다.

  • PDF

Paddle 기반의 중국어 Multi-domain Task-oriented 대화 시스템 (Chinese Multi-domain Task-oriented Dialogue System based on Paddle)

  • 등우진;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.308-310
    • /
    • 2022
  • With the rise of the Al wave, task-oriented dialogue systems have become one of the popular research directions in academia and industry. Currently, task-oriented dialogue systems mainly adopt pipelined form, which mainly includes natural language understanding, dialogue state decision making, dialogue state tracking and natural language generation. However, pipelining is prone to error propagation, so many task-oriented dialogue systems in the market are only for single-round dialogues. Usually single- domain dialogues have relatively accurate semantic understanding, while they tend to perform poorly on multi-domain, multi-round dialogue datasets. To solve these issues, we developed a paddle-based multi-domain task-oriented Chinese dialogue system. It is based on NEZHA-base pre-training model and CrossWOZ dataset, and uses intention recognition module, dichotomous slot recognition module and NER recognition module to do DST and generate replies based on rules. Experiments show that the dialogue system not only makes good use of the context, but also effectively addresses long-term dependencies. In our approach, the DST of dialogue tracking state is improved, and our DST can identify multiple slotted key-value pairs involved in the discourse, which eliminates the need for manual tagging and thus greatly saves manpower.

폭소노미 태그의 생성과 성장에 관한 연구 - LibraryThing을 중심으로 - (A Study on Creation and Development of Folksonomy Tags on LibraryThing)

  • 김동숙;정연경
    • 한국문헌정보학회지
    • /
    • 제44권4호
    • /
    • pp.203-230
    • /
    • 2010
  • 본 연구는 LibraryThing내의 베스트셀러 40권에 대한 태그를 6개월 간격으로 수집하여 폭소노미의 생성과 성장을 분석하였다. 이를 통해 태그의 양적, 질적 성장과 그러한 태그가 갖는 주된 의미와 주제 표현의 활용가능성을 살펴보았다. 본 연구의 결과로 첫째, 이용자 태깅의 동기는 개인의 자료 정리나 검색용도, 욕구의 성취, 감정 표출과 같은 자신을 위한 목적과 타인과 경험을 공유하거나 자신의 행동이 사회에 도움이 되길 바라는 사회성이 강조된 목적으로 구분되며, 사회적 동기가 부여된 태그는 74.12%로 드러났다. 둘째, 시간의 흐름에 따라 전체 태그 수와 이용 빈도수에서 성장세를 보였다. 셋째, 태그의 성장세가 큰 항목은 출판 시기 및 읽은 시기, 장르, 핵심 주제어, 등장인물, 책에 대한 소감 부분이었으며 주제관련 태그의 비율이 가장 높은 비중을 차지하였다. 넷째, LCSH 중에서 해당 장르, 핵심 주제어, 등장인물이 다수 부여되었으며 시간이 흐르면서 좀 더 세부적인 핵심 주제어와 등장인물이 추가되었고, LCSH와 일치하는 태그의 수도 소폭 상승하였다. 다섯째, 핵심 태그는 해당 시대의 지식을 반영하는 용어 집단으로서 역할을 하는 것으로 나타났다. 앞으로 폭소노미가 형태적인 단점을 극복하고, 내적으로 시맨틱 의미를 찾으며, 일대기를 고려한 유동적인 용어집단으로서 기존의 택소노미와 함께 적극 활용되기 위해서는 태그의 생성부터 양적, 질적 성장까지 전 과정을 지속적으로 모니터링하고 지원해야 할 것이다.

User Edited Contents 생성을 위한 동영상 메타데이터 스키마 설계 및 저작 도구 구현 (Design of a Video Metadata Schema and Implementation of an Authoring Tool for User Edited Contents Creation)

  • 송인선;낭종호
    • 정보과학회 논문지
    • /
    • 제42권3호
    • /
    • pp.413-418
    • /
    • 2015
  • 본 논문에서는 UEC (User Edited Contents)를 생성을 위한 비디오 세그먼트 검색에 적합한 동영상 메타데이터 스키마를 설계 및 제안한다. 전통적인 동영상 하위 구조 및 내용 정보 구조와 달리, 제안한 동영상 메타데이터 스키마에서 메타데이터는 Title-Event-Place (Scene)-Shot의 계층적인 구조를 가지며, 각 단위 세그먼트 별로 저장하여야 할 정보를 구조화하여 정의하였다. 현재 생성되어 배포되고 있는 UEC에 대한 논리적인 특징 분석을 통해 Pilot 태깅 실험을 설계하고, 피 실험자들의 태깅 행태와 태그들의 분석을 통해 이러한 메타데이터의 구성 방식과 스키마를 설계하였다. 제안한 시키마는 UEC 생성을 위한 동영상 검색의 특성을 고려하여 설계되었기 때문에 UEC 생성에 유용한 비디오 세그먼트를 범용 MPEG-7 MDS (Multimedia Description Scheme) 보다 쉽게 찾을 수 있도록 한다.