• Title/Summary/Keyword: 자질 결합

Search Result 65, Processing Time 0.031 seconds

A probabilistic information retrieval model by document ranking using term dependencies (용어간 종속성을 이용한 문서 순위 매기기에 의한 확률적 정보 검색)

  • You, Hyun-Jo;Lee, Jung-Jin
    • The Korean Journal of Applied Statistics
    • /
    • v.32 no.5
    • /
    • pp.763-782
    • /
    • 2019
  • This paper proposes a probabilistic document ranking model incorporating term dependencies. Document ranking is a fundamental information retrieval task. The task is to sort documents in a collection according to the relevance to the user query (Qin et al., Information Retrieval Journal, 13, 346-374, 2010). A probabilistic model is a model for computing the conditional probability of the relevance of each document given query. Most of the widely used models assume the term independence because it is challenging to compute the joint probabilities of multiple terms. Words in natural language texts are obviously highly correlated. In this paper, we assume a multinomial distribution model to calculate the relevance probability of a document by considering the dependency structure of words, and propose an information retrieval model to rank a document by estimating the probability with the maximum entropy method. The results of the ranking simulation experiment in various multinomial situations show better retrieval results than a model that assumes the independence of words. The results of document ranking experiments using real-world datasets LETOR OHSUMED also show better retrieval results.

An Emotional-Shadow Playing Tool for Casual Environment (기본환경에서의 그림자 놀이 도구 연구)

  • Lim, Yang-Mi;Hwang, Ji-Yeon;Park, Jin-Wan
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02a
    • /
    • pp.513-518
    • /
    • 2006
  • 본 논문에서는 특별한 스튜디오 조명이 아닌 가정용 혹은 학교용 조명 하에서 동작하는 감정 표현이 가능한 그림자 놀이 도구를 소개한다. 이 놀이는 사용자의 실사로부터 추출된 가상 그림자에 사용자의 동작에 따라 실시간으로 반응하는 가상 표정 애니메이션 캐릭터를 투영한다. 이 놀이 도구는 행위전시 등의 공연 환경뿐만 아니라 가정, 학교 등의 일상 환경에서도 동작이 가능하도록 설계되었다. 따라서 가장 일반적인 조명의 하나인 가정용 형광등과 백열등 환경을 가정하였고, 배경에 대해서는 어떤 제약도 가정하지 않았다. 사용자의 실사를 구분하는 과정에는 배경 차분화 기법을 사용하였고, 빛의 산란 및 실제 그림자의 영향 등으로 인한 잡음을 최소화하기 위해 몇 가지 잡음 제거 알고리즘을 결합하여 적용하였다. 이 도구에서 가상 그림자의 표정 애니메이션은 사용자의 손동작에 따라 변화하며, 손동작 및 머리 위치의 추적을 위해 새로이 고안한 자질 기반 추적 기법을 적용하였다. 이 도구는 공연장에서의 인터렉티브 미디어 아트 전시 또는 공연, 아동 대상의 미술 교육, 예술치료 등의 분야에 활용될 수 있을 것으로 판단된다.

  • PDF

Korean Part-of-Speech Tagging using Automatically Acquired Lexical Information (어휘 정보의 자동 추출과 이를 이용한 한국어 품사 태깅)

  • Kang, In-Ho;Kim, Do-Wan;Lee, Sin-Mok;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.117-122
    • /
    • 1999
  • 본 연구는 형태소 분석에 필요한 언어 지식과 품사 태깅에 필요한 확률 정보를 별도의 언어 지식 추가 없이 학습 말뭉치를 통해서 얻어내는 방법을 제안한다. 먼저 품사 부착된 학습 말뭉치로부터 형태소 사전과 결합 정보를 추출한다. 그리고 자주 발생하는 어절 및 해석상 모호성이 많은 어절에 대해서는 학습 말뭉치에서 발견된 형태소 분석 결과를 저장하여 형태소 분석에 소요되는 시간과 형태소 분석의 정확률을 높인다. 또한 미등록어의 많은 부분을 차지하는 인명, 지명, 조직명에 대해서는 정보 추출 분야에서 사용하는 고유 명사 분류법으로 해결한다. 품사 태깅을 위해서는 품사열 정보와 품사열 정보로는 해결할 수 없는 경우를 위한 어휘 정보를 학습 말뭉치에서 추출한다. 품사열 정보와 어휘 정보는 정형화 과정을 거쳐 최대 엔트로피 모델의 자질로 사용되어 품사 태깅 시스템을 위한 확률 분포를 구성한다. 본 연구에서 제안하는 방법은 학습 말뭉치를 기반으로 한다는 특성에 의해 다양한 영역에 사용하기 쉽다. 또한 어휘 정보로 품사 문맥 정보를 보완하기 때문에 품사 분류 체계와 형태소 해석 규칙에 영향을 적게 받는다는 장점을 가진다. MATEC '99 데이터 실험 결과 형태소 단위로 94%의 재현률과 93%의 정확률을 얻을 수 있었다.

  • PDF

Character-Aware Neural Networks with Multi-Head Attention Mechanism for Multilingual Named Entity Recognition (Multi-Head Attention 방법을 적용한 문자 기반의 다국어 개체명 인식)

  • Cheon, Min-Ah;Kim, Chang-Hyun;Park, Ho-Min;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.167-171
    • /
    • 2018
  • 개체명 인식은 문서에서 인명, 지명, 기관명 등의 고유한 의미를 나타내는 단위인 개체명을 추출하고, 추출된 개체명의 범주를 결정하는 작업이다. 최근 개체명 인식과 관련된 연구는 입력 데이터의 앞, 뒤를 고려하기 위한 Bi-RNNs와 출력 데이터 간의 전이 확률을 이용한 CRFs를 결합한 방식을 기반으로 다양한 변형의 심층학습 방법론이 제안되고 있다. 그러나 대부분의 연구는 입력 단위를 단어나 형태소로 사용하고 있으며, 성능 향상을 위해 띄어쓰기 정보, 개체명 사전 자질, 품사 분포 정보 등 다양한 정보를 필요로 한다는 어려움이 있다. 본 논문은 기본적인 학습 말뭉치에서 얻을 수 있는 문자 기반의 입력 정보와 Multi-Head Attention을 추가한 Bi-GRU/CRFs을 이용한 다국어 개체명 인식 방법을 제안한다. 한국어, 일본어, 중국어, 영어에 제안 모델을 적용한 결과 한국어와 일본어에서는 우수한 성능(한국어 $F_1$ 84.84%, 일본어 $F_1$ 89.56%)을 보였다. 영어에서는 $F_1$ 80.83%의 성능을 보였으며, 중국어는 $F_1$ 21.05%로 가장 낮은 성능을 보였다.

  • PDF

A Simultaneous Recognition Technology of Named Entities and Objects for a Dialogue Based Private Secretary Software (대화형 개인 비서 시스템을 위한 하이브리드 방식의 개체명 및 문장목적 동시 인식기술)

  • Lee, ChangSu;Ko, YoungJoong
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.18-23
    • /
    • 2013
  • 기존 대화시스템과 달리 대화형 개인 비서 시스템은 사용자에게 정보를 제공하기 위해 앱(APP)을 구동하는 방법을 사용한다. 사용자가 앱을 통해 정보를 얻고자 할 때, 사용자가 필요로 하는 정보를 제공해주기 위해서는 사용자의 목적을 정확하게 인식하는 작업이 필요하다. 그 작업 중 중요한 두 요소는 개체명 인식과 문장목적 인식이다. 문장목적 인식이란, 사용자의 문장을 분석해 하나의 앱에 존재하는 여러 정보 중 사용자가 원하는 정보(문장의 목적)가 무엇인지 찾아주는 인식작업이다. 이러한 인식시스템을 구축하는 방법 중 대표적인 방법은 사전규칙방법과 기계학습방법이다. 사전규칙은 사전정보와 규칙을 적용하는 방법으로, 시간이 지남에 따라 새로운 규칙을 추가해야하는 문제가 있으며, 규칙이 일반화되지 않을 경우 오류가 증가하는 문제가 있다. 또 두 인식작업을 파이프라인 방식으로 적용 할 경우, 개체명 인식단계에서의 오류를 가지고 문장목적 인식단계로 넘어가기 때문에 두 단계에 걸친 성능저하와 속도저하를 초래할 수 있다. 이러한 문제점을 해결하기 위해 우리는 통계기반의 기계학습방법인 Conditional Random Fields(CRF)를 사용한다. 또한 사전정보를 CRF와 결합함으로써, 단독으로 수행하는 CRF방식의 성능을 개선시킨다. 개체명과 문장목적인식의 구조를 분석한 결과, 비슷한 자질을 사용할 수 있다고 판단하여, 두 작업을 동시에 수행하는 방법을 제안한다. 실험결과, 사전규칙방법보다 제안한 방법이 문장단위 2.67% 성능개선을 보였다.

  • PDF

Bioactivities and Isolation of Functional Compounds from Decay-Resistant Hardwood Species (고내후성 활엽수종의 추출성분을 이용한 신기능성 물질의 분리 및 생리활성)

  • 배영수;이상용;오덕환;최돈하;김영균
    • Journal of Korea Foresty Energy
    • /
    • v.19 no.2
    • /
    • pp.93-101
    • /
    • 2000
  • Wood of Robinia pseudoacacia and bark of Populus alba$\times$P. glandulosa, Fraxinus rhynchophylla and Ulmus davidiana var. japonica were collected and extracted with acetone-water(7:3, v/v) in glass jar to examine whether its bioactive compounds exist. The concentrated extracts were fractionated with hexane, chloroform, ethylacetate and water, and then freeze-dried for column chromatography and bioactive tests. The isolated compounds were sakuranetin-5-O-$\beta$-D-glucopyranoside from Populus alba $\times$Pl glandulosa, 4--ethyoxy-(+)-leucorobinetinidin frm R. pseudoacacia and fraxetion from F. rhynchophylla and were characterized by $^1H$ and$^{13}C $ NMR and positive FAB-MS. Decay-resistant activity was expressed by weight loss ratio and hyphae growth inhibition in the wood dust agar medium inoculated wood rot fungi. R. pseudoacacia showed best anti-decaying property in both test and its methanol untreated samples, indicating higher activity than methanol treated samples in hyphae grwoth test. In antioxidative test, $\alpha$-tocopherol, one of natural antioxidants, and BHT, one of synthetic antioxidants, were used as references to cmpare with the antioxidant activities of the extacted fractions. Ethylacetate fraction of F. rhynchophylla bark indicated the hightest activity in this test and all fractions of R. pseudiacacia extractives also indicated higher activities compared with the other fractions. In the isolated compounds, aesculetin isolated from F. rhynchophylla bark showed best activity and followed by robonetinidin from R. pseudoacaica.

  • PDF

A Comparative Research on End-to-End Clinical Entity and Relation Extraction using Deep Neural Networks: Pipeline vs. Joint Models (심층 신경망을 활용한 진료 기록 문헌에서의 종단형 개체명 및 관계 추출 비교 연구 - 파이프라인 모델과 결합 모델을 중심으로 -)

  • Sung-Pil Choi
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.57 no.1
    • /
    • pp.93-114
    • /
    • 2023
  • Information extraction can facilitate the intensive analysis of documents by providing semantic triples which consist of named entities and their relations recognized in the texts. However, most of the research so far has been carried out separately for named entity recognition and relation extraction as individual studies, and as a result, the effective performance evaluation of the entire information extraction systems was not performed properly. This paper introduces two models of end-to-end information extraction that can extract various entity names in clinical records and their relationships in the form of semantic triples, namely pipeline and joint models and compares their performances in depth. The pipeline model consists of an entity recognition sub-system based on bidirectional GRU-CRFs and a relation extraction module using multiple encoding scheme, whereas the joint model was implemented with a single bidirectional GRU-CRFs equipped with multi-head labeling method. In the experiments using i2b2/VA 2010, the performance of the pipeline model was 5.5% (F-measure) higher. In addition, through a comparative experiment with existing state-of-the-art systems using large-scale neural language models and manually constructed features, the objective performance level of the end-to-end models implemented in this paper could be identified properly.

Developing an Automated English Sentence Scoring System for Middle-school Level Writing Test by Using Machine Learning Techniques (기계학습을 이용한 중등 수준의 단문형 영어 작문 자동 채점 시스템 구현)

  • Lee, Gyoung Ho;Lee, Kong Joo
    • Journal of KIISE
    • /
    • v.41 no.11
    • /
    • pp.911-920
    • /
    • 2014
  • In this paper, we introduce an automatic scoring system for middle-school level writing test based on using machine learning techniques. We discuss overall process and features for building an automatic English writing scoring system. A "concept answer" which represents an abstract meaning of text is newly introduced in order to evaluate the elaboration of a student's answer. In this work, multiple machine learning algorithms are adopted for scoring English writings. We suggest a decision process "optimal combination" which optimally combines multiple outputs of machine learning algorithms and generates a final single output in order to improve the performance of the automatic scoring. By experiments with actual test data, we evaluate the performance of overall automated English writing scoring system.

An Experimental Study on an Effective Word Sense Disambiguation Model Based on Automatic Sense Tagging Using Dictionary Information (사전 정보를 이용한 단어 중의성 해소 모형에 관한 실험적 연구)

  • Lee, Yong-Gu;Chung, Young-Mee
    • Journal of the Korean Society for information Management
    • /
    • v.24 no.1 s.63
    • /
    • pp.321-342
    • /
    • 2007
  • This study presents an effective word sense disambiguation model that does not require manual sense tagging Process by automatically tagging the right sense using a machine-readable and the collocation co-occurrence-based methods. The dictionary information-based method that applied multiple feature selection showed the tagging accuracy of 70.06%, and the collocation co-occurrence-based method 56.33%. The sense classifier using the dictionary information-based tagging method showed the classification accuracy of 68.11%, and that using the collocation co-occurrence-based tagging method 62.09% The combined 1a99ing method applying data fusion technique achieved a greater performance of 76.09% resulting in the classification accuracy of 76.16%.

Curriculum Development for Major of Mechatronics for the Accreditation of Engineering Education (공학교육 인증을 위한 메카트로닉스 전공 교육과정의 개발)

  • Lee Jeong-Woo;Jeong Yeon-Doo;Sim Byoung-Min;Chae Kyung-Duck;Han Seh-Beom;Hwang Yeong-Taik
    • Journal of Engineering Education Research
    • /
    • v.8 no.2
    • /
    • pp.5-15
    • /
    • 2005
  • This paper describes the development of curriculum for the division of Mechatronics in Samcheok University to meet the requirement of Accreditation Board for Engineering Education of Korea(ABEEK). The curriculum of the department of mechatronics in South Korea and overseas university is analysed and then the curriculum is developed considering the synergistic combination of mechanical engineering, electronic engineering, control engineering and computer engineering. And then the geopolitical condition of university is reflected in the curriculum. ABEEK requirements for major of engineering are also reflected. As a result, interdisciplinary curriculum that provides analytic capability and pragmatic qualification to students is developed.