• 제목/요약/키워드: sequence-to-sequence 모델

검색결과 695건 처리시간 0.027초

문단 단위 가중치 함수와 문단 타입을 이용한 문서 범주화 (Automatic Text Categorization Using Passage-based Weight Function and Passage Type)

  • 주원균;김진숙;최기석
    • 정보처리학회논문지B
    • /
    • 제12B권6호
    • /
    • pp.703-714
    • /
    • 2005
  • 문서 범주화 분야에 대한 연구들은 전체 문서 단위에 한정되어 왔으나, 오늘날 대부분의 전문들이 주요 주제를을 표현하기 위해서 조직화 된 특정 구조로 기술되고 있어, 텍스트 범주화에 대한 새로운 인식이 필요하게 되었다. 이러한 구조는 부주제(Sub-topic)의 텍스트 블록이나 문단(Passage) 단위의 나열로서 표현되는데, 이러한 구조 문서에 대한 부주제 구조를 반영하기 위해서 문단 단위(Passage-based) 문서 범주화 모델을 제안한다. 제안한 모델에서는 문서를 문단들로 분리하여 각각의 문단에 범주(Category)를 할당하고, 각 문단의 범주를 전체 문서의 범주로 병합하는 방법을 사용한다. 전형적인 문서 범주화와 비교할 때, 두 가지 부가적인 절차가 필요한데, 문단 분리와 문단 병합이 그것이다. 로이터(Reuter)의 4가지 하위 집합과 수십에서 수백 KB에 이르는 전문 테스트 컬렉션(KISTl-Theses)을 이용하여 실험하였는데, 다양한 문단 타입들의 효과와 범주 병합 과정에서의 문단 위치의 중요성에 초점을 맞추었다 실험한 결과 산술적(Window) 문단이 모든 테스트 컬렉션에 대해서 가장 좋은 성능을 보였다. 또한 문단은 문서 안의 위치에 따라 주요 주제에 기여하는 바가 다른 것으로 나타났다.

수정 연쇄 말콥체인을 이용한 2차원 공간의 추계론적 예측기법의 개발 (A Development of Generalized Coupled Markov Chain Model for Stochastic Prediction on Two-Dimensional Space)

  • 박은규
    • 한국지하수토양환경학회지:지하수토양환경
    • /
    • 제10권5호
    • /
    • pp.52-60
    • /
    • 2005
  • 본 연구에서는 기존 연쇄 말콥체인(Coupled Markov Chain, CMC) 확률식의 연산 경직성을 개선하기 위하여 일반화 된 2차원 연쇄 말콥체인(Generalized Coupled Markov Chain, GCMC) 확률식이 개발되었다. 또한 개발된 확률식에 근거하여 평면상에서 무작위적으로 분포하는 참조정보를 효율적으로 활용하는 연산 알고리듬이 개발되었다. 개발된 모델은 대안적 지구통계 기법으로의 새로운 기능성을 제시한다. 본 연구를 통해 새롭게 개발된 GCMC 확률식은 기존 CMC 확률식에 비해 보다 유연한 참조 정보 활용 가능성을 가지며 특수한 경우로 기존 CMC 확률식이 유도되었다. 또한 순차적 연산의 인위적 오류 발생 기능성 및 실제 야외 데이터의 낮은 빈도를 고려하여 무작위로 추출된 위치에서 각 범위를 이용한 연산 알고리듬이 제안되었다. 개발된 모델은 가상의 2차원 토양도에 적용되었으며 기존 지구통계 기법인 SIS에 비하여 손색이 없는 새로운 지구통계 기법으로 토양 및 지질을 포함한 다양한 예측에 이용 될 수 있는 가능성을 보였다. 낮은 빈도로 샘플링 된 지시자에 대해서는 기존 지구통계 기법과 마찬가지로 저평가되는 현상을 보였으며 이를 보완하기 위하여 다양한 소스의 데이터 융합 등을 바탕으로 한 계속적인 연구가 요구된다.

2차원 침수해석을 위한 수리학적 건물 일반화 기법의 적용 (Application of Hydro-Cartographic Generalization on Buildings for 2-Dimensional Inundation Analysis)

  • 박인혁;진기호;전가영;하성룡
    • 한국지리정보학회지
    • /
    • 제18권2호
    • /
    • pp.1-15
    • /
    • 2015
  • 인류의 문명의 시작된 이래 도시유역의 침수는 거주민과 해당지역의 시설에 화학적이고 물리적인 피해를 입혀왔다. 최근의 연구는 도시홍수와 침수를 해석을 위한 모델과 지형자료의 통합에 관한 연구가 주를 이뤄왔다. 그러나 2차원 모델의 구축과정에 많은 시간이 소요되고 높은 데이터 처리기술을 요구하는 경향이 있다. 게다가 건물의 격자화 과정에서 의도치 않는 격자가 발생하게 되어 해석결과의 신뢰도를 떨어뜨리기 때문에 고해상도의 데이터 구득과 모형을 구축하더라도 건물의 처리기법에 따라 해석결과가 달라진다. 따라서 2차원 침수해석모형의 건물의 자료를 입력 시에는 이러한 왜곡현상을 최소화 할 수 있도록 건물의 일반화 처리 혹은 건물의 직교성 확보 등의 전처리가 필요하다. 이에 본 연구의 목적은 2차원 침수해석결과의 신뢰도를 향상시킬 수 있는 건물의 일반화 기법을 개발하고 건물의 일반화에 따른 영향을 검토하는데 있다. 연구결과, 도시지역의 2차원 침수해석결과의 신뢰도를 향상시키기 위해서는 각종 수치지도로부터 DBM(Digital Building Model)을 생성하고 본 연구에서 제안한 방법 Aggregation-Simplification을 적용하여 건물의 일반화를 수행하는 것이 바람직하며 각 기법의 임계값은 대상지역의 건물의 공간적인 특성을 고려하여 설정하되 건물의 평균 간격과 건물 간격의 표준편차를 더한 값을 초과하지 않는 것이 바람직한 것으로 나타났다.

방사성폐기물의 심층 처분을 위한 부지특성조사 방법론 해외 사례 연구 (Review of Site Characterization Methodology for Deep Geological Disposal of Radioactive Waste)

  • 박경우;김경수;고용권;조영욱;지성훈
    • 방사성폐기물학회지
    • /
    • 제15권3호
    • /
    • pp.239-256
    • /
    • 2017
  • 방사성폐기물 지층 처분을 위한 부지 선정 과정에서 심층 처분장의 안전성을 평가하는데 필요한 입력 자료를 제공하기 위해 부지특성조사를 수행한다. 본 논문에서는 부지특성조사를 선도하여 수행하였던 해외 사례를 분석하고, 국내에서 방사성폐기물 처분을 위해 수행해야 할 부지특성조사 방법을 제안하고자 하였다. IAEA가 고려하는 부지특성조사 방법은 단계별 부지특성조사로 본 논문에서 소개된 해외의 경우도 이 방법을 따르고 있는데, 부지특성조사는 시기별, 조사 항목별로 다수의 지역에서 개략적인 부지의 정보를 도출하는 예비 부지특성조사와 조사 결과 선정된 지역에서 보다 자세한 부지특성자료를 생산하기 위한 상세 부지특성조사로 구분할 수 있다. 특히, 상세 부지특성조사 단계에서는 조사지역에 장심도 시추공을 굴착하여 심부 영역에 대한 지질 특성을 바탕으로, 수리지질, 수리-지화학, 암석역학, 열, 용질이동에 대한 특성을 도출해야 한다. 단계별 부지특성조사를 통해 도출된 부지 고유의 지질환경 특성은 부지특성모델로 구축되어야 하는데, 이를 종합하여 해석해야 비로소 조사지역의 부지특성을 이해하고, 지층 처분에 보다 유리한 부지를 최종 후보지역으로 선정할 수 있는 것이다. 해외 사례를 살펴본 결과, 부지특성조사 단계에 소요되는 시간은 대략 7~8년이 소요될 것으로 예상되나, 이를 계획하고 수행하는 시스템이 뒷받침 되지 않을 경우 보다 지연될 수 있을 것이다.

형질전환 생쥐의 후손에서 외래 유전자의 유전성에 대한 연구 (A Study on the Transmission of a Transgene in the Offspring of Transgenic Mice)

  • 염행철
    • 한국가축번식학회지
    • /
    • 제20권4호
    • /
    • pp.453-458
    • /
    • 1997
  • 형질전환 동물의 후손에서 transgene은 멘델의 법칙에 따라 유전된다고 일반적으로 인식되어져 왔다. 따라서 본 연구에서는 transgene이 이러한 인식과 일치하는지를 여러 세대를 통하여 확인하고 후손에서 어떻게 유전되는지를 연구하기 위하여 형질전환 생쥐를 생산하여 본 연구의 모델로 삼았다. 수정된 생쥐의 embryo에 DNA를 microinjection하는 방법으로 MMTV-LTR (long terminal repeat), bovine ($\alpha$s1-casein cDNA, 그리고 SV 40 splicing과 polyadenylation site 등의 sequence를 포함한 3.0Kb의 DNA가 주입되었다. 여기에서 태어난 새끼는 dot blot과 Southern blot에 의하여 transgene의 존재여부가 확인되어 founder line이 만들어졌다. 그들의 자손은 PCR에 의해서 transgene이 유전되는지를 확인하였다. F0의 72마리 새끼중에서 4마리의 Founder가 transgene을 가지고 있었다(5.6%). F0에서 F1으로의 유전(transmission)은 각각 33.3, 7.7, 0, 62.5%이었다. Transgene은 F1에서 F2로 각각 63.6, 5.9, 68.8% 유전되었고, F2에서 F3로 각각 85.7, 0, 88.2% 유전되었다. 따라서 본 연구 모델에 의하면 transgene은 멘델의 법칙을 따르는 경우와 deletion이 되는 경우로 각각 관찰되었다.

  • PDF

PCA와 HMM을 이용한 실시간 립리딩 시스템의 설계 및 구현 (Design and Implementation of a Real-Time Lipreading System Using PCA & HMM)

  • 이지근;이은숙;정성태;이상설
    • 한국멀티미디어학회논문지
    • /
    • 제7권11호
    • /
    • pp.1597-1609
    • /
    • 2004
  • 립리딩은 잡음 환경에서 저하되는 음성 인식률의 보상과 음성을 청취하기 어려운 상황에서의 음성인식보조 수단으로 많은 연구가 시도되고 있다. 기존 립리딩 시스템은 인위적인 조명 환경이나 얼굴과 입술 추출을 위하여 미리 정해진 제한된 조건에서 실험되어 왔다. 본 논문에서는 화자의 움직임이 허용되고 컬러나 조명과 같은 환경 변화에 제한조건을 완화한 영상을 이용하여 실시간 립리딩 시스템을 구현하였다. 본 논문의 시스템은 범용으로 사용되는 PC 카메라를 통해 입력받은 영상에서 얼굴과 입술 영역을 실시간으로 검출한 후, 립리딩에 필요한 영상정보를 추출하고 이 입술 영상 정보를 이용하여 실시간으로 발성 단어를 인식할 수 있다. 얼굴과 입술 영역 검출을 위하여 조명환경에 독립성을 갖는 색도 히스토그램 모델을 이용하였고 움직이는 화자의 얼굴 추적을 위하여 평균 이동 알고리즘을 이용하였다. 검출된 입술 영역에서 학습과 인식에 필요한 영상 정보를 추출하기 위하여 PCA(Principal Component Analysis)를 사용하였고, 인식 알고리즘으로는 HMM을 이용하였다. 실험 결과 화자종속일 경우 90%의 인식률을 보였으며 잡음이 있는 음성과 합병하여 인식률 실험을 해 본 결과, 음성 잡음비에 따라서 음성 인식률을 약 40~85%까지 향상시킬 수 있었다.

  • PDF

셋톱박스 오디언스 타겟팅을 위한 세션 기반 개인화 추천 시스템 개발 (Personalized Session-based Recommendation for Set-Top Box Audience Targeting)

  • 차지수;정구섭;김우영;양재원;백상덕;이원준;장서호;박태준;정찬우;김우주
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.323-338
    • /
    • 2023
  • 셋톱박스 오디언스(TV 시청자) 타겟팅의 핵심은 오디언스의 시청패턴을 분석하여 광고의 효과성이 높을 것으로 예상되는 오디언스에게 맞춤형 광고를 내보내는 것이다. 세션 기반 추천 시스템은 인터넷 광고 추천, 유저 검색 기록 기반 추천 등에 많이 이용되고 있지만, TV 광고의 측면에서 셋톱박스 데이터 수집의 어려움을 이유로 연구하기에 어려움이 있었다. 또한 오디언스 개인의 식별정보가 있는 데이터에서, 오디언스의 선호가 반영되는 시청 패턴을 모델링하는 데 한계가 있었다. 따라서 본 연구에서는 한국방송광고진흥공사(KOBACO)와 방송3사(SKB, KT, LGU+)와의 협업을 통해 익명화된 오디언스 4,847명의 6개월간 시청 데이터를 확보하여 연구를 진행하였으며, 유저-세션-아이템의 계층적 구조를 가지는 개인화 세션 기반 추천 시스템을 개발하여 성능 검증을 진행하였다. 그 결과, 셋톱박스 오디언스 데이터셋과 그 외 검증을 위한 2개의 데이터셋에서 제안된 모델이 비교 대상 모델보다 높은 성능을 보이는 것을 확인하였다.

현생 기저 피자식물에 대한 끝나지 않는 논쟁 (Endless debates on the extant basal-most angiosperm)

  • 김상태
    • 식물분류학회지
    • /
    • 제40권1호
    • /
    • pp.1-15
    • /
    • 2010
  • 한 분류군의 진화의 역사를 파악하기 위해서는 분류군 내에서 가장 먼저 분지한 군(기저군)을 알아내는 것이 중요하다. 피자식물의 계통과 진화를 이해하고자 많은 식물학자들은 형태적 연구와 화석적 증거에 의해 현존하는 피자식물들 중 가장 먼저 분지하여 다른 모든 피자식물들과 자매군을 형성하는 분류군을 파악하려고 노력해 왔다. 최근 분자계통학의 기술적 발달과 자료의 축적으로 현생 기저 피자식물군에 대한 객관적 증거들이 제시되고 있다. 여전히 논쟁의 여지는 있지만, 대부분의 식물계통학자들은 1) 다수의 유전자들의 계통분석적 접근, 2) 복제된 두 유전자군의 계통수 네트웍 형성법, 3) 유전자의 구조적 접근 등의 분자적 증거에 의해 현생 기저 피자식물이 뉴칼레도니아에 자생하는 1과 1속 1종 식물인 Amborella trichopoda Baill.임에 동의하고 있다. 그러나 또 다른 가능성으로 Nymphaeaceae (수련과)와 A. trichopoda가 하나의 분계조를 형성하고 형성된 분계조가 다른 모든 피자식물의 자매군임을 지지하는 증거들도 일부 제시되어 현생 기저 피자식물에 대한 논쟁은 계속되고 있다. 현대 분자생물학적인 신기술의 발달은 대량의 분자적 자료를 제공하고 있어 이들 논쟁 해결의 실마리를 제공해 주고 있고, 진화적 모델식물로서의 Amborella 전체 유전체의 염기서열 결정과 이에 대한 파생연구는 Darwin이 지독하게 풀리지 않는 미스터리라 표현한 피자식물의 기원과 분화에 대한 해답을 제시해 줄 수 있을 것으로 기대된다.

시간 데이타마이닝 프레임워크 (Temporal Data Mining Framework)

  • 이준욱;이용준;류근호
    • 정보처리학회논문지D
    • /
    • 제9D권3호
    • /
    • pp.365-380
    • /
    • 2002
  • 시간 데이타마이닝은 기존 데이타마이닝에 시간 개념을 추가하여 "시간값을 가진 대용량 데이타로부터 이전에 잘 알려지지는 않았지만, 묵시적이고 잠재적으로 유용한 시간 지식을 탐사하는 기술"로 정의된다. 시간 지식이란 주기적 패턴, 캘린더 패턴, 경향 등과 같이 시간 의미와 시간 관계를 가진 지식을 말한다. 실세계에서는 환자의 병력, 상품 구매 이력, 웹 로그 등과 같은 다양한 시간 데이타가 존재하며 이로부터 여러 형태의 유용한 시간 지식을 찾아낼 수 있다. 데이타마이닝에 대한 연구가 진행되면서 순차 패턴, 유사 시계열 탐사, 주기적 연관규칙 탐사 등과 같이 시간 지식을 탐사하고자 하는 시간 데이타마이닝에 대한 부분적인 연구가 수행되었다. 그러나 기존 연구는 단순히 데이타의 발생 순서 및 유사한 패턴을 찾아내는데 중점을 두고 있어 데이타가 포함하고 있는 시간 의미와 시간 관계를 탐사하는데 부족하며, 시간 지식의 전체적인 측면보다는 연관 규칙과 같은 일부분만을 다루고 있다는 문제점을 가지고 있다. 따라서 이 논문에서는 시간 데이타마이닝에 대한 체계적인 연구를 위하여 시간 데이타마이닝에 대한 기존 연구 내용과 해결해야 할 문제점을 분석하고 이를 바탕으로 전체적인 프레임워크를 제시하였다. 또한 그 구현 방안 및 적용평가를 수행하였다. 프레임워크에서는 시간 데이타마이닝 모델을 제안하고, 이를 바탕으로 시간 데이타마이닝 질의어와 시간 지식을 탐사할 수 있는 시간 데이타마이닝 시스템을 설계하였다.

순환 아키텍쳐 및 하이퍼파라미터 최적화를 이용한 데이터 기반 군사 동작 판별 알고리즘 (A Data-driven Classifier for Motion Detection of Soldiers on the Battlefield using Recurrent Architectures and Hyperparameter Optimization)

  • 김준호;채건주;박재민;박경원
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.107-119
    • /
    • 2023
  • 군인의 동작 및 운동 상태를 인식하는 기술은 웨어러블 테크놀로지와 인공지능의 결합으로 최근 대두되어 병력 관리의 패러다임을 바꿀 기술로 주목받고 있다. 이때 훈련 상황에서의 평가 및 솔루션 제공, 전투 상황에서의 효율적 모니터링 기능을 의도한대로 제공하기 위해서는 상태 판별의 정확도가 매우 높은 수준으로 유지되어야만 한다. 하지만 입력 데이터가 시계열 또는 시퀀스로 주어지는 경우, 기존의 피드포워드 신경망으로는 분류 성능을 극대화하는데 한계가 발생한다. 전장에서의 군사 동작 인식을 위해 다뤄지는 인간의 행동양식 데이터(3축 가속도 및 3축 각속도)는 시의존적 특성의 분석이 요구되기 때문에, 본 논문은 순환 신경망인 LSTM(Long-short Term Memory) 네트워크를 활용하여 취득 데이터의 이동 양상 및 순서 의존성을 파악하고 여덟 가지의 대표적 군사 동작(Sitting, Standing, Walking, Running, Ascending, Descending, Low Crawl, High Crawl)을 분류하는 고성능 인공지능 모델을 제안한다. 이때, 학습 조건 및 모델 변수는 그 정확도에 결정적인 영향을 끼치지만 인간의 수동적 조정이 필요해 비용 비효율적이고 최적의 값을 보장하지 못한다. 본 논문은 기계 스스로 일반화 성능이 극대화된 조건들을 취득할 수 있도록 베이지안 최적화를 활용해 하이퍼파라미터를 최적화한다. 그 결과, 최종 아키텍쳐는 학습 가능한 파라미터의 개수가 유사한 기존의 인공 신경망과 비교해서 오차율이 62.56% 감소할 수 있었으며, 최종적으로 98.39%의 정확도로 군사 동작 인식 기능을 구현할 수 있었다.