• 제목/요약/키워드: 레이블 추론

검색결과 17건 처리시간 0.019초

머신러닝 기반 유클리드 거리를 이용한 붓꽃 품종 분류 재구성 (A Reconstruction of Classification for Iris Species Using Euclidean Distance Based on a Machine Learning)

  • 남수태;신성윤;진찬용
    • 한국정보통신학회논문지
    • /
    • 제24권2호
    • /
    • pp.225-230
    • /
    • 2020
  • 기계학습은 데이터를 기반으로 한 컴퓨터를 학습시켜 컴퓨터 스스로 데이터의 경향성을 파악하게 하여 새로운 입력 데이터의 출력을 예측하도록 하는 알고리즘이다. 기계학습은 크게 지도학습, 비지도학습, 강화학습으로 나눌 수 있다. 지도학습은 데이터에 대한 레이블이 주어진 상태로 기계를 학습시키는 방법이다. 즉, 데이터 및 레이블의 쌍을 통해 해당 시스템의 함수를 추론하는 방법으로 새로운 입력 데이터에 대해서 추론한 함수를 이용하여 결과를 예측한다. 그리고 예측하는 결과 값이 연속 값이면 회귀분석, 예측하는 결과 값이 이산 값이면 분류로 사용된다. 새로운 붓꽃 데이터 Sepal length(5.01)과 Sepal width(3.43)을 이용하여 기초 데이터와 유클리드 거리를 분석하였다. 분석결과, 테이블 3의 8번(5, 3.4, setosa), 27번(5, 3.4, setosa), 41번(5, 3.5, setosa), 44번(5, 3.5, setosa) 그리고 40번(5.1, 3.4, setosa)의 데이터 순으로 유사도가 높은 붓꽃으로 분류되었다. 따라서 이론적 실무적 시사점을 제시하였다.

딥러닝 기반의 도메인 적응 기술: 서베이 (Deep Learning based Domain Adaptation: A Survey)

  • 나재민;황원준
    • 방송공학회논문지
    • /
    • 제27권4호
    • /
    • pp.511-518
    • /
    • 2022
  • 딥러닝 기반의 지도학습은 다양한 응용 분야에서 비약적인 발전을 이루었다. 그러나 많은 지도 학습 방법들은 학습 및 테스트 데이터가 동일한 분포에서 추출된다는 공통된 가정 하에 이루어진다. 이 제약 조건에서 벗어나는 경우, 학습 도메인에서 훈련된 딥러닝 네트워크는 도메인 간의 분포 차이로 인하여 테스트 도메인에서의 성능이 급격하게 저하될 가능성이 높다. 도메인 적응 기술은 레이블이 풍부한 학습 도메인 (소스 도메인)의 학습된 지식을 기반으로 레이블이 불충분한 테스트 도메인 (타겟 도메인) 에서 성공적인 추론을 할 수 있도록 딥러닝 네트워크를 훈련하는 전이 학습의 한 방법론이다. 특히 비지도 도메인 적응 기술은 타겟 도메인에 레이블이 전혀 없는 이미지 데이터에만 접근할 수 있는 상황을 가정하여 도메인 적응 문제를 다룬다. 본 논문에서는 이러한 비지도 학습 기반의 도메인 적응 기술들에 대해 탐구한다.

구조화된 웹 문서에 대한 자동 정보추출 (Automatic Information Extraction for Structured Web Documents)

  • 윤보현
    • 인터넷정보학회논문지
    • /
    • 제6권3호
    • /
    • pp.129-145
    • /
    • 2005
  • 본 논문에서는 구조화된 웹문서에서 자동으로 정보를 추출하고 추출된 정보를 통합하는 정보추출 시스템을 제안한다. 제안한 시스템은 레이블(label)이 없는 엔티티를 인식하기 위해 확률 기반 엔티티 인식 방법을 이용하며, 추출된 데이터를 이용하여 기존의 도메인 지식을 반자동으로 확장하는 기능을 제공한다. 게다가 기본 페이지에 링크된 하위 링크의 정보를 추출하는 기능을 제공하며, 도메인에 대한 이종의 정보 소스로부터 얻어진 유사 추출 결과를 통합하는 기능을 제공한다. 실험 결과, 도메인 지식만을 이용하여 웹 정보추출 시스템을 평가하였을 경우의 성능에 비해 하위링크의 정보를 추출하거나 확률 기반으로 레이블을 추론하여 추출 시스템을 평가한 경우의 성능이 상당히 향상됨을 보인다. 아울러 본 논문에서 제안하는 웹 정보추출 시스템은 도메인별로 시스템을 융통성 있게 적용시킬 수 있기 때문에 보다 다양한 정보들을 추출할 수 있다. 자동 도메인 지식의 확장이나 확률적 엔티티 인식 방법은 도메인 지식을 이용하는 프로그램이 추출할 수 있는 정보의 질을 증대시키기 때문에, 사용자의 만족도를 극대화시킬 수 있다는 장점이 있다. 따라서 본 시스템은 인터넷상의 영화 사이트나 공연 사이트 혹은 음식점 사이트에 대해서 정보를 추출해서 사용자의 지적 호기심을 충족시켜줄 수 있을 뿐만 아니라, 다양한 비교 시스템을 구축할 수 있기 때문에 전자 상거래의 활성화에도 기여한다.

  • PDF

개념 네트워크 기반 모바일 라이프 브라우저의 개발 (Development of Mobile Life Browser based on Concept Network)

  • 김경중;이영설;황금성;홍진혁;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.71-76
    • /
    • 2006
  • 핸드폰, 스마트폰, PDA와 같은 모바일 디바이스는 위치, 전화기록, SMS, 사진, 동영상 등 사용자에 관한 다양한 정보를 지속적으로 수집하는데 유용하다. 최근, 모바일 디바이스로부터 수집된 정보를 토대로 개인의 일상을 요약하거나 상위 수준의 행동을 추론하는 등의 서비스를 제공하려는 연구가 진행되고 있다. 본 논문에서는 모바일 디바이스에서 수집된 정보를 검색, 요약, 시각화하기 위한 플랫폼인 라이프 브라우저를 제안한다. 라이프 브라우저는 디바이스에 저장된 개인 정보를 효과적으로 검색할 수 있도록 해주고, 개념 네트워크를 활용하여 개념 검색을 지원하며, 키그래프 기반 정보 요약 기능을 제공한다. 위치 정보의 레이블링을 위해 블록 기반의 Location Positioning Server가 구축되었다. 실제 3명의 사용자를 대상으로 수집한 정보를 라이프 브라우저를 통해 회상해 보는 과정을 분석해 보았고 저수준의 로그 정보를 직접 다루는 것보다 개념 네트워크 기반 라이프 브라우저를 사용하는 것이 유용함을 확인할 수 있었다.

  • PDF

차분 프라이버시를 만족하는 안전한 GAN 기반 재현 데이터 생성 기술 연구 (A Study on Synthetic Data Generation Based Safe Differentially Private GAN)

  • 강준영;정수용;홍도원;서창호
    • 정보보호학회논문지
    • /
    • 제30권5호
    • /
    • pp.945-956
    • /
    • 2020
  • 많은 응용프로그램들로부터 양질의 서비스를 제공받기 위해서 데이터 공개는 필수적이다. 하지만 원본 데이터를 그대로 공개할 경우 개인의 민감한 정보(정치적 성향, 질병 등)가 드러날 위험이 있기 때문에 원본 데이터가 아닌 재현 데이터를 생성하여 공개함으로써 프라이버시를 보존하는 많은 연구들이 제안되어왔다. 그러나 단순히 재현 데이터를 생성하여 공개하는 것은 여러 공격들(연결공격, 추론공격 등)에 의해 여전히 프라이버시 유출 위험이 존재한다. 본 논문에서는 이러한 민감한 정보의 유출을 방지하기 위해, 재현 데이터 생성 모델로 주목받고 있는 GAN에 최신 프라이버시 보호 기술인 차분 프라이버시를 적용하여 프라이버시가 보존되는 재현 데이터 생성 알고리즘을 제안한다. 생성 모델은 레이블이 있는 데이터의 효율적인 학습을 위해 CGAN을 사용하였고, 데이터의 유용성 측면을 고려하여 기존 차분 프라이버시보다 프라이버시가 완화된 Rényi 차분 프라이버시를 적용하였다. 그리고 생성된 데이터의 유용성에 대한 검증을 다양한 분류기를 통해 실시하고 비교분석하였다.

설명가능한 의사결정을 위한 마이닝 기술 (Research on Mining Technology for Explainable Decision Making)

  • 정경용
    • 융합신호처리학회논문지
    • /
    • 제24권4호
    • /
    • pp.186-191
    • /
    • 2023
  • 데이터 처리 기술은 의사결정을 위해 중요한 역할을 하며, 데이터 결측값 및 이상값 처리, 예측, 추천 모델 등이 포함 된다. 이는 모든 과정과 결과의 타당성, 신뢰성, 정확성에 대한 명확한 설명이 필요하다. 또한 의사결정트리, 추론 등을 이용한 설명가능한 모델을 통해 데이터의 문제를 해결하고, 다양한 유형의 학습을 고려하여 모델 경량화를 진행할 필요가 있다. 육하원칙을 적용한 다중 계층 마이닝 분류 방법은 데이터 전처리 후 트랜잭션에서 빈번하게 발생하는 변수와 속성 간의 다차원 관계를 발견하는 방법이다. 이는 트랜잭션에서 마이닝을 이용하여 유의미한 관계를 발견하고, 회귀분석을 통해 데이터를 모델링 하는 방법을 설명한다. 이에따라 확장 가능한 모델과 로지스틱 회귀모델을 개발하고, 데이터 정제, 관련성 분석, 데이터 변환, 데이터 증강을 통해 클래스 레이블을 생성하여 설명가능한 의사결정을 위한 미이닝 기술을 제안한다.

전문어의 범용 공간 매핑을 위한 비선형 벡터 정렬 방법론 (Nonlinear Vector Alignment Methodology for Mapping Domain-Specific Terminology into General Space)

  • 김준우;윤병호;김남규
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.127-146
    • /
    • 2022
  • 최근 워드 임베딩이 딥러닝 기반 자연어 처리를 다루는 다양한 업무에서 우수한 성능을 나타내면서, 단어, 문장, 그리고 문서 임베딩의 고도화 및 활용에 대한 연구가 활발하게 이루어지고 있다. 예를 들어 교차 언어 전이는 서로 다른 언어 간의 의미적 교환을 가능하게 하는 분야로, 임베딩 모델의 발전과 동시에 성장하고 있다. 또한 핵심 기술인 벡터 정렬(Vector Alignment)은 임베딩 기반 다양한 분석에 적용될 수 있다는 기대에 힘입어 학계의 관심이 더욱 높아지고 있다. 특히 벡터 정렬은 최근 수요가 높아지고 있는 분야간 매핑, 즉 대용량의 범용 문서로 학습된 사전학습 언어모델의 공간에 R&D, 의료, 법률 등 전문 분야의 어휘를 매핑하거나 이들 전문 분야간의 어휘를 매핑하기 위한 실마리를 제공할 수 있을 것으로 기대된다. 하지만 학계에서 주로 연구되어 온 선형 기반 벡터 정렬은 기본적으로 통계적 선형성을 가정하기 때문에, 본질적으로 상이한 형태의 벡터 공간을 기하학적으로 유사한 것으로 간주하는 가정으로 인해 정렬 과정에서 필연적인 왜곡을 야기한다는 한계를 갖는다. 본 연구에서는 이러한 한계를 극복하기 위해 데이터의 비선형성을 효과적으로 학습하는 딥러닝 기반 벡터 정렬 방법론을 제안한다. 제안 방법론은 서로 다른 공간에서 벡터로 표현된 전문어 임베딩을 범용어 임베딩 공간에 정렬하는 스킵연결 오토인코더와 회귀 모델의 순차별 학습으로 구성되며, 학습된 두 모델의 추론을 통해 전문 어휘를 범용어 공간에 정렬할 수 있다. 제안 방법론의 성능을 검증하기 위해 2011년부터 2020년까지 수행된 국가 R&D 과제 중 '보건의료' 분야의 문서 총 77,578건에 대한 실험을 수행한 결과, 제안 방법론이 기존의 선형 벡터 정렬에 비해 코사인 유사도 측면에서 우수한 성능을 나타냄을 확인하였다.