• 제목/요약/키워드: 입력데이터

검색결과 4,324건 처리시간 0.042초

주택가격동향조사를 위한 데이터편집 사례연구 (A Case Study of Data Editing for the Korean Housing Price Survey)

  • 박진우;박현주;김진억
    • 한국조사연구학회지:조사연구
    • /
    • 제6권1호
    • /
    • pp.83-98
    • /
    • 2005
  • 대규모 통계조사에서 수집된 데이터에는 오류나 결측값의 문제가 발생하기 마련이다. 조사, 데이터 입력, 데이터 처리 등의 과정에서 여러 가지 요인에 의해 이런 문제가 생길 수 있는데 이런 데이터를 방치한 채 통계를 생산할 경우 편향이나 다양한 분석에서의 불일치의 문제가 발생하게 되어 통계의 품질과 신뢰성을 떨어뜨릴 수 있으므로 수집된 데이터의 오류나 결측값을 찾아 수정하는 데이터편집은 매우 중요한 작업이다. 해외에서는 데이터편집의 문제를 공론화하여 다루고 있는 데 반해 우리나라에서 데이터편집에 관한 논의는 거의 없는 편이다. 본 연구의 목적은 주택가 격동향조사를 위한 데이터편집의 사례를 소개함으로 데이터편집에 대한 논의의 폭을 넓히는 데 있다. 조사목적에 맞도록 편집규칙을 정하는 과정 및 관련 자료들을 소개하고, 온라인조사라는 조사방식에 맞는 입력 데이터편집방법을 마련하여 실시하는 예들을 소개하며, 마지막으로 출력 데이터편집에 의해 입력 편집에서 걸러지지 않은 오류나 문제들을 제거하는 방법도 소개한다.

  • PDF

데이터 마이닝에서 배깅과 부스팅 알고리즘 비교 분석

  • 이영섭;오현정
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 춘계 학술발표회 논문집
    • /
    • pp.97-102
    • /
    • 2003
  • 데이터 마이닝의 여러 기법중 모형의 변동성을 줄이고 정확도가 높은 분류자를 형성하기 위하여 다양한 앙상블 기법이 연구되고 있다. 그 중에서 배깅과 부스팅 방법이 가장 널리 알려져 있다. 여러 가지 데이터에 이 두 방법을 적용하여 오분류율을 구하여 비교한 후 각 데이터 특성을 입력변수로 하고 배깅과 부스팅 중 더 낮은 오분류율을 갖는 알고리즘을 목표변수로 하여 의사결정나무를 형성하였다. 이를 통해서 배깅과 부스팅 알고리즘이 어떠한 데이터 특성의 패턴이 존재하는지 분석한 결과 부스팅 알고리즘은 관측치, 입력변수, 목표변수 수가 큰 것이 적합하고 반면에 배깅 알고리즘은 관측치, 입력변수, 목표변수 수의크기가 작은 것이 적합함을 알 수 있었다.

  • PDF

클래스 정보를 이용한 PCA 기반의 특징 추출 (PCA-based Feature Extraction using Class Information)

  • 박명수;나진희;최진영
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2005년도 춘계학술대회 학술발표 논문집 제15권 제1호
    • /
    • pp.428-432
    • /
    • 2005
  • 영상 데이터와 같은 대용량의 데이터를 분류하고자 할 경우, 입력 데이터의 차원을 줄여서 특징 벡터를 뽑아내는 전처리 과정은 필수적이다. 이 경우 특징 벡터가 입력 데이터의 정보를 최대한 포함하도록 하는 것이 중요하다. 특징 벡터를 뽑는 대표적인 방법으로는 PCA, ICA, LDA, MLP와 같은 특징 추출(feature extraction) 방법을 들 수 있다. PCA와 LDA는 무감독 학습 방식이고, LDA, MLP는 감독 학습 방식에 해당한다. 감독학습 방식의 경우 입력 정보와 함께 클래스 정보를 사용하기 때문에 데이터를 분류하기에 더 좋은 특징들을 뽑아낼 수 있는 장점이 있다. 본 논문에서는 무감독 학습 방식인 PCA에 클래스에 대한 정보를 함께 사용하여 특징을 추출함으로써 데이터 분류에 더욱 적합한 특징들을 뽑는 방법을 제안하였다. 그리고, Yale face database를 사용하여 제안한 알고리즘의 성능을 기존의 알고리즘과 비교, 테스트하였다.

  • PDF

입력 데이터 형식 및 Positive/Negative에 따른 한국어 증상 기반 질병 예측 모델 (Korean Symptom-Based Disease Prediction Model according to Input Data Format and Positive/Negative)

  • 김민정;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.418-421
    • /
    • 2023
  • 본 논문은 Word2Vec를 이용하여 한국어 증상 기반 질병 예측 모델을 제시한다. 아산병원 질환 백과의 크롤링 데이터를 세 가지 형식으로 나누어, 모델에 알맞은 데이터 형식을 찾고 모델에 적용한다. 가장 모델에 맞는 데이터 형식은 증상별 질병과 질병별 증상을 합친 경우이다. 데이터의 양을 늘려 임베딩 스페이스를 넓혔고, 가장 중요한 증상과 질병의 유사도도 정확하게 출력되었다. 이는 유사도가 높은 질병과 증상들이 제대로 학습이 되었다는 것을 알 수 있다. 이렇게 만들어진 예측 모델에 positive 증상을 입력하면 유사도가 향상되고, negative에 입력하면 하락하는 결과를 확인했다. 따라서 환자의 증상을 positive에 넣으면, 그 증상을 가진 질병이 가까워지는 반면, 환자의 증상이 아닌 증상을 negative에 넣으면, 환자에게 맞지 않는 질병이 멀어진다. 그러므로 환자의 상태에 맞는 질병을 유추해, 의사나 환자가 증상에 대한 질병을 알고 싶을 때 또는 검색에 유용하게 사용할 수 있다. 더불어, 질병의 진료과 데이터를 추가하여, 환자에게 맞는 진료과를 찾는 데도 도움을 줄 수 있다.

하이퍼네트워크를 이용한 EEG 신호의 시공간적 패턴 탐색 (Searching for Spatio-Temporal Pattern in EEG Signal with Hypernetwork)

  • 김은솔;이충연;이기석;이현민;김준식;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.331-334
    • /
    • 2011
  • 입력 데이터의 공통적인 특징을 찾아내는 방법은 기계 학습 분야의 중요한 분야이다. 일반적으로 입력 데이터의 형태적 패턴을 찾아내는 알고리즘들이 많이 연구되었는데, 최근에는 데이터의 입력 순서 또는 데이터 사이의 시간적 인과 관계와 같이 시간에 연관된 패턴을 찾는 방법이 주목을 받고 있다. 우리는 형태적 혹은 공간적 패턴 탐색에 뛰어난 성능을 보이는 하이퍼네트워크 모델을 확장하여 입력 데이터의 시공간적 패턴을 찾는 방법을 제시한다. 하이퍼네트워크는 두 개 이상의 변수를 하나의 엣지로 연결하여 문제공간을 탐색하는 모델로, 시간과 공간의 변수를 동시에 고려하여 데이터의 특성을 찾아내는 데에 적합하다. 이를 확인하기 위하여 사람의 EEG 신호를 분석하였는데, 시각적인 정보를 처리할 때와 언어적 정보를 처리할 때의 특징적인 패턴들을 찾았다.

실시간 오디오 스트림 생성/복원/전송 시스템 구현에 관한 연구 (A study on implementing real time audio stream generation/restruction/sending system)

  • 이경남;박인규
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1998년도 추계종합학술대회 논문집
    • /
    • pp.1199-1202
    • /
    • 1998
  • 4채널 입력으로부터 입력되는 오디오를 압축,복원,저장, 전송하는 ㅅ스템을 설계한다. 이러한 시스템은 보안 시스템 중에서 특정 센서로부터 alarm 신호를 디지털 데이터로 변환한 후, 압축시켜 저장하고 동시에 압축된 오디오 데이터를 비디오 데이터와 통합하여 하나의 스트림으로 만들어 통신망으로 보내주는 시스템에 적용된다. 이러한 시스템의 구조를 간단히 설명하면 아날로그 음성 신호를 디지털 음성 data로 변환하기 위해 OKI사의 MSM 7570L-91이라는 ADPCM codec을 사용하였고 ADPCMcodec을 거쳐 나온 ADPCM 데이터를 64Mbyte SDRAM에 저장하였다가 FIFO를 거쳐서 통신망으로 전송을 한다. 복원은 SDRAM에 저장된 ADPCM 데이터를 MSM 7570L-01을 거쳐 아날로그 신호로 변환한 후 엠프를 거쳐 스피커로 출력을 하게 된다.

  • PDF

진화적 방법을 이용한 퍼지제어기의 자동 생성에 관한 연구 (A Study on Automatic Generation of Fuzzy Controller by Genetic Algorithm)

  • 이지형;이광형
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1995년도 추계학술대회 학술발표 논문집
    • /
    • pp.203-210
    • /
    • 1995
  • 본 논문에서는 주어진 입출력 데이터로부터 유전자 알고리즘을 이용하여 퍼지제어 기를 자동 생성하는 방법에 대하여 기술한다. 주어진 입출력 데이터를 표현하는 퍼지제어기 는 각 유전자에 암호화되고, 퍼지제어기를 표현하는 각 유전자들은 서로 정보를 교환함으로 써 주어진 데이터를 적절히 표현하는 퍼지제어기를 탐색하게 된다. 유전자는 각 입력 변수 의 언어항을 정의하고, 퍼지제어규칙은 정의된 언어항과 주어진 데이터로부터 생성된다. 탐 색과정에서 퍼지제어기의 제어규칙과 각 입력변수의 언어항의 개수와 위치는 계속 변화하여 주어진 입출력 데이터를 잘 설명하는 퍼지제어기를 찾는다.

  • PDF

성능위주 화재와 피난시뮬레이션 입력데이터의 표준화 필요성에 대한 제안 (Proposals on the Input Data Standardization Needs of Fire and Evacuation Simulation in Performance Based Design)

  • 장근호
    • 한국화재소방학회논문지
    • /
    • 제30권5호
    • /
    • pp.18-25
    • /
    • 2016
  • 국내 성능위주설계 방법 및 기준에서는 다양한 입력 데이터들에 대한 입력 규정이 따로 마련되어있지 않으며, 설계자별로 인용하는 근거 데이터가 상이하여 피난허용시간과 피난완료시간에 많은 차이를 보이고 있다. 이는 성능위주 화재와 피난 시뮬레이션에 대한 신뢰도 문제와도 직결되고 있다. 시뮬레이션에 입력되는 다양한 데이터들을 표준화함으로서 설계자의 경험이나 기술능력에 무관하게 동일한 위험도의 건물에서는 동일한 결과가 도출되어야 한다. 또한 그 위험도 합당한 소방 방재설비가 설치되고 유사한 성능위주 대상 건물에서는 개연성 있는 초기투자비용이 소요됨으로서 효율적이고 효과적인 안전 확보가 이루어져야 할 것으로 판단된다.

분산 환경에서 신경망을 응용한 데이터 서버 마이닝 (Data Server Mining applied Neural Networks in Distributed Environment)

  • 박민기;김귀태;이재완
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2003년도 춘계종합학술대회
    • /
    • pp.473-476
    • /
    • 2003
  • 오늘날 인터넷은 하나의 거대한 분산 정보 서비스센터의 역할을 수행하며 여러 가지 많은 정보들과 이를 관리 운영하는 데이터 베이스 서버들은 분산된 네트워크 환경 속에서 광범위하게 존재하고 있다. 그러나 우리는 데이터 특성에 따라 입력 데이터를 처리할 서버를 결정하는데 여러 가지 어려움을 겪고 있다. 본 논문에서는 분산 환경 속에 존재하는 수많은 데이터들 가운데 신경망을 이용해 입력 데이터 패턴을 가장 효율적으로 처리할 수 있는 목적지 서버를 마이닝하는 기법과 이를 기반으로 한 지능적 데이터 마이닝 시스템 구조를 설계하였다. 그 결과로서 새로운 입력 데이터패턴이 신경망으로 구현된 동적 바인딩 방법에 따라 목적지 서버를 결정한 후 처리됨을 보였다. 이 기법은 데이터 웨어하우스, 통신 및 전력부하패턴 분석, 인구센서스 분석, 의료데이터 분석에 활용될 수 있다.

  • PDF

적응적으로 방향 데이터의 범위를 생성하여 패턴을 인식하는 보안시스템 (A Security System that Flexibly Generates a Range of Direction Data and Recognizes the Pattern)

  • 한주찬;전민성;김정영;최경주
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2016년도 하계학술대회
    • /
    • pp.103-105
    • /
    • 2016
  • 본 논문에서는 손의 움직임 패턴으로 암호를 구성하고, 이를 인식하는 보안 시스템에서 기존의 고정된 공간에서 방향 데이터 범위를 생성하여 입력되는 패턴마다 적응적으로 방향 데이터를 뽑아낼 수 없었던 단점을 극복하고자 입력되는 움직임 패턴의 방향 데이터를 입력 패턴마다 적응적으로 생성하는 방법을 제안한다. 기존의 고정된 공간에서의 방향 데이터 생성 방식 기법과 비교 실험한 결과 정인식률 94.2%로 기존방식의 91.4%보다 높은 인식률로 만족할 만한 성능을 보여줌을 확인할 수 있었다.

  • PDF