• 제목/요약/키워드: 데이터 정제

검색결과 469건 처리시간 0.032초

효율적인 카테고리 분류기법에 의한 연관 도메인 추천 서비스 (Related domain service by effective categorization)

  • 허형욱;이은주;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.702-705
    • /
    • 2008
  • 인터넷 사용자 증가에 따라 검색 엔진의 사용 또한 급격히 늘어나고 있는 추세이다. 국내외 다양한 검색 엔진들이 존재하지만 대부분의 자료들이 기본적인 카테고리별로 링크 횟수나 키워드 빈발 횟수에 따라 정렬이 되어 있다. 그러므로 사용자들은 수동적으로 정렬된 도메인들을 따라 가는 실정이다. 본 논문에서는 수동적인 서비스가 아닌 능동적인 서비스에 중점을 둔다. 특정 카테고리 내에서 접속한 사용자에게 최근 시점을 기준으로 가장 빈번하게 접속된 도메인 정보를 제공하여 시간의 단축과 유용한 서비스를 받도록 한다. 본 논문의 서비스 모델은 인터넷 사용자의 로그 데이터베이스와 도메인 데이터베이스를 기반으로 한다. 본 논문에서 제안하는 카테고리 분류 기법으로 두 데이터베이스를 통합하고 정제한다. 정제된 데이터들은 최종적으로 순차 패턴 마이닝 기법에 의해 최종 빈발 패턴을 추출 하게 되고 특정 카테고리에 접속한 사용자에게 도메인 형태로 변환 되어 서비스 하게 된다.

방송용 모니터의 방송 자막 디코더 시스템 개발 (Development of Closed Caption Decoder System on Broadcast Monitor)

  • 송영규;정제석
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2010년도 하계학술대회
    • /
    • pp.36-39
    • /
    • 2010
  • 멀티 포맷 방송용 모니터는 SDI 신호뿐만 아니라 HDMI, DVI, Component, Composite로 전송되는 영상, 음성, 부가 데이터를 보여주는 모니터로 방송용 레퍼런스 모니터로 사용되고 있다. 특히 부가 데이터 중에서 Closed Caption의 경우 북미에서는 EIA-608과 EIA-708 두 가지 표준이 있고, 세부적으로 네 가지의 방법으로 전송되는데 일반적인 방송용 모니터에는 적용되어 있는 것이 극히 드물다. 또한 SDI 신호로 전송되는 Closed Caption 데이터를 Decoding하는 상용 IC는 거의 없는 수준이다. 이에 본 논문에서는 SDI로 전송되는 다양한 방식의 Closed Caption 데이터를 모두 표시하기 위한 방법을 제안하였다. 먼저 VBI (Vertical Blanking Interval) 에 아날로그 Waveform 형태로 입력되는 경우 데이터의 신뢰도를 높이기 위해 Clock Run In을 실시간으로 검출 할 수 있는 구조를 제안하고 FPGA (Field Programmable Gata Array)로 구현하였다. 또한 VANC (Vertical Ancillary Space)로 들어오는 Caption데이터의 경우 특히 EIA-708 처럼 많은 데이터가 입력되는 경우 실시간으로 처리하기 위해서 기존의 I2C와 같은 느린 전송 방법이 아닌 FPGA와 프로세서 간에 메모리를 직접 Access 할 수 있는 방법을 제안하였다. 본 논문에서 제안 한 방법을 FPGA로 구현하였고, 실제 미국이나 캐나다 방송국에서 사용하는 Caption 인코더 장비 뿐만아니라 방송 콘텐츠를 직접 이용하여 동작 상태를 검증하였다.

  • PDF

병렬 코퍼스 필터링과 한국어에 최적화된 서브 워드 분절 기법을 이용한 기계번역 (Parallel Corpus Filtering and Korean-Optimized Subword Tokenization for Machine Translation)

  • 박찬준;김경민;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.221-224
    • /
    • 2019
  • 딥러닝을 이용한 Neural Machine Translation(NMT)의 등장으로 기계번역 분야에서 기존의 규칙 기반,통계기반 방식을 압도하는 좋은 성능을 보이고 있다. 본 논문은 기계번역 모델도 중요하지만 무엇보다 중요한 것은 고품질의 학습데이터를 구성하는 일과 전처리라고 판단하여 이에 관련된 다양한 실험을 진행하였다. 인공신경망 기계번역 시스템의 학습데이터 즉 병렬 코퍼스를 구축할 때 양질의 데이터를 확보하는 것이 무엇보다 중요하다. 그러나 양질의 데이터를 구하는 일은 저작권 확보의 문제, 병렬 말뭉치 구축의 어려움, 노이즈 등을 이유로 쉽지 않은 상황이다. 본 논문은 고품질의 학습데이터를 구축하기 위하여 병렬 코퍼스 필터링 기법을 제시한다. 병렬 코퍼스 필터링이란 정제와 다르게 학습 데이터에 부합하지 않다고 판단되며 소스, 타겟 쌍을 함께 삭제 시켜 버린다. 또한 기계번역에서 무엇보다 중요한 단계는 바로 Subword Tokenization 단계이다. 본 논문은 다양한 실험을 통하여 한-영 기계번역에서 가장 높은 성능을 보이는 Subword Tokenization 방법론을 제시한다. 오픈 된 한-영 병렬 말뭉치로 실험을 진행한 결과 병렬 코퍼스 필터링을 진행한 데이터로 만든 모델이 더 좋은 BLEU 점수를 보였으며 본 논문에서 제안하는 형태소 분석 단위 분리를 진행 후 Unigram이 반영된 SentencePiece 모델로 Subword Tokenization를 진행 하였을 시 가장 좋은 성능을 보였다.

  • PDF

POC : 인공지능 기반 균열 탐지를 위한 데이터셋 구축 (POC : Establishing Dataset for Artificial Intelligence-based Crack Detection)

  • 김지호;김경영;김동주
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.45-48
    • /
    • 2022
  • 건축물 안전 점검은 대부분 전문가의 현장 방문을 통한 육안검사다. 그중 균열 검사는 건물 위험도를 나타내는 중요한 지표로써 발생 위치, 진행성, 크기를 조사하는데, 최근 균열 조사 방식에 대해 객관성과 체계성을 보완할 딥러닝 개발이 활발하다. 그러나 균열 이미지는 외부 현장에 모양, 규모도 많은 종류라 도메인이 다양해야 하는데 대부분 제한된 환경과 실제적인 균열 검사와는 무관한 데이터로 구성되어 실효적이지 않다. 본 연구에서는 균열 조사에 적합하고 Wild 환경에 적용 가능한 POC 데이터셋을 소개한다. 기존 균열 공인 데이터셋 4종의 특징과 한계점을 분석을 토대로 고해상도 이미지로써 균열의 세부 특징을 담았고 균열 유사 환경과 조건들을 추가 촬영해 균열 검출에 강인하게 학습되도록 지향하였다. 정제 및 라벨링 작업을 거친 POC 데이터 셋은 균열 검출모델인 YOLO-v5으로 성능을 실험하였고, mAP(mean Average Precision) 75.5%로 높은 검출률을 보였다. POC 데이터셋으로 더욱 도메인에 적응적(Domain-adapted)인 인공지능 모델을 개발하여 건물, 댐, 교량 등 각종 대형 건축물에 대한 안전하고 효과적인 안전 관리 도구로써 활용할 것을 기대한다.

  • PDF

전문용어 정제를 위한 형태소 분석을 이용한 한의학 증상 진단 시스템 개발 (The Development of the Korean Medicine Symptom Diagnosis System Using Morphological Analysis to Refine Difficult Medical Terminology)

  • 이상백;손윤희;장현철;이규철
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권2호
    • /
    • pp.77-82
    • /
    • 2016
  • 증상 진단 시스템이라 함은 환자가 자신의 증상을 설명하고, 한의사가 증상에 맞는 질병 진단을 내리는 것을 말한다. 증상 진단 시스템을 자동화하기 위해서는 환자의 자연어로 이루어진 증상 설명에 대한 분석이 필요하다. 이에 본 논문에서는 증상 설명에 대하여 형태소 분석을 수행하고 한의학 병증 데이터와 비교하여 적합한 진단을 내리도록 증상 진단 시스템을 개발하였다. 증상 진단 검색의 효율을 높이기 위해서 Document형 NoSQL인 MongoDB를 이용하여 각각의 병증 데이터를 하나의 도큐먼트로 하고, 그 안의 필드값을 유연하게 관리할 수 있도록 데이터베이스를 구축하였다. 또한, 진단의 근거가 되는 한의사의 병증 설명과 환자의 증상 설명에서 사용되는 용어의 차이를 줄일 수 있도록 환자의 증상 설명을 축적하고 정제하여 일반인에게 친숙한 단어로 구성된 설명데이터를 제공할 수 있게 하였다.

버스정보시스템을 이용한 교통흐름 분석에 관한 연구 (A Study on Traffic Analysis Using Bus Information System)

  • 김홍근;박철영;신동철;신창선;조용윤;박장우
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제5권9호
    • /
    • pp.261-268
    • /
    • 2016
  • 현대생활을 영위하는데 있어 자주 애용되는 교통수단인 버스는 실시간으로 정보를 제공해주고 있다. 이러한 BIS 정보 중 도착예정시간에 대한 신뢰성 높은 정보를 얻기 위해서는 교통 환경에 대한 주요 요인들에 대한 분석이 필요하다. 국내 지방자치단체별로 관리를 수행하는 만큼 지역별 정보 분석이 우선시 되어야 한다. 따라서 본 논문에서는 교육, 관광 및 배후도시에 대한 특성을 가지고 있는 순천시를 중심으로 출퇴근, 학교, 시장, 관광 및 기타 다른 영향에 의해 교통 환경에 영향을 미칠 것으로 예상되는 특징을 분석했다. 특징 분석을 위해 BIS에 수집되고 있는 DB 정보에 대한 데이터 정제를 수행했고, 요일별, 일별, 월별, 시간대별로 구분하여 교통흐름에 대한 주요요인에 대한 분석을 수행했다. 지방중소규모의 도시로서 버스전용차선이 운영되지 않는 지역인 순천은 교통흐름과 밀접한 관계를 갖는 버스에 대한 특징 분석을 통해 구간별 교통체증에 대한 분석이 가능할 것으로 예상된다. 또한, BIS의 실시간 정보 제공에 대한 주요요인을 적용하여 활용한다면 보다 신뢰성 있고 정밀한 정보를 제공할 수 있을 것으로 예상된다.

한국미혼모에 대한 관점 변화와 정부정책의 방향: 1995년~2020년 소셜미디어 빅데이터 분석 (A Study on the Changes in Perspectives on Unwed Mothers in S.Korea and the Direction of Government Polices: 1995~2020 Social Media Big Data Analysis)

  • 서동희;전복선
    • 한국융합학회논문지
    • /
    • 제12권12호
    • /
    • pp.305-313
    • /
    • 2021
  • 본 연구는 1995년부터 2020년까지 기간의 '미혼모', '싱글맘', '비혼모' 키워드를 중심으로 시기별 빅데이터를 수집, 분석하여, 미혼모에 대한 관점 변화에 따른 적절한 정부의 지원정책 방향성을 제시하고자 한다. 자료수집을 위해 빅데이터 수집 플랫폼인 텍스톰을 활용하여 포털검색 사이트 네이버, 다음에서 데이터 수집 후, 데이터를 정제하는 과정을 거쳤다. 최종 정제된 데이터는 텍스톰에서 제공하는 단어빈도분석, TF-IDF 분석, N-gram 분석, UCINET6 프로그램을 통한 Network 분석과 CONCOR 분석을 진행하였다. 연구결과, 단어빈도분석, TF-IDF 분석에서는 유사한 단어들이 출현하였으나 연도별로 차이를 보였고, N-gram 분석에서는 단어 출현의 유사점은 있었으나 빈도수와 연쇄적으로 출현되는 단어들의 형태에 많은 차이가 있었으며 CONCOR 분석결과, 연도별로 다른 군집을 이루는 것을 볼 수 있었다. 본 연구는 미혼모의 관점 변화를 빅데이터의 분석을 통해 확인하고, 독립적인 여성들의 다양한 선택권을 위한 미혼모 정책, 그리고 그에 맞는 차별 없는 임신, 출산, 양육이 새로운 가족의 형태 내로 포용 되는 정책의 필요성을 제언한다.

에러 내성 기법을 활용한 MPEG-4 비디오 데이터의 전송 (Robust Transmission of MPEG-4 Video Data using Error Resilience Tools)

  • 윤승현;김종호;정제창
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
    • /
    • pp.319-322
    • /
    • 2001
  • 최근 몇 년간 멀티미디어의 응용이 활발해지면서 H.261, H263을 이용한 영상회의 MPEG-1, MPEG-2등을 이용한 디지털 저장 미디어와 방송이 주요 관심분야로 발전해왔다. 이러한 기술을 바탕으로 이제는 무선망을 이용한 3세대 이동 통신이 새로운 이슈로 등장하고 있다. 그러나 무선 환경에서는 채널 상에서 데이터를 전송할 때 에러가 많이 발생하기 때문에 에러에 강인한 방법이 반드시 필요하게 된다. 본 논문에서는 특히 향후 많은 응용분야에 쓰일 MPEG-4 데이터를 무선망으로 전송함에 있어 MPEG-4 표준에서 규정하는 에러 내성 방법과 여기에 채널 코딩 기법을 도입하여 오류에 강인한 특성을 지니도록 하는 방법을 제안한다. 실험결과는 단순히 기존의 에러 내성 기법을 활용할 때 보다 에러에 대한 강인성과 에러 검출에 있어 향상된 성능을 보여준다.

  • PDF

MPEG-2 비트열에 발생한 슬라이스 단위 손실에 적합한 에러 은닉 기법 (A slice layer error concealment technique for MPEG-2 video transmission)

  • 김수향;김승종;정제창;김용식
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
    • /
    • pp.293-296
    • /
    • 2001
  • MPEG-2 압축 방법을 이용한 비트열은 가변장 부호를 이용하기 때문에 에러에 매우 민감하다. 하나의 비트에러가 발생하더라도, 다음 동기화 부호를 찾을 때까지 매크로블록 또는 슬라이스 단위의 정보 손실을 초래하기 때문에 복원 영상의 화질 열화가 심각하다. 따라서 에러 영상의 복원을 위한 에러 은닉 기술은 복호기 쪽에 매우 중요하다. 기존에 발표된 방법들은 에러에 의한 손실이 매크로블록 단위로 발생했다는 가정 하에 손상된 매크로블록주위의 상, 하, 좌, 우 네 방향의 데이터를 이용하였다. 하지만 대부분의 심각한 에러는 슬라이스 단위로 발생하기 때문에 좌, 우의 데이터는 사용할 수 없다. 본 논문에서는 이러한 슬라이스 단위의 에러를 은닉하기에 적합한 알고리즘을 제안한다. 상, 하, 오른쪽 상단, 왼쪽 상단, 오른쪽 하단, 왼쪽 하단의 6영역의 데이터를 이용하여 두 가지 대표적인 에러 은닉 방법인 boundary matching 방식과 주변 움직임 벡터 정보를 이용한 움직임 벡터 추정 방식에 적용하였다. 실험 곁과 기존의 방법에 비해 향상된 복원 화질을 얻을 수 있었다.

  • PDF

데이터 마이닝에서의 상식 기반 후처리 기법 (Common-Sense Knowledge based Post-Processing Technique in Data Mining)

  • 이인기;용환승
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.25-28
    • /
    • 2011
  • 새로운 지식과 패턴을 발견하고자 하는 데이터 마이닝 알고리즘들은 큰 수의 규칙들을 생성하는 문제점을 가지고 있다. 최근 들어 이러한 문제를 해결하기 위한 방법으로 다양한 유용성(Interestingness) 연구들이 데이터 마이닝의 후처리 단계에서 진행되고 있다. 그러나 이러한 접근방법들 역시 지식을 습득하기 위한 과정에서 병목현상을 보여줌으로써 수많은 상식수준의 규칙을 정제하지 못하고 있다. 본 연구에서는 이러한 문제점을 해결하기 위한 방안으로 상식을 기반으로 하는 Common-Sense 척도를 정의하고 구현한다. 규칙이 얼마나 상식에 가까운지를 시맨틱 차원교체 기법을 이용한 유사도 분석을 통해 측정한다.