• 제목/요약/키워드: 정보 수집 및 추출

검색결과 756건 처리시간 0.024초

데이터 집합을 이용한 고유명사 추출 (Proper Noun Extraction Using Data Sets)

  • 김태현;이현숙;하유선;이만호;맹성현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.11-18
    • /
    • 2000
  • 본 논문에서는 한국어 고유명사의 특징에 대해 살펴보고, 이를 기반으로 문서로부터 고유명사를 추출하기 위한 기본 모델을 제안한다. 고유명사는 문서의 내용을 대표하는데 주도적인 역할을 하기 때문에, 이를 효과적으로 추출해내는 것은 문서의 의미를 보다 정확하게 표현할 수 있는 방법이 될 수 있다. 문서에서 고유명사를 효과적으로 추출할 수 있도록 하기 위해, 본 연구에서는 이름집합, 접사집합, 단서집합을 구성할 수 있는 데이터 수집기 모델과 데이터 집합을 기본으로 이용하여 고유명사를 추출하는 고유명사 추출기 모델을 제안하였다. 그리고 실제로 이 모델을 적용하여, 회사명과 관련된 데이터를 수집하고, 이를 이용해 문서로부터 회사명을 추출할 수 있도록 하는 시스템을 구현하였다. 구현된 회사명 추출 시스템을 이용해 고유명사 추출 실험을 수행한 결과, 외래어로 이루어진 회사명으로 인한 문제를 제외할 경우 만족할 만한 정확율과 재현율을 얻을 수 있었다.

  • PDF

음란 사이트 탐지 시스템의 설계 및 구현 (The Design and Implementation of Lewdness Site Detection System)

  • 최상필;김병만;이숙희;김주연;김경호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (A)
    • /
    • pp.196-198
    • /
    • 2000
  • 본 논문에서는 음란사이트를 효과적으로 탐지하기 위하여 퍼지 추론을 이용한 방법을 제안한다. 사용자로부터 몇 개의 음란 사이트 URL을 질의로 입력받아, 해당 URL로부터 수집된 웹 문서들에서 웹 태그와 불용어를 제외한 모든 용어들을 추출한 후, 용어의 DF, TF, HI(Heuristic Information) 정보들을 퍼지 추론에 적용하여 사용자가 제시한 음란 사이트에서 용어의 중요도를 산정한다. 또한, 웹 로봇은 인터넷에서 웹 문서를 수집하고, 퍼지 추론에 의해 산정된 용어의 중요도를 이용하여 수집된 웹 문서가 음란 문서일 가능성을 판별한다.

  • PDF

온톨로지 및 사례기반추론을 이용한 맞춤형 통합 정보 생성 프레임워크의 제안 (Framework for Information Integration and Customization Using Ontology and Case-based Reasoning)

  • 이현정;손미애
    • 지능정보연구
    • /
    • 제15권4호
    • /
    • pp.141-158
    • /
    • 2009
  • 다양한 정보자원들로부터 사용자가 요구하는 맞춤화된 정보를 추출해 내는 것은 더욱 어려워지고 있다. RSS를 비롯하여 개선된 다양한 정보 수집 방법들이 개발되었지만, 여전히 정보가공자인 사람의 도움 없이 필요한 정보들을 수집하여 정리 및 가공하는 작업이 쉽지는 않다. 따라서 본 연구에서는 정보사용자들이 사용 목적에 맞게 정보를 가공하는 부담을 줄여주기 위해 사례기반추론과 온톨로지에 기반한 맞춤형 통합정보생성 프레임워크를 제안한다. 본 프레임워크는 세 단계로 구성된다. 첫째, 수집된 웹 정보를 정보가공의 용이성을 위해 사례로 변환한다. 둘째, 동적 유사도 검색을 통해 수집된 사례들로부터 정보 사용자의 동적 요구사항에 적합한 사례를 검색한다. 셋째, 전 단계에서 추출된 사례를 정보사용자의 요구사항에 보다 적합한 지식으로 가공하기 위해 집중 유사도를 적용한다. 본 프레임워크는 여행자들의 정보수집을 위한 여행정보시스템에 적용되어 그 효과를 입증하였다.

  • PDF

SNS에 제보되는 재해정보 추출 매시업 설계 및 구현 (Design and Implementation of the Extraction Mashup for Reported Disaster Information on SNSs)

  • 서태웅;박만곤;김창수
    • 한국멀티미디어학회논문지
    • /
    • 제16권11호
    • /
    • pp.1297-1304
    • /
    • 2013
  • 급작스런 폭우로 침수피해를 예측하기 힘든 실정에서, 재해 현장에서의 신속한 제보 및 정보 전파의 중요성이 커지고 있다. 재난 상황에서 실시간으로 정보를 수집하는 수단이 많지 않은 점에 착안하여, 본 논문에서는 소셜 네트워크 서비스를 통한 정보 수집 시스템을 설계하였다. 그리고 현재 소셜 네트워크 서비스를 융합한 여러 매시업 시스템들이 정보 확산을 목적으로만 활용하는 점을 개선하여, 기존과는 반대로 소셜네트워크 서비스의 정보를 수집, 분석하여 재해 상황에서 최대한 활용 할 수 있도록 하는 방법을 연구하였다. 최종적으로는 트위터에 실시간으로 등록되는 재해 정보를 통해 수많은 매체 중에서 가장 신속한 재해 정보를 추출하기 위한 연구이다.

V2V기반 교통정보수집체계 설계 및 요구사항분석 (Designing A V2V based Traffic Surveillance System and Its Functional Requirements)

  • 홍승표;오철;김원규;김현미;김태형
    • 대한교통학회지
    • /
    • 제26권4호
    • /
    • pp.251-264
    • /
    • 2008
  • 정확하고 신뢰성 있는 실시간 교통자료의 수집은 다양한 교통운영관리 전략의 구현 및 교통정보제공을 위한 필수요소이다. 본 연구에서는 보다 seamless한 고급 교통정보가공을 위해 차량 간 무선통신기술(Vehicle-To-Vehicle Communication; V2V)을 활용한 새로운 교통정보수집체계를 제안하였다. GPS를 이용하여 개별차량의 주행궤적을 추출하고 V2V를 이용한 교통정보수집 방안을 제시하였다. 본 연구에서 제안한 교통정보수집체계의 기술적 요구사항분석을 위해 몬테카를로 시뮬레이션 기반의 평가체계를 개발하였다. 미시적 교통시뮬레이터 AIMSUN으로부터 개별차량의 주행궤적을 추출하고, 이를 이용한 구간통행시간 산출기법을 몬테카를로 시뮬레이션 기반 평가체계에 결합하여 기술적 요구사항을 도출하였다. 구간통행시간 정확도에 영향을 미치는 요인으로서 V2V 및 개별차량 주행궤적 추출이 가능한 equipped vehicle의 market penetration rate, V2V 통신반경, 통행시간 산출주기를 분석하였다. 또한, 제안된 시스템의 기술적 타당성 확인을 위해 prototypical implementation을 수행하였다. 본 연구의 결과물은 보다 seamless하고 정확한 교통정보가공을 위한 차세대 수집시스템 개발 및 구현을 위한 유용한 기초자료로 활용될 것으로 기대된다.

고해상도 위성영상과 SML을 이용한 남제주 지역의 임상분류 기법 개발 (Developing the forest classification technique in Namjeju area using high resolution satellite images and SML (Spatial Modeling Language))

  • 조명희;조윤원;김성재;송완영;정영교
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2006년도 춘계학술대회 논문집
    • /
    • pp.359-364
    • /
    • 2006
  • 최근 GIS를 비롯한 공간정보기술의 눈부신 발전으로 국토전반에 대한 정보화와 과학적인 관리기법이 확산되고 있다. 이에 효율적인 산림관리를 위하여 위성영상과 지리정보시스템을 이용한 산림정보가 구축되고 있으나, 산림지역이라는 지리특성상 현장 출입이 제한적이고 위험하여 정보수집에 어려움이 있다. 본 연구에서는 효율적인 산림정보구축을 위하여 남제주군을 대상으로 고해상도 위성영상과 공간정보추출언어인 SML(Spatial Modeler Language)을 이용하여 다양한 모델별 산림지역의 임상정보를 추출, 임상분류를 위한 모델링 기법을 개발하였다. 또한 l/5,000도엽을 기준으로 표본점을 배치하고 임상, 하층식생, 입지 및 토양에 대한 현지조사를 수행하였으며, 추출자료와의 상관성 분석 및 검증을 통하여 공간정보 기술을 이용한 산림정보 구축의 기반을 마련하고자 하였다.

  • PDF

IoT 정보 수집을 위한 확률 기반의 딥러닝 클러스터링 모델 (Probability-based Deep Learning Clustering Model for the Collection of IoT Information)

  • 정윤수
    • 디지털융복합연구
    • /
    • 제18권3호
    • /
    • pp.189-194
    • /
    • 2020
  • 최근 IoT 네트워크는 이기종의 IoT 장치에서 발생하는 데이터를 효율적으로 처리하기 위해서 다양한 클러스터링 기법들이 연구되고 있다. 그러나, 기존 클러스터링 기법들은 정적으로 네트워크를 분할하는데 초점을 맞추고 있어서 이동이 가능한 IoT 장치에는 기존 클러스터링 기법들이 적합하지 않다. 본 논문에서는 에지 네트워크를 이용하여 IoT 장치의 정보를 수집·분석하기 위한 확률적 딥러닝 기반의 동적 클러스터링 모델을 제안한다. 제안 모델은 수집된 정보의 속성값의 빈도수를 확률적으로 딥러닝에 적용하여 서브넷을 구축한다. 구축된 서브넷은 시드로 추출된 연계 정보를 계층적 구조로 그룹핑할 때 사용하며, IoT 장치에 대한 동적 클러스터링의 속도 및 정확도를 향상시킨다. 성능평가 결과, 제안모델은 기존 모델에 비해 데이터 처리 시간이 평균 13.8% 향상되었고, 서버의 오버헤드는 기존 모델보다 평균 10.5% 낮게 나타났다. 서버에서 IoT 정보를 추출할 때의 정확도는 기존모델보다 평균 8.7% 향상되었다.

소셜 빅 데이터를 이용한 관광서비스 평판에 관한 연구 (A Study on the Reputation of Tourism Services using Social Big Data)

  • 송은지;강민식
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 추계학술대회
    • /
    • pp.671-672
    • /
    • 2014
  • 최근 기업의 효율적인 경영을 위해 다양한 소셜 채널에서 폭발적으로 생성되고 확산되는 빅 데이터를 실시간으로 분석하는 기술이 개발되고 있다. 본 논문에서는 관광서비스에 관해 소셜 미디어 상의 빅 데이터를 이용하여 보다 정확하고 효율적인 정보 수집과 분석이 가능하도록 하기위한 모델구축 방법을 제안하고 관광서비스에 관한 평판을 분석한다. 관광 산업 도메인 네트워크를 활용한 표준화, 일반화 확보를 위해 먼저 B2C 산업군 및 업종별 공통 수집원 추출 및 표준화 분석 체계 수립을 통한 해당 적용분야의 설계안 수립하고 관광객(소비자) 작성 게시글 분석을 위한 산업군 정보 추출하며 관광지, 숙박지, 교통 등 다양한 업종에 대한 분석 수행한다. 관광지에 대한 평가 기준을 기존의 설문이 아닌 SNS 상의 고객 의견을 바탕으로 호감도로 분석한다.

  • PDF

중간 문맥 식별 및 검색을 활용한 문서간 관계 추출 (Cross-document Relation Extraction using Bridging Context Identification)

  • 손준영;김진성;임정우;장윤나;소아람;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.654-658
    • /
    • 2023
  • 관계 추출은 질의응답이나 대화 시스템의 기반이 되는 지식을 구추하기 위한 작업으로, 정보 추출의 기초가 되는 기술이기도 하다. 최근 실세계 지식의 희소한 형태를 구현한 문서간 관계 추출 데이터셋이 제안되어, 여러 문서를 통해 분산되어 언급된 두 개체 사이의 관계 추론을 수행 및 평가할 수 있게 되었다. 이 작업에서 추론의 대상이 되는 개체쌍은 한 문서 안에 동시에 언급되지 않기 때문에 여러 문서에 언급된 중간 개체를 통하여 직/간접적으로 추론해야 하나, 원시 텍스트에서 이러한 정보를 수집하는 작업은 쉽지 않다. 따라서, 본 연구에서는 개체의 동시발생빈도에 기반하여 중간 개체의 중요도를 정량화하고, 이 중요도에 기반화여 중요한 문맥을 식별하는 방법론을 제안한다. 제안하는 방법론은 기존의 두 문서로 구성된 추론 경로를 식별된 중간 개체를 활용하여 확장하여, 관계 추론 모델의 수정 없이 추가된 문맥만을 활용하여 문서간 관계 추출 시스템의 성능을 개선할 수 있었다.

  • PDF

Privacy-Preserving Collection and Analysis of Medical Microdata

  • Jong Wook Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권5호
    • /
    • pp.93-100
    • /
    • 2024
  • 4차 산업혁명의 도래와 함께 인공지능, 빅데이터, 사물인터넷, 클라우드 컴퓨팅 등의 첨단 정보 기술이 다양한 산업 분야에서 혁신을 이끌고 있다. 이 기술들은 방대한 양의 데이터를 생성하고 있으며, 많은 기업들이 이를 활용하고 있다. 그러나 개인 데이터 수집 시 발생할 수 있는 프라이버시 침해 위험으로 인해 사용자들은 민감한 정보 제공을 망설이고 있다. 특히 의료 분야에서는 환자의 병명과 같은 민감한 정보 수집이 큰 도전이 되고 있으며, 프라이버시 문제가 데이터 수집과 분석의 장애가 되고 있다. 본 연구는 프라이버시 보호를 유지하면서도 통계적 정보를 효과적으로 추출할 수 있는 의료 데이터 수집 및 분석 기법을 제안한다. 제안 기법은 기존의 단순한 데이터 수집을 넘어서, 프라이버시를 보장하면서 수집된 데이터에서 통계적 정보를 효과적으로 추출하는 방법을 포함한다. 실제 데이터를 이용한 성능 평가에서는 제안된 기법이 기존 방법보다 더 효과적으로 프라이버시를 보존하며 통계적 정보를 도출할 수 있음을 입증한다.