• Title/Summary/Keyword: 데이터 필터링

검색결과 985건 처리시간 0.033초

웹 말뭉치에 대한 문장 필터링 데이터 셋 구축 방법 (Sentence Filtering Dataset Construction Method about Web Corpus)

  • 남충현;장경식
    • 한국정보통신학회논문지
    • /
    • 제25권11호
    • /
    • pp.1505-1511
    • /
    • 2021
  • 자연어 처리 분야 내 다양한 작업들에서 높은 성능을 보인 사전 학습된 모델은 대량의 말뭉치를 이용하여 문장들의 언어학적 패턴을 스스로 학습함으로써 입력 문장 내 각 토큰들을 적절한 특징 벡터로 표현할 수 있다는 장점을 갖고 있다. 이러한 사전 학습된 모델의 학습에 필요한 말뭉치를 구축하는 방법 중 웹 크롤러를 이용하여 수집한 경우 웹사이트에 존재하는 문장은 다양한 패턴을 갖고 있기 때문에 문장의 일부 또는 전체에 불필요한 단어가 포함되어 있을 수 있다. 본 논문에서는 웹으로부터 수집한 말뭉치에 대해 신경망 모델을 이용하여 불필요한 단어가 포함된 문장을 필터링하기 위한 데이터 셋 구축 방법에 대해 제안한다. 그 결과, 총 2,330개의 문장을 포함한 데이터 셋을 구축하였다. 또한 신경망 모델을 이용하여 구축한 데이터 셋을 학습시켜 성능을 평가하였으며, BERT 모델이 평가 데이터에 대해 93.75%의 정확도로 가장 높은 성능을 보였다.

성능 감시기의 가시화충을 위한 일반화된 뷰의 설계 (A Design of Generalized View for the Visualization Layer of Performance Monitoring Tool)

  • 마대성;유진호;김병기
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (3)
    • /
    • pp.756-758
    • /
    • 1998
  • 본 논문은 병렬 프로그램의 성능 분석을 위한 성능 감시기에 가시화층에 일반화된 뷰를 설계하고 구현하였다. 대부분의 성능 감시기는 하드웨어에 의존적인 특성화에 뷰를 제공함으로서 이식성이나 확장성이 부족하다. 일반화된 뷰를 제공하는 성능 감시기는 데이터 필터층에서 필터링된 성능 분석 데이터를 이용하여 프로그래머가 정의한 데이터의 범위에 따라 뷰를 스스로 확장할 수 있다. 또한 CallBack기능을 제공하여 관심 있는 데이터를 쉽게 볼 수 있다. 프로그래머는 성능 감시기의 일반화된 뷰를 이용하여 다양한 형태의 성능 분석 결과를 볼 수 있다.

  • PDF

사용자 정보 가중치를 이용한 추천 기법 (A Recommendation Technique using Weight of User Information)

  • 윤소영;윤성대
    • 한국정보통신학회논문지
    • /
    • 제15권4호
    • /
    • pp.877-885
    • /
    • 2011
  • 협업 필터링은 추천시스템들 중에서 가장 널리 사용되는 기법이다. 그러나 협업 필터링은 추천의 정확성을 떨어뜨리는 희소성과 확장성 문제를 가지고 있으며 이를 해결하기 위한 다양한 연구가 이루어지고 있다. 본 논문에서는 협업필터링의 희소성과 확장성의 문제를 해결하기 위해 가중치를 사용한 기법을 제안한다. 제안한 기법은 데이터 셋에서 추천의 정확성을 높이기 위해 평가값이 4이상인 데이터들만을 사용하여 아이템을 선호하는 사용자 정보를 분석한다. 아이템의 장르 정보와 분석한 사용자 정보를 유사도 계산 시 가중치로 사용하고 임계값 이상의 유사도를 가진 데이터들만으로 예측값을 계산하여 평가되지 않은 데이터의 평가값으로 사용한다. 제안한 기법은 아이템에 대한 특성을 분석하여 예측값을 계산함으로써 희소성을 줄임과 동시에 정확성을 더 높일 수 있고 새로운 아이템과 사용자가 등록되었을 때 분석된 정보를 바탕으로 빠른 분류가 가능하다. 실험을 통해 제안한 기법이 기존의 아이템 기반, 장르 기반 기법보다 추천의 정확성이 향상되는 것을 확인하였다.

등고선 제작을 위한 라이다 데이터의 필터링 알고리즘 개발 및 적용 (A Development of lidar data Filtering for Contour Generation)

  • 위광재;김은영;강인구;김창우
    • 한국측량학회지
    • /
    • 제27권4호
    • /
    • pp.469-476
    • /
    • 2009
  • 최근 측량기술과 정보통신기술이 발전함에 따라 다양한 공간정보 자료를 획득할 수 있게 되었다. 새로운 레이저측량기술은 정밀한 지형과 수목 및 인공지물 등에 대한 3차원 정보를 신속하게 획득하고 사용자가 원하는 정보로 가공하여 다양한 분야에서 활용되고 있다. 특히 정밀한 지형에 대한 등고선 제작은 기존의 항공사진측량에 의한 방법의 문제점을 해소하는 진보된 기술로써 수목에 의해 가려진 산악지의 지형을 상세하게 표현하고 정확도와 균질성을 확보하여 최근 국가기본도 수정제작 등 시범사업이 진행되고 있다. 그러나 고정밀의 라이다 데이터를 이용하여 등고선을 제작할 경우 대용량 라이다 데이터에 의해 등고선의 도형이 복잡해지고 용량이 비효율적으로 증가하는 문제점이 있다. 본 연구에서는 정밀한 지형 데이터로부터 생성되는 라이다 등고선의 효율적인 활용을 위하여 단계별로 필터링을 실시하여 실제 지형의 형태는 그대로 표현하면서 가벼운 용량의 등고선을 생성하는 알고리즘을 구현하였고 라이다 데이터의 필터링을 통하여 지형의 형태를 그대로 표현하면서 데이터의 용량을 최소화하였다. 따라서 본 연구는 라이다 등고선의 적극적인 활용을 위하여 알고리즘을 개발하고 연구지 역을 대상으로 적용한 후 현행 수치지도와 비교해 보았다. 이러한 정밀 등고선은 건설 분야뿐만 아니라 생태지도 및 주제도, 재해 환경 분야, 홍수지도, 도시모델링 등 수요가 확대될 전망이다.

시맨틱 웹에서 다중 혼합필터링을 이용한 개인화된 의상 코디 시스템 (Personalized Apparel Coordi System using Multiple Hybrid-Filtering on Semantic Web)

  • 은채수;송창우;이승근;이정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.178-182
    • /
    • 2006
  • 인터넷과 웹이 일상생활의 일부가 되면서 온라인상에는 방대한 양의 정보가 쌓이게 되었다. 이러한 흐름 속에서 정보의 양은 급속도로 늘어나는 현상을 보이며, ‘개인화’ 를 통해 수많은 데이터들 사이에서 원하는 정보를 자동으로 찾아내는 기술의 중요성이 부각되고 있다. 이를 ‘추천시스템’ 이라 부르며, 내용기반 필터링과 협력적 필터링 등의 연구가 활발히 이루어지고 있다. 그러나 사용자에게 가장 중요한 영향을 미치는 또래의 선호도, 지역, 시대 등의 복합적인 환경을 반영하는데 아직까지 어려움을 지니고 있다. 따라서 본 논문에서는 기존의 필터링들을 조합하고 좀더 편리하게 정보를 공유하고 학습할 수 있는 시맨틱 웹에서 연관 이웃 마이닝 기법을 통해 개인화된 추천 시스템을 설계한다. 생활에서 흔히 접할 수 있는 의상을 다양한 사용자에게 특화되어 코디해주는 시스템을 웹에서 제공한 결과 불필요한 검색시간이 줄어들고 사용자의 피드백을 통해 점차 만족도가 향상됨을 알 수 있었다.

  • PDF

편광 유지 광섬유 루프 미러를 이용한 다채널 그룹 딜레이 보상 필터 (A multichannel group-delay compensation filter using a polarization maintaining loop mirror)

  • 정승환;유봉안;이병호
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2002년도 하계학술대회 논문집 C
    • /
    • pp.1922-1923
    • /
    • 2002
  • 본 논문은 편광 유지 광섬유 루프 미러를 이용한 색분산 보상 필터의 제안과 이의 응용에 관한 것이다. 제안된 필터는 구성이 간단하고, 편광 의존성이 낮으며 하나의 장비로 여러 채널의 신호를 동시에 분산 보상할 수 있는 장점이 있다. 실험에 사용된 커플러의 파워-커플링 계수를 조절하면 그룹 딜레이 기울기를 조절할 수 있다. 그리고 n개의 편광 유지 광섬유 루프 미러클 연결하면 필터의 손실이 커지지만 커플링 계수의 조절을 통해 필터 특성을 변화시킬 수 있다. 이와 같은 특성을 이용하면 제안된 필터를 동적 분산 보상기로 이용할 수 있다. 논문에서는 파워-커플링 계수의 변화에 따른 필터의 그룹 딜레이 기울기의 변화를 계산한 그래프와 실험 결과 데이터를 비교 제시하였다.

  • PDF

오피니언 마이닝과 협업필터링을 이용한 도서 추천시스템 (Book recommendation system using collaborative filtering and opinion mining)

  • 윤원탁;박두순
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.504-507
    • /
    • 2018
  • 빅데이터가 일상이 된 현대 사회에서 책 시장의 증가와 책 양의 증가로 인하여 책을 개인에 맞게 선택하는데 어려움이 있다. 그래서 개인 맞춤 추천 시스템이 필요하다. 개인 맞춤 추천 시스템에서 가장 많이 사용하는 방법은 협업 필터링 방법이 있다. 협업 필터링은 희박성 문제를 가지고 있다. 본 논문에서는 협업 필터링 방법에 희박성 문제를 해결하기 위하여 지역, 나이, 성별, 장르 등 개인 성향을 이용하고, 기존의 책 리뷰를 오피니언 마이닝 기법을 적용하여 개인 맞춤형 도서를 추천하는 추천시스템을 제안한다.

필터링 기법을 이용한 고차원 색인 기법의 설계 및 구현 (Design and implementation of high-dimensional indexing scheme using filtering method)

  • 한성근;장재우
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.219-221
    • /
    • 1999
  • 현재 멀티미디어 응용분야에서 고차원 데이터에 대한 색인 기법이 아주 중요시 되고 있다. 특히, 인터넷의 보급으로 멀티미디어 정보에 대한 수요가 급증함에 따라 멀티미디어 객체에 대한 효율적인 색인 기술이 절실히 필요하게 되었다. 멀티미디어 객체들은 특징 벡터들로 표현이 되며, 대부분 고차원 특징 벡터를 형성하게 된다. 이러한 고차원 특징 벡터를 색인 및 검색하기 위하여 다양한 방법들이 제시되었다. 그러나, 차원이 증가할수록 검색 성능이 급격히 저하되는 dimensional curse 문제를 완전히 해결하지는 못했다. 본 논문에서는 필터링(filtering) 기법을 사용하여 개선된 고차원 색인 기법을 설계 및 구현한다.

  • PDF

유전자 알고리즘을 이용한 클러스터링 기반 협력필터링 (Clustering-based Collaborative Filtering Using Genetic Algorithms)

  • 이수정
    • 창의정보문화연구
    • /
    • 제4권3호
    • /
    • pp.221-230
    • /
    • 2018
  • 추천 시스템의 주요 방법인 협력 필터링 기술은 실제 상업용 온라인 시스템에서 성공적으로 구현되어 서비스가 제공되고 있다. 그러나, 이 기술은 본질적으로 여러 가지 단점을 내포하는데, 데이터 희소성, 콜드 스타트, 확장성 문제 등이 그 예이다. 확장성 문제를 해결하기 위하여 클러스터링 기법을 활용한 협력 필터링 방법이 연구되어 왔다. 본 연구에서 제안하는 협력 필터링 시스템에서는 가장 널리 활용되는 클러스터링 기법들 중 하나인 K-means 알고리즘의 단점을 개선하고자 유전자 알고리즘을 이용한다. 또한, 기존 연구에서 최적화된 클러스터링 결과를 추구하였던 것과는 달리, 제안 방법은 클러스터링 결과를 활용한 협력 필터링 시스템 성능의 최적화를 목표로 하므로, 실질적으로 시스템의 성능을 향상시킬 수 있다.