• 제목/요약/키워드: Information filtering

검색결과 3,011건 처리시간 0.032초

특수교 계측 데이터 자동 통계 분석 툴 개발 (Development of Automated Statistical Analysis Tool using Measurement Data in Cable-Supported Bridges)

  • 김재환;박상기;정규산;서동우
    • 한국방재안전학회논문집
    • /
    • 제15권3호
    • /
    • pp.79-88
    • /
    • 2022
  • 특수교는 중요한 대형 시설물로 장기적이고 체계적인 유지관리 전략을 필요로 한다. 특히, 시설물 부재별 및 위치별로 다양한 센서를 설치하고 계측 항목별 관리 기준치 설정과 같은 시설물의 안전 확보를 위해 여러 방안들이 제시되고 있다. 이 중 지속적으로 증가하는 특수교의 수와 여러 센서에서 수집되는 데이터를 효율적으로 관리하기 위한 전략적인 방안을 제시해야 할 필요가 있다. 본 연구에서는 특수교 계측 시스템에서 수집되는 광범위한 데이터를 효율적으로 분석하기 위한 목적으로 자동적으로 이상신호를 처리하고 통계 결과를 산출할 수 있는 분석 툴을 개발하고자 한다. 분석 툴 개발을 위해 우선 특수교에 설치된 주요 센서 종류 및 수량과 같은 기본적인 정보와 수집된 데이터에 대한 신호 특성을 분석하였다. 이후 험펠 필터 기법을 활용 신호의 이상 유무를 판별하고 필터링하여 통계 결과를 산출하였다. 마지막으로 개발된 분석 툴의 성능 검증을 위해 현재 공용 중인 사장교와 현수교 형식의 교량을 각 1개소씩 성능검증 대상 교량으로 선정하여 신호처리 및 자동 통계 분석 성능을 실시하였고, 기존의 통계 작업 결과와 유사한 결과를 산출 할 수 있었다.

축방향 서브 나이퀴스트 샘플링 기반의 횡탄성 영상 기법 (Shear-wave elasticity imaging with axial sub-Nyquist sampling)

  • 오우진;윤희철
    • 한국음향학회지
    • /
    • 제42권5호
    • /
    • pp.403-411
    • /
    • 2023
  • 탄성 영상과 미세 혈류 도플러 영상과 같은 기능성 초음파 영상은 조직의 기계적, 기능적 정보를 제공함으로써 진단 성능을 향상시킨다. 그러나 기능성 초음파 영상의 구현은 데이터 획득 및 처리 시 대용량 데이터 저장과 같은 한계를 야기한다. 본 논문에서는 효율적인 횡탄성 영상 기법을 위해 데이터 획득 양을 절감시키는 서브 나이퀴스트 접근법을 제안한다. 제안하는 방법은 기존 나이퀴스트 샘플링 속도보다 1/3배 낮은 샘플링 속도로 데이터를 획득하고, 주파수 스펙트럼의 주기성을 이용하여 대역 통과 필터링 기반의 보간을 통해 재구성된 Radio Frequency(RF) 신호를 사용하여 횡파 신호를 추적한다. 이때 RF 신호는 67 % 미만의 비대역폭으로 제한된다. 제안하는 접근법을 검증하기 위해 기존 샘플링 속도로 획득한 횡파 추적 데이터를 이용하여 서브 나이퀴스트 샘플링된 RF 신호를 재현하고, 기존 접근법과 횡파 속도 영상을 재구성한다. 정량적 평가를 위해 재구성한 횡파 속도 영상의 군속도, 대조도 잡음 비, 그리고 구조적 유사성 지수를 비교하였다. 우리는 서브 나이퀴스트 샘플링 기반 횡탄성 영상의 가능성을 정성적, 정량적으로 입증하였고, 향후 실시간 3차원 횡탄성 영상 기술에 유용하게 적용 가능할 것으로 기대된다.

다중시기 Sentinel-1 픽셀-빈도 기법을 통한 고창 인천강 하구 습지의 지형 변화 매핑 (Mapping Topography Change via Multi-Temporal Sentinel-1 Pixel-Frequency Approach on Incheon River Estuary Wetland, Gochang, Korea)

  • 백원경;이명진;유하은;김정철;유주형
    • 대한원격탐사학회지
    • /
    • 제39권6_3호
    • /
    • pp.1747-1761
    • /
    • 2023
  • 습지는 일년 중 일정기간 물에 잠겨있거나 젖어있는 땅을 의미한다. 습지는 생물다양성 유지와 환경오염물질을 정화하는 역할을 수행하고 있다. 습지의 경계와 면적 변화에 대한 정량적인 자료를 필요로 하고 있다. 본 연구에서는 Sentinel-1 장기적인 수체 탐지 결과를 활용하여 습지의 시간에 따른 지형 변화를 매핑하고자 한다. 이를 위하여 운곡 습지와 연안 습지를 연결하는 인천강 하구 습지를 연구지역으로 설정하였다. 또한 2014년 10월 부터 2023년 3월 사이의 Sentinel-1 상향궤도 영상 196장을 수집하여 장기적인 면적 변화를 분석하였다. 픽셀-빈도기법을 적용하여 2020년을 기점으로 지형 변화를 산출하였을 때에 수위구간 2-3 m, 1-2 m, 0-1 m 그리고 0 m 이하 구간에서 각각 +0.0195, 0.0016, 0.0075 그리고 0.0163 km2의 면적 증가를 확인할 수 있었다. 이와 같은 사실에 따라 해당 지역에서의 습지 복원 사업은 유효한 것으로 판단된다.

ART2 기반 RBF 네트워크와 얼굴 인증을 이용한 주민등록증 인식 (Recognition of Resident Registration Card using ART2-based RBF Network and face Verification)

  • 김광백;김영주
    • 지능정보연구
    • /
    • 제12권1호
    • /
    • pp.1-15
    • /
    • 2006
  • 우리나라의 주민등록증은 주소지, 주민등록번호, 얼굴사진, 지문 등 개인의 다양한 정보를 가진다. 현재의 플라스틱형 주민등록증은 위조 및 변조가 쉽고 그 수법이 날로 전문화 되어가고 있다. 따라서 육안으로 위조 및 변조 사실을 쉽게 확인하기가 어려워 사회적으로 문제를 일으키고 있다. 이에 본 논문에서는 개선된 ART2 기반 RBF 네트워크에 이용한 주민등록번호 인식과 얼굴 인증을 통한 주민등록증 자동 인식 방법을 제안한다. 제안된 방법은 주민등록증 영상으로부터 주민등록번호와 발행일을 추출하기 위하여 주민등록증 영상에 소벨 마스킹와 미디언 필터링을 적용한 후에 수평 스미어링을 적용하여 주민등록번호와 발행일 영역을 추출한다. 그리고 원영상에 대해 고주파 필터링을 적용하여 영상 전체를 이진화하고, 이진화된 영상에 CDM 마스크를 적용하여 주민등록번호와 발행일 코드를 복원한 다음, 검출된 각 영역에 대해 4-방향 윤곽선 추적 알고리즘을 적용하여 개별 문자를 추출한다. 추출된 주민등록번호 등의 개별 문자를 인식하기 위해 개선된 ART2 기반 RBF 네트워크를 제안하고 인식에 적용한다. 제안된 ART2 기반 RBF 네트워크는 학습 성능을 개선하기 위하여 중간층과 출력층의 학습에 퍼지 제어 기법을 적용하여 학습률을 동적으로 조정한다. 얼굴 인증은 템플릿 매칭 알고리즘을 이용하여 얼굴 템플릿 데이터베이스를 구축하고 주민등록증에서 추출된 얼굴 영역과의 유사도를 측정하여 주민등록증 얼굴 영역의 위조여부를 판별한다. 제안된 주민등록증 인식 방법의 성능을 평가하기 위해 원본 주민등록증 영상에 대해 얼굴 영역 위조, 노이즈추가, 대비 증감, 밝기 증감 그리고 영상 흐리기 등의 변형된 영상들을 생성하여 실험한 결과, 제안된 방법이 주민등록번호 인식 및 얼굴 인증에 있어서 우수한 성능이 있음을 확인하였다

  • PDF

음원 추천시스템이 온라인 디지털 음원차트에 미치는 파급효과에 대한 연구 (A Study about The Impact of Music Recommender Systems on Online Digital Music Rankings)

  • 김현모;김민용;박재홍
    • 경영정보학연구
    • /
    • 제16권3호
    • /
    • pp.49-68
    • /
    • 2014
  • 대다수의 국내외 온라인 디지털 음원 유통 사이트들은 음원 판매 활성화 방책의 일환으로 음원 추천시스템을 가지고 있다. 국외의 경우와 다르게, 우리나라의 시장점유율이 가장 높은 온라인 디지털음원 유통 사이트 5곳은 독자적인 기준으로 추천 음원을 선정하고 있으며, 추전 음원의 선정 기준 및 절차를 소비자에게 공개하고 있지 않다. 본 연구는 국내 온라인 디지털 음원 유통 사이트가 보유한 음원 추천시스템의 공정성 여부를 확인하고, 이러한 음원 추천시스템으로부터 선정된 추천 음원이 음원차트에서 어떠한 영향력을 갖는지 확인하는 것을 목적으로 한다. 2012년 11월부터 약 한달 간 온라인 디지털 음원 유통 사이트의 일간 음원차트에 등록되어 있는 1위부터 100위까지의 음원과 추천 음원을 수집하였다. 먼저, 수집된 음원 데이터를 기반으로 음원 추천시스템의 공정성 여부를 실증적인 방법으로 확인하였다. 첫째, 추천 음원의 노출 위치를 분석하였으며 둘째, 추천 음원이 제공되는 서비스 구조를 확인하였다. 셋째, 기획사에 따른 추천 음원 분포를 확인하였다. 더 나아가 이러한 음원 추천시스템으로부터 선정된 추천 음원이 음원차트 내에서 어떠한 영향력을 갖는지 실증적인 분석 방법으로 확인 하였다. 첫째, 음원차트의 동일 비동일 진입 시기에 따라 추천 음원과 미추천 음원의 순위 변화를 비교 분석하였다. 둘째, 모든 사이트에서 동시에 중복 추천된 음원과 단일 추천된 음원의 순위 변화를 비교 분석하였다. 셋째, 추천 받은 음원이 음원차트에 처음으로 진입하는 시기 및 순위를 확인하였다. 넷째, 음원차트 상위권 순위에 분포되어 있는 추천 음원의 비율을 확인하였다. 본 연구는 국내 온라인 디지털 음원 유통 사이트가 보유한 음원 추천시스템의 현행 및 현상에 대해 실증적으로 분석하여 공정성 문제를 제기하였으며, 음원 추천시스템이 음원차트에 미치는 파급력을 확인하였다는 것에 학술적 의의를 가진다. 또한 온라인 디지털 음원 유통 사이트의 내 외부 이해관계자에게 음원 추천시스템 악용에 대한 경각심을 고취시켜 음원차트의 공정성을 확보하고자하는 것에 산업적 의의를 가진다.

다양한 크기의 데이터 그룹에 대한 접근 제어를 지원하는 데이터베이스 보안 시스템 (Database Security System supporting Access Control for Various Sizes of Data Groups)

  • 정민아;김정자;원용관;배석찬
    • 정보처리학회논문지D
    • /
    • 제10D권7호
    • /
    • pp.1149-1154
    • /
    • 2003
  • 최근 병원 및 은행 등의 대규모 데이터베이스에 접근하는 사용자의 요구 사항이 다양해짐에 따라 데이터베이스 보안에 대한 중요성도 커졌다. 기존의 접근 제어 정책을 이용한 데이터베이스 보안 모델들이 존재하지만 이들은 복잡하고, 다양한 유형의 접근제어를 원하는 사용자의 보안 요구를 충족시키지 못한다. 본 논문에서는 데이터베이스를 접근하는 각 사용자별로 다양한 크기의 데이터 그룹에 대한 접근 제어론 제공하며, 임의의 정보에 대한 사용자의 접근 권한의 변화를 유연하게 수용하는 데이터베이스 보안 시스템을 제안하였다. 이를 위해 다양한 크기의 데이터 그룹을 테이블, 속성, 레코드 키에 의해 정의하였고, 사용자의 접근 권한은 보안 등급, 역할과 보안 정책들에 의해 정의하였다. 제안하는 시스템은 두 단계로 수행된다. 제 1단계는 수정된 강제적 접근 제어(Mandatory Access Control: MAC)정책과 역할 기반 접근 제어(Role-Based Access Control: RBAC)정책에 의해 수행된다. 이 단계에서는 사용자 및 데이터의 보안 등급과 역할에 의해 접근이 제어되며, 모든 형태의 접근 모드에 대한 제어가 이루어진다. 제 2단계에서는 수정된 임의적 접근 제어(Discretionary Access Control: RBAC)정책에 의해 수행되며, 1단계 수행결과가 다양한 크기의 데이터 항목에 대한 read 모드 접근제어 정책에 따라 필터링되어 사용자에게 제공한다. 이를 위해 사용자 그룹은 보안 등급에 의한 그룹, 역할에 의한 그룹, 사용자 부분집합으로 이루어진 특정 사용자 그룹으로 정의하였고 Block(s, d, r) 정책을 정의하여 특정 사용자 5가 특정 데이터 그룹 d에 'read' 모드, r로 접근할 수 없도록 하였다. 제안한 시스템은 사용자별 데이터에 대한 접근 제어가 복잡하게 요구되는 특정 유전체 연구 센터의 정보에 대한 보안 관리를 위해 사용하였다.안성, 동진벼는 안성, 서산 및 화순, 삼강벼는 안성, 서산, 화순 및 계화도 그리고 용문벼는 안성과 충주였다. 유지보수성을 증대할 수 있는 잇점을 가진다.역되어 MC-3에서 수행된다.위해 가상현실 기술을 이용한 컴퓨터 지원 교육훈력 시스템(CATS ; Computer Assister Training System)을 개발 중이며 일부 개발부분을 소개하였다.하며, 제 2선적제도의 발달과 해운경영의 국제성에 맞추어 근해해역에서 활동하는 우리나라의 선박에대해서 부분적으로 선박의 국적을 점차 개방시켜 나가는 정책을 검토해야 할 단계라는 것이다. 이러한 점에 있어서 지난 30여년간 외항해운부문에 중점을 두어온 우리나라의 해운정책은 이제 근해해운정책의 개발에도 관심을 기울여야 하는 전환점에 있다고 할 수있다.의 목적과 지식)보다 미학적 경험에 주는 영향이 큰 것으로 나타났으며, 모든 사람들에게 비슷한 미학적 경험을 발생시키는 것 이 밝혀졌다. 다시 말하면 모든 사람들은 그들의 문화적인 국적과 사회적 인 직업의 차이, 목적의 차이, 또한 환경의 의미의 차이에 상관없이 아름다 운 경관(High-beauty landscape)을 주거지나 나들이 장소로서 선호했으며, 아름답다고 평가했다. 반면에, 사람들이 갖고 있는 문화의 차이, 직업의 차 이, 목적의 차이, 그리고 환경의 의미의 차이에 따라 경관의 미학적 평가가 달라진 것으로 나타났다.corner$적 의도에 의한 경관구성의 일면을 확인할수 있지만 엄밀히 생각하여 보면 이러한 예의 경우도 최락의 총체적인 외형은 마찬가지로 $\ulcorner$순응$\lrcorner$의 범위를 벗어나지 않는다. 그렇기 때문에도 $\ulcorner$순응$\lrcorner$$\ulcorner$표현$\lrcorner$의 성격과

사용자 선호도 변화에 따른 추천시스템의 다양성 적용 (Application of diversity of recommender system accordingtouserpreferencechange)

  • 나혜연;남기환
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.67-86
    • /
    • 2020
  • 추천시스템은 시간이 흐를수록 사용자와 기업에게 점점 더 큰 영향을 주고 있다. 최근 코로나(COVID-19) 팬데믹 현상이 전 세계적으로 일어나면서 세대를 뛰어넘어 E-Commerce의 중요성이 증대되었고 추천시스템은 E-Commerce 활성화의 최중심에 있다. 추천시스템이 개발된 이래로 다수의 알고리즘이 추천시스템의 정확도를 올리는 것에 집중되어 있었고, 추천시스템의 희귀성, 다양성, 우연성 등과 같은 다른 가치들이 간과되고 있다. 본 논문에서는 사용자의 만족도는 추천시스템의 정확도에만 달려있지 않고 다양한 성능을 겸비했을 때 고객에게 만족스러운 추천서비스 경험을 제공할 것이라 생각하여 다양성을 위한 그래프 기반의 추천시스템을 개발하였다. 사용자 네트워크를 구성한 뒤 카테고리를 활용한 무게중심변화를 통해 유사도가 낮은 이질적인 사용자를 찾아 추천상품의 유사성을 낮추는 방식으로 다양성을 도모하였다. 또한, 추천의 다양성은 사용자의 다양성 선호 수준에 따라 상이할 것이라는 가정에 따라 사용자의 다양성 선호 수준을 구별하였고 다양성 모델 성능이 사용자 특성별로 다름을 확인할 수 있었다. 전체 연구 결과, 추천시스템의 정확성과 다양성이 트레이드 오프 관계에 놓여있다는 것을 확인할 수 있었지만 본 연구모델을 통해 근소한 정확도 손실 대비 높은 다양성을 얻을 수 있었다. 본 연구는 그래프 기반의 추천시스템을 통해 사용자의 만족도를 향상시키는 다양성을 실현하였다는 연구적 의의와 사용자 수준을 고려한 추천의 다양성을 적용 결과를 통해 기업의 장기적 이윤을 상승시킬 수 있는 모델 개발이라는 실무적 의의를 꼽을 수 있다.

영화 추천 시스템의 초기 사용자 문제를 위한 장르 선호 기반의 클러스터링 기법 (Clustering Method based on Genre Interest for Cold-Start Problem in Movie Recommendation)

  • 유띳로따낙;누르지드;하인애;조근식
    • 지능정보연구
    • /
    • 제19권1호
    • /
    • pp.57-77
    • /
    • 2013
  • 소셜 미디어는 모바일 어플리케이션과 웹에서 가장 많이 사용되는 미디어 중 하나이다. Nielsen사의 보고서에 따르면 소셜 네트워크 서비스와 블로그가 온라인 사용자의 주 활동 공간으로 사용되고 있으며, 미국인 중에서 온라인 활동이 왕성한 5명의 사용자중 4명은 매일 소셜 네트워크 서비스와 블로그를 방문하고 온라인 활동 시간의 23%를 소비한다고 집계하고 있다. 미국의 인터넷 사용자들은 야후, 구글, AOL 미디어 네트워크, 트위터, 링크드인 등과 같은 소셜 네트워크 서비스중 페이스북에서 가장 많은 시간을 소비한다. 최근에는 대부분의 회사들이 자신의 특정 상품에 대하여 "페이스북 페이지(Facebook Page)"를 생성하고 상품에 대한 프로모션을 진행한다. 페이스북에서 제공되는 "좋아요" 옵션은 페이스북 페이지를 통해 자신이 관심을 가지는 상품(아이템)을 표시하고 그 상품을 지지할 수 있도록 한다. 많은 영화를 제작하는 영화 제작사들도 페이스북 페이지와 "좋아요" 옵션을 이용하여 영화 프로모션과 마케팅에 이용한다. 일반적으로 다수의 스트리밍 서비스 제공업들도 영화와 TV 프로그램을 즐기며 볼 수 있는 서비스를 사용자들에게 제공한다. 이 서비스는 일반 컴퓨터와 TV 등의 단말기에서인터넷을 통해 영화와 TV 프로그램을 즉각적으로 제공할 수 있다. 스트리밍 서비스의 선두 주자인 넷플릭스는 미국, 라틴 아메리카, 영국 그리고 북유럽 국가 등에 3천만 명 이상의 스트리밍 사용자가 가입되어 있다. 또한 넥플릭스는 다양한 장르로 구성된 수백만 개의 영화와 TV 프로그램을 보유하고 있다. 하지만 수많은 콘텐츠로 인해 사용자들은 자신이 선호하는 장르에 관련된 영화와 TV 프로그램을 찾기 위해 많은 시간을 소비해야 된다. 많은 연구자들이 이러한 사용자의 불편함을 줄이기 위해 아이템에 대한 사용자가 보지 않은 아이템에 대한 선호도를 예측하고 높은 예측값을 갖는 아이템을 사용자에게 제공하기 위한 추천 시스템을 적용하였다. 협업적 여과 방법은 추천 시스템을 구축하기 위해 가장 많이 사용되는 방법이다. 협업적 여과 시스템은 사용자들이 평가한 아이템을 기반으로 각 사용자 간의 유사도를 측정하고 목적 사용자와 유사한 성향을 가진 사용자 그룹을 결정한다. 군집된 그룹은 이웃 사용자 집단으로 불리며 이를 이용하여 특정 아이템에 대한 선호도를 예측하고, 예측 값이 높은 아이템을 목적 사용자에게 추천해 준다. 협업적 여과 방법이 적용되는 분야는 서적, 음악, 영화, 뉴스 및 비디오 등 다양하지만 논문에서는 영화에 초점을 맞춘다. 이 협업적 여과 방법이 추천 시스템 내에서 유용하게 활용되고 있지만 아직 "희박성 문제"와 "콜드 스타트 문제" 등 해결해야 할 과제가 남아있다. 희박성 문제는 아이템의 수가 증가할수록 아이템에 대한 사용자의 로그 밀도가 감소하는 것이다. 즉, 전체 아이템 수에 비해 사용자가 아이템에 대해 평가한 정보가 충분하지 않기 때문에 사용자의 성향을 파악하기 어렵고, 이로 인해 사용자가 아직 평가하지 않은 아이템에 대해서 선호도를 추측하기 어려운 것을 말한다. 이 희박성 문제가 포함된 경우 적합한 이웃 사용자 집단을 형성하는데 어려움을 겪게 되고 사용자들에게 제공되는 아이템 추천의 질이 떨어지게 된다. 콜드 스타트 문제는 시스템 내에 새로 들어온 사용자 또는 아이템으로 지금까지 한 번도 평가를 하지 않은 경우에 발생한다. 즉, 사용자가 평가한 아이템에 대한 정보가 전혀 포함되어 있지 않거나 매우 적기 때문에 이러한 경우 또한 적합한 이웃 사용자 집단을 형성하는데 어려움을 겪게 되고 사용자가 평가하지 않은 아이템에 대한 선호도 예측의 정확성이 감소되게 된다. 본 논문에서는 영화 추천 시스템에서 발생될 수 있는 초기 사용자 문제를 해결하기 위하여 사용자가 평가한 영화와 소셜 네트워크 서비스로부터 추출된 사용자 선호 장르를 활용하여 사용자 군집을 형성하고 이를 활용하는 방법을 제안한다. 소셜 네트워크 서비스로부터 사용자가 선호하는 영화 장르를 추출하기 위해 페이스북 페이지의 '좋아요' 옵션을 이용하며, 이 '좋아요' 정보를 분석하여 사용자의 영화 장르 관심사를 추출한다. 페이스북의 영화 페이지는 각 영화를 위한 페이스북 페이지로 구성되고 있으며, 사용자는 자신의 선호도에 따라서 "좋아요" 옵션을 선택할 수 있다. 사용자의 페이스북 정보는 페이스북 그래프 API를 활용하여 추출되고 이로부터 사용자 선호 영화를 알 수 있게 된다. 시스템에서 활용되는 영화 정보는 인터넷 영화 데이터베이스인 IMDb로부터 획득한다. IMDb는 수많은 영화와 TV 프로그램을 보유하고 있으며, 각 영화에 관련된 배우 정보, 장르 및 부가 정보들을 포함한다. 논문에서는 사용자가 "좋아요" 표시를 한 영화 페이지를 이용하여 IMDb로부터 영화 장르 정보를 가져온다. 그리고 추출된 영화 장르 선호도와 본 시스템에서 제안하는 영화 평가 항목을 이용하여 유사한 이웃 사용자 집단을 구성한 후, 사용자가 평가하지 않은 아이템에 대한 선호도를 예측하고, 높은 예측 값을 갖는 아이템을 사용자에게 추천한다. 본 논문에서 제안한 사용자의 선호 장르 기반의 사용자 군집 기법을 이용한 시스템을 평가하기 위해서 IMDb 데이터 집합을 이용하여 사용자 영화 평가 시스템을 구축하였고 참가자들의 영화 평가 정보를 획득하였다. 페이스북 영화 페이지 정보는 참가자들의 페이스북 계정과 페이스북 그래프 API를 통해 획득하였다. 사용자 영화 평가 시스템을 통해 획득된 사용자 데이터를 제안하는 방법에 적용하였고 추천 성능, 품질 및 초기 사용자 문제를 벤치마크 알고리즘과 비교하여 평가하였다. 실험 평가의 결과 제안하는 방법을 적용한 추천 시스템을 통해 추천의 품질을 10% 향상시킬 수 있었고, 초기 사용자 문제에 대해서 15% 완화시킬 수 있음을 볼 수 있었다.

키워드 자동 생성에 대한 새로운 접근법: 역 벡터공간모델을 이용한 키워드 할당 방법 (A New Approach to Automatic Keyword Generation Using Inverse Vector Space Model)

  • 조원진;노상규;윤지영;박진수
    • Asia pacific journal of information systems
    • /
    • 제21권1호
    • /
    • pp.103-122
    • /
    • 2011
  • Recently, numerous documents have been made available electronically. Internet search engines and digital libraries commonly return query results containing hundreds or even thousands of documents. In this situation, it is virtually impossible for users to examine complete documents to determine whether they might be useful for them. For this reason, some on-line documents are accompanied by a list of keywords specified by the authors in an effort to guide the users by facilitating the filtering process. In this way, a set of keywords is often considered a condensed version of the whole document and therefore plays an important role for document retrieval, Web page retrieval, document clustering, summarization, text mining, and so on. Since many academic journals ask the authors to provide a list of five or six keywords on the first page of an article, keywords are most familiar in the context of journal articles. However, many other types of documents could not benefit from the use of keywords, including Web pages, email messages, news reports, magazine articles, and business papers. Although the potential benefit is large, the implementation itself is the obstacle; manually assigning keywords to all documents is a daunting task, or even impractical in that it is extremely tedious and time-consuming requiring a certain level of domain knowledge. Therefore, it is highly desirable to automate the keyword generation process. There are mainly two approaches to achieving this aim: keyword assignment approach and keyword extraction approach. Both approaches use machine learning methods and require, for training purposes, a set of documents with keywords already attached. In the former approach, there is a given set of vocabulary, and the aim is to match them to the texts. In other words, the keywords assignment approach seeks to select the words from a controlled vocabulary that best describes a document. Although this approach is domain dependent and is not easy to transfer and expand, it can generate implicit keywords that do not appear in a document. On the other hand, in the latter approach, the aim is to extract keywords with respect to their relevance in the text without prior vocabulary. In this approach, automatic keyword generation is treated as a classification task, and keywords are commonly extracted based on supervised learning techniques. Thus, keyword extraction algorithms classify candidate keywords in a document into positive or negative examples. Several systems such as Extractor and Kea were developed using keyword extraction approach. Most indicative words in a document are selected as keywords for that document and as a result, keywords extraction is limited to terms that appear in the document. Therefore, keywords extraction cannot generate implicit keywords that are not included in a document. According to the experiment results of Turney, about 64% to 90% of keywords assigned by the authors can be found in the full text of an article. Inversely, it also means that 10% to 36% of the keywords assigned by the authors do not appear in the article, which cannot be generated through keyword extraction algorithms. Our preliminary experiment result also shows that 37% of keywords assigned by the authors are not included in the full text. This is the reason why we have decided to adopt the keyword assignment approach. In this paper, we propose a new approach for automatic keyword assignment namely IVSM(Inverse Vector Space Model). The model is based on a vector space model. which is a conventional information retrieval model that represents documents and queries by vectors in a multidimensional space. IVSM generates an appropriate keyword set for a specific document by measuring the distance between the document and the keyword sets. The keyword assignment process of IVSM is as follows: (1) calculating the vector length of each keyword set based on each keyword weight; (2) preprocessing and parsing a target document that does not have keywords; (3) calculating the vector length of the target document based on the term frequency; (4) measuring the cosine similarity between each keyword set and the target document; and (5) generating keywords that have high similarity scores. Two keyword generation systems were implemented applying IVSM: IVSM system for Web-based community service and stand-alone IVSM system. Firstly, the IVSM system is implemented in a community service for sharing knowledge and opinions on current trends such as fashion, movies, social problems, and health information. The stand-alone IVSM system is dedicated to generating keywords for academic papers, and, indeed, it has been tested through a number of academic papers including those published by the Korean Association of Shipping and Logistics, the Korea Research Academy of Distribution Information, the Korea Logistics Society, the Korea Logistics Research Association, and the Korea Port Economic Association. We measured the performance of IVSM by the number of matches between the IVSM-generated keywords and the author-assigned keywords. According to our experiment, the precisions of IVSM applied to Web-based community service and academic journals were 0.75 and 0.71, respectively. The performance of both systems is much better than that of baseline systems that generate keywords based on simple probability. Also, IVSM shows comparable performance to Extractor that is a representative system of keyword extraction approach developed by Turney. As electronic documents increase, we expect that IVSM proposed in this paper can be applied to many electronic documents in Web-based community and digital library.

IFSA 알고리즘을 이용한 유전자 상호 관계 분석 (Analysis of Interactions in Multiple Genes using IFSA(Independent Feature Subspace Analysis))

  • 김혜진;최승진;방승양
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제33권3호
    • /
    • pp.157-165
    • /
    • 2006
  • 세포는 환경 변화 및 자극으로부터 자신을 보호하기 위해 유전자가 발현하여 생명을 유지 시스템을 갖고 있다. 유전자의 발현은 비정상적인 상태의 세포를 환경을 조절, 변화시켜 정상으로 바꾸기 위한 기능, 발달단계에 필요한 기능 등 생명현상에 필요한 특수 역할을 수행한다. 따라서 각 유전자의 기능을 아는 것은 생물학적으로 상당히 의미 있는 일이다. 본 논문에서는 유전자 기능을 알아보기 위해 발현 패턴을 통해 같을 때, 유사한 형태 혹은 시차를 갖고 동일한 형태로 발현하는 유전자들은 같은 기능을 한다는 가정을 하였다. 이 가정에 기반하여 각 유전자들을 기능에 따라 분류하였다. (1) IFSA선형 모델을 적용하여 데이타를 잘 나타내 줄 수 있는 특징 패턴을 찾았으며 (2) 이 특징 패턴으로부터 본 논문에서 제안한 Membership Scoring Function을 이용하여 유전자를 필터링(filtering) 하였다. 이 유전자들은 기존의 ICA(Independent Component Analysis) 방법에서 보다 IFSA 방법이 더 효과적으로 각 기능에 따른 유전자 그룹을 찾아내줌을 GO(Gene Ontology)에서 확인할 수 있었다. 이는 시차 혹은 위상 변화에 상관없이 데이타를 잘 나타낼 수 있는 IFSA의 특성이, ICA보다. 생물학적인 변수를 더 고려해 줄 수 있기 때문이라고 생각된다[1]. 이 논문의 또 다른 주요 작업은 유전자의 상호작용 관계로부터 유전자 네트웍을 얻어내는 것이다. 유전자 네트웍은 같은 그룹 내에서 유전자간의 상관 계수를 구하고 가장 높은 상관도를 보이는 유전자쌍을 연결시켜 얻게되었다. 이 네트웍 역시 GO 해석에서 그 유효성을 확인하였다.를 평균 66.02에서 58.98로 줄이면서 계산시간은 평균 71ms에서 44ms 으로 빠르게 됨을 알 수 있었다.적외선 분광법을 이용한 사일리지의 화학적 조성분 함량 측정은 적은 오차 범위 내에서 신속하고 정확한 분석법이 될 수 있음을 확인 할 수 있었다. 비록 원물 생시료(IF)에 대한 직접적인 측정은 다소 예측 정확성이 떨어지지만 현장 적용성과 편리성을 높이기 위해서는 생시료의 측정시 오차를 줄일 수 있는 스펙트럼의 수처리 방법이나 산란보정 방법과 같은 데이터 처리기법에 대한 더 많은 연구가 앞으로 진행되어야 한다고 생각되어진다.상자의 50% 이상이 매일 생선 콩 및 콩제품과 채소류를 먹고 있었고, 인스턴트나 패스트푸드는 정상 체중군이 저체중군이나 과체중보다 매일 섭취하는 빈도가 낮았다(p<0.0177). 7. 가장 낮은 영양 섭취 상태를 보여준 영양소(% RDA< 75%)는 철분과 칼슘으로 조사 대상자의 3/4에 해당하는 조사 대상자가 영양 부족 상태였다. 칼슘 섭취의 경우 정상 체중군이 과체중군과 저체중군보다 섭취율이 낮았으나(p<0.0257) 철분은 군간 유의차는 없었다. 8. 칼슘의 경우 과체중군이 저체중군이나 정상 체중군에 비해 영양소 적정비율(NAR) 값이 높았으며(p<0.0257) 철분, 단백질, 비타민 $B_1$$B_2$, 나이아신의 경우도 통계적으로 유의하지는 않으나 과체중군이 저체중군 또는 정상 체중군의 NAR 값이 높은 경향을 보여주었다. 9가지 영양소의 NAR을 평균한 MAR 값은 군간 유의적이지는 않으나 과체중군(0.76)이 정상체중(0.73) 또는 저체중군(0.73)에 비해 높은 값은 보여주었다. 9.