• 제목/요약/키워드: Term weighting

검색결과 110건 처리시간 0.024초

전역적 특성과 거리가중치를 이용한 영상 인페인팅 (An Image Inpainting Method using Global Information and Distance Weighting)

  • 김창기;김백섭
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권8호
    • /
    • pp.629-640
    • /
    • 2010
  • 영상에서 일부분을 제거하거나 훼손된 영상에서 훼손된 부분을 복원하기위해 예제기반 인페인팅 방법이 주로 사용되고 있다. 예제 기반 인페인팅은 데이터 항 계산, 신뢰도 항 계산, 그리고 복사할 패치 선택 등 세가지 부분으로 구성되어 있는데 본 논문에서는 이들 각각 부분을 개선하여 기존의 예제기반 인페인팅 방법의 성능을 향상하는 방법을 제안한다. 기존에는 데이터 항을 계산하는데 편미방을 이용해서 국부적인 기울기를 구하기 때문에 잡음에 민감한 문제가 있어 이를 16개의 방향성 마스크를 사용하여 전역적 기울기를 구하도록 하여 잡음에 강건하도록 개선하였다. 신뢰도 항을 계산하는 과정에서 복원할 영역 내부에서 신뢰도 값이 매우 작아지는 문제를 개선하기 복원할 영역의 내부에서 신뢰도 항이 천천히 감소하도록 하는 방법을 제안하였다. 또한 복원할 영역에서 가까운 패치에 가중치를 주도록 패치 선택 방법을 개선하였다. 여러 가지 영상에 대한 실험한 결과 제안된 방법을 통한 인페인팅이 기존의 예제 기반 인페인팅보다 자연스럽게 복원함을 알 수 있었으며 훼손된 영상을 복원하는 경우에도 제안된 방법이 기존 방법보다 오차가 줄어듦을 알 수 있었다.

용어의 문맥활용을 통한 문헌 자동 분류의 성능 향상에 관한 연구 (A Study on Improving the Performance of Document Classification Using the Context of Terms)

  • 송성전;정영미
    • 정보관리학회지
    • /
    • 제29권2호
    • /
    • pp.205-224
    • /
    • 2012
  • 자동 분류에서 문헌을 표현하는 일반적인 방식인 BOW는 용어를 독립적으로 처리하기 때문에 주변 문맥을 반영하지 못한다는 한계가 있다. 이에 본 연구는 각 용어마다 주제범주별 문맥적 특징을 파악해 프로파일로 정의하고, 이 프로파일과 실제 문헌에서의 문맥을 비교하는 과정을 통해 동일한 형태의 용어라도 그 의미나 주제적 배경에 따라 구분하고자 하였다. 이를 통해 주제가 서로 다름에도 불구하고 특정 용어의 출현만으로 잘못된 분류 판정을 하는 문제를 극복하고자 하였다. 본 연구에서는 이러한 문맥적 요소를 용어 가중치, 분류기 결합, 자질선정의 3가지 항목에 적용해 보고 그 분류 성능을 측정했다. 그 결과, 세 경우 모두 베이스라인보다 분류 성능이 향상되었고 가장 큰 성능 향상을 보인 것은 분류기 결합이었다. 또한 제안한 방법은 학습문헌 수가 많고 적음에 따라 발생하는 성능의 편향을 완화하는데도 효과적인 것으로 나타났다.

단어 중의성 해소를 위한 SVM 분류기 최적화에 관한 연구 (A Study on Optimization of Support Vector Machine Classifier for Word Sense Disambiguation)

  • 이용구
    • 정보관리연구
    • /
    • 제42권2호
    • /
    • pp.193-210
    • /
    • 2011
  • 이 연구는 단어 중의성 해소를 위해 SVM 분류기가 최적의 성능을 가져오는 문맥창의 크기와 다양한 가중치 방법을 파악하고자 하였다. 실험집단으로 한글 신문기사를 적용하였다. 문맥창의 크기로 지역 문맥은 좌우 3단어, 한 문장, 그리고 좌우 50바이트 크기를 사용하였으며, 전역문맥으로 신문기사 전체를 대상으로 하였다. 가중치 부여 기법으로는 단순빈도인 이진 단어빈도와 단순 단어빈도를, 정규화 빈도로 단순 또는 로그를 취한 단어빈도 ${\times}$ 역문헌빈도를 사용하였다. 실험 결과 문맥창의 크기는 좌우 50 바이트가 가장 좋은 성능을 보였으며, 가중치 부여 방법은 이진 단어빈도가 가장 좋은 성능을 보였다.

용어 가중치부여 기법을 이용한 로치오 분류기의 성능 향상에 관한 연구 (A Study on the Performance Improvement of Rocchio Classifier with Term Weighting Methods)

  • 김판준
    • 정보관리학회지
    • /
    • 제25권1호
    • /
    • pp.211-233
    • /
    • 2008
  • 로치오 알고리즘에 기반한 자동분류의 성능 향상을 위하여 두 개의 실험집단(LISA, Reuters-21578)을 대상으로 여러 가중치부여 기법들을 검토하였다. 먼저, 가중치 산출에 사용되는 요소를 크게 문헌요소(document factor), 문헌집합 요소(document set factor), 범주 요소(category factor)의 세 가지로 구분하여 각 요소별 단일 가중치부석 기법의 분류 성능을 살펴보았고, 다음으로 이들 가중치 요소들 간의 조합 가중치부여 기법에 따른 성능을 알아보았다. 그 결과, 각 요소별로는 범주 요소가 가장 좋은 성능을 보였고, 그 다음이 문헌집합 요소, 그리고 문헌 요소가 가장 낮은 성능을 나타냈다. 가중치 요소 간의 조합에서는 일반적으로 사용되는 문헌 요소와 문헌집합 요소의 조합 가중치(tfidf or ltfidf)와 함께 문헌 요소를 포함하는 조합(tf*cat or ltf*cat) 보다는, 오히려 문헌 요소를 배제하고 문헌 집합 요소를 범주 요소와 결합한 조합 가중치 기법(idf*cat)이 가장 좋은 성능을 보였다. 그러나 실험집단 측면에서 단일 가중치와 조합 가중치를 서로 비교한 결과에 따르면, LISA에서 범주 요소만을 사용한 단일 가중치(cat only)가 가장 좋은 성능을 보인 반면, Reuters-21578에서는 문헌집합 요소와 범주 요소간의 조합 가중치(idf*cat)의 성능이 가장 우수한 것으로 나타났다. 따라서 가중치부여 기법에 대한 실제 적용에서는, 분류 대상이 되는 문헌집단 내 범주들의 특성을 신중하게 고려할 필요가 있다.

단어기반 웹 문서 검색을 위한 효과적인 단어 가중치의 계산 (Efficient Term Weighting For Term-based Web Document Search)

  • 권순만;박병준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.169-171
    • /
    • 2004
  • 웹(WWW)은 방대한 양의 정보들과 함께 그에 따른 웹의 환경과 그에 따른 정보도 증가하게 되었다. 그에 따라 사용자가 찾고자 하는 정보가 잘 표현된 웹 문서를 효과적으로 찾는 것은 중요한 일이 되었다. 단어기반의 검색에서는 사용자가 찾고자 하는 단어가 나타난 문서들을 사용자에게 보여주게 된다. 검색 단어를 가지고 문서에 대한 가중치를 계산하게 되는데, 본 논문에서는 이러한 단어기반의 검색에서 단어에 대한 가중치를 효과적으로 계산하는 방법을 제시한다 기존의 방식은 단어가 나타난 빈도수에 한정되어진 계산을 하게 되는 반면, 수정된 방식은 태그별로 분류를 통한 차별화 된 가중치를 부여하여 계산된다. 기존의 방식과 비교한 결과 본 논문에서 제시한 수정된 방식이 더 높은 정확도를 나타냈다.

  • PDF

AVHRR/SST로 부터 표층유속을 추정하기 위한 역행렬 모델에서 가중치의 설정 (Determination of Weighting Factor in the Inverse Model for Estimating Surface Velocity from AVHRR/SST Data)

  • 이태신;정종률;강현우
    • 한국해양학회지
    • /
    • 제30권6호
    • /
    • pp.543-549
    • /
    • 1995
  • 연속된 AVHRR/SST 자료를 이용한 표층유속의 추정에 역행렬법이 이용되어 왔다. 본 모델에서 방정식체계는 열방정식과 제한요소로서 가중치가 있는 발산최소화이다. 제한요소는 열방정식의 속도해중에서 null space(Menke, 1984)에 해당하는 해를 구하기 위하여 도입되었으며 이 식들은 격자화한 영역에서 AVHRR/SST의 수온경사에 의해 선형화된다. 실험은 열방정식에 대한 발산최소화의 상대적 중요성을 나타내는 가중치의 크기를 설정하기 위하여 수행하였으며 행렬식은 SVD(Singular Value Decomposion)에 의해 해를 구했다. 실험에서 가상온도분포의 수온경사와 가상유속장의 발산의 크기는 실제해역에 근사시켰다. 열방정식은 착산의 효과를 무시하고 열속이 공간적으로 일정한 것으로 가정하여 구성하였으며 이와같은 가정에 의한 오류를 고려하기 위하여 가상 온도자료에 무작위오류를 도입하였다. 실험결과에 의하면 가중치를 설정하는 기준으로서 상대오차 최소화가 잔차최소화보다 바람직한 것으로 나타났으며 가중치가 $10^{-1}$의 크기일 때 추정유속의 오류가 가장 작은것으로 나타났다.

  • PDF

전자기록의 장기보존을 위한 위험평가 방법의 제안 (A Risk Assessment Method for the Long-term Preservation of Electronic Records)

  • 차현철;최주호
    • 한국멀티미디어학회논문지
    • /
    • 제22권1호
    • /
    • pp.79-87
    • /
    • 2019
  • Appropriate strategies are needed to ensure long-term preservation of various types of electronic records. For proper preservation of electronic records, it is necessary of decision-making processes for risk assessment, notification and implementation of conservation measures. To do this, the task of assessing various risk factors that impede the long-term preservation and utilization of electronic records should be done first. In this study, since electronic records are mostly stored in file form, risk assessment for electronic records of file type is performed. The risk factors required for the risk assessment of the file format are derived, and the algorithms are developed to devise a calculation method of the weighting factor and the risk factor index for evaluating the risk based on the proposed risk factors. In addition, the proposed methods are applied to the file formats used in Korea and risk assessment is performed and the results are analyzed.

RFID를 이용한 이동로봇의 위치인식기술 (Localization of Mobile Robot Based on Radio Frequency Identification Devices)

  • 이현정;최규천;이민철;이장명
    • 제어로봇시스템학회논문지
    • /
    • 제12궈1호
    • /
    • pp.41-46
    • /
    • 2006
  • Ubiquitous location based services, offer helpful services anytime and anywhere by using real-time location information of objects based on ubiquitous network. Particularly, autonomous mobile robots can be a solution for various applications related to ubiquitous location based services, e.g. in hospitals, for cleaning, at airports or railway stations. However, a meaningful and still unsolved problem for most applications is to develop a robust and cheap positioning system. A typical example of position measurements is dead reckoning that is well known for providing a good short-term accuracy, being inexpensive and allowing very high sampling rates. However, the measurement always has some accumulated errors because the fundamental idea of dead reckoning is the integration of incremental motion information over time. The other hand, a localization system using RFID offers absolute position of robots regardless of elapsed time. We construct an absolute positioning system based on RFID and investigate how localization technique can be enhanced by RFID through experiment to measure the location of a mobile robot. Tags are placed on the floor at 5cm intervals in the shape of square in an arbitrary space and the accuracy of position measurement is investigated . To reduce the error and the variation of error, a weighting function based on Gaussian function is used. Different weighting values are applied to position data of tags since weighting values follow Gaussian function.

텍스트 마이닝에서 심층 신경망을 이용한 문서 분류 (Document classification using a deep neural network in text mining)

  • 이보희;이수진;최용석
    • 응용통계연구
    • /
    • 제33권5호
    • /
    • pp.615-625
    • /
    • 2020
  • 문서-용어 빈도행렬은 그룹정보가 존재하는 문서들의 용어를 추출한 것으로 일반적인 텍스트 마이닝에서의 자료이다. 본 연구에서는 연구 분야 성격에 따른 문서 분류를 위해 문서-용어 빈도행렬을 생성하고, 전통적인 용어 가중치 함수인 TF-IDF와 최근 잘 알려진 용어 가중치 함수인 TF-IGM을 적용하였다. 또 용어 가중치가 적용된 문서-용어 가중행렬에 문서분류 정확도 향상을 위해 핵심어를 추출하여 문서-핵심어 가중행렬을 생성하였다. 핵심어가 추출된 행렬을 바탕으로, 심층 신경망을 이용해 문서를 분류하였다. 심층 신경망에서 최적의 모델을 찾기 위해 매개변수인 은닉층과 은닉노드수를 변화해가며 문서 분류 정확도를 확인하였다. 그 결과 8개의 은닉층을 가진 심층 신경망 모델이 가장 높은 정확도를 보였으며 매개변수 변화에 따른 모든 TF-IGM 문서 분류 정확도가 TF-IDF 문서 분류 정확도보다 높은 것을 확인하였다. 또한 개별 범주에 대한 문서 분류 분석 결과를 서포트 벡터 머신과 비교했을 때 심층 신경망이 대부분의 결과에서 더 좋은 정확도를 보임을 확인하였다.

통계적기법에 의한 한글자동색인의 연구 (A Study on Automatic Indexing of Korean Texts based on Statistical Criteria)

  • 우동진
    • 정보관리학회지
    • /
    • 제4권1호
    • /
    • pp.47-86
    • /
    • 1987
  • 본 연구는 한글자동색인에 관한 연구로 한국전자통신연구소의 DOCUMENT Data Base로부터 299개 문헌의 제목과 초록을 무작위로 추출하여 단어분리를 시도하고, 분리된 단어군, 인식어를 제외한 단어군, 인식어와 불용어를 제외한 단어군, 그리고 인식어와 불용어를 제외하고 복합어를 구성하여 포함한 단어군 등 4개의 시험군을 설정한 후, 파오의 전환점 산출기과 스파크죤스의 역문헌 가중기법, 살톤의 문헌분리 가중기법을 적용하여 색인어를 선정하고 이를 비교 평가하여 한글문헌의 자동색인 방안을 모색하였다.

  • PDF