• 제목/요약/키워드: Data dictionary

검색결과 346건 처리시간 0.022초

영역별 맞춤형 감성사전 구축을 통한 영화리뷰 감성분석 (Sentiment analysis on movie review through building modified sentiment dictionary by movie genre)

  • 이상훈;최정;김종우
    • 지능정보연구
    • /
    • 제22권2호
    • /
    • pp.97-113
    • /
    • 2016
  • 인터넷상의 데이터가 급속하게 증가함에 따라 막대한 양의 데이터를 목적에 맞게 적절히 활용하는 빅데이터 분석이 활발하게 진행되고 있다. 최근에는 기존의 정형 데이터분석이 가진 한계점을 보완하는 방법으로 비정형 데이터 분석 분야 중 하나인 텍스트마이닝 기법에 대한 연구들이 다수 이루어지고 있으며, 특히 텍스트를 기반으로 문장의 긍정, 부정을 판별하고 분류하는 감성분석과 관련된 연구들이 활발하게 이루어지고 있다. 이러한 연구의 연장선 상에서, 본 연구는 감성분석에 사용되는 감성사전을 데이터의 특성에 맞게 적절하게 변형하여 구축하는 방법을 시도하였다. 데이터가 속한 영역의 특성을 고려하지 않은 기존의 범용 감성사전을 감성분석에 사용할 경우, 해당 영역에서 쓰이는 단어 또는 감정 표현을 반영하지 못하므로 감성분석의 정확성이 떨어질 수 있다. 따라서 감성분석에 있어서 영역 맞춤형 감성사전의 사용 시 데이터 영역의 특성을 정확하게 반영해 분석의 정확성을 높여줄 것으로 기대할 수 있다. 본 연구에서는 영화 리뷰 데이터를 분석 대상으로 선정하였으며, 대표적 영화정보 사이트 IMDb에서 발생된 약 2년간의 영화리뷰 데이터를 수집 분석하였다. 분석에 앞서 영화 장르별 사용되는 단어의 의미가 각각 다를 것을 고려하여 영화를 '액션', '애니메이션', '코메디', '드라마', '공포', '과학공상' 6개 장르로 분류했다. 맞춤형 감성사전 구축을 위한 핵심 기법으로 SO-PMI(Semantic Orientation from Point-wise Mutual Information)를 활용하였으며, 어휘 간 극성이 뚜렷하게 구분되는 형용사에 한정하여 연구를 진행했다. 분석결과 맞춤형사전을 활용한 감성분석 예측정확도는 영화 장르별로 상이했다. '애니메이션'을 제외한 5개 장르에서 기존의 범용 감성사전대비 맞춤형 감성사전의 예측정확도가 통계적으로 유의한 수준의 성능 향상을 보였다. 본 연구에서는 데이터 영역의 특성에 맞는 맞춤형 사전 구축을 통한 감성분석의 예측의 성능 향상을 확인하였다. 향후 감성사전 구축 시 동사, 부사 등 다양한 품사의 어휘를 추가하여 감성분석 예측정확도를 높이는 방안을 모색할 수 있을 것이다.

효율적인 고장진단을 위한 딕셔너리 구조 개발 (A New Dictionary Mechanism for Efficient Fault Diagnosis)

  • 김상욱;김용준;전성훈;강성호
    • 대한전자공학회논문지SD
    • /
    • 제43권4호
    • /
    • pp.49-55
    • /
    • 2006
  • 고장 진단은 고장이 빈번히 발생하는 위치를 파악하여 공정상의 문제점을 해결할 수 있도록 하는 매우 유용한 기법이다. 그러나 이 경우 일반적인 고장검출을 위한 것보다 훨씬 많은 고장에 대한 정보가 필요하며, 이는 딕셔너리라고 하는 형태로 저장된다. 이때 집적도가 높은 회로의 경우 고장에 대한 모든 정보를 포함한 딕셔너리를 구성하는 것은 매우 비효율적인 커다란 딕셔너리 크기를 요구하게 되어, 효과적인 딕셔너리 구조가 필요하다. 본 논문에서 제안하는 딕셔너리 구조는 고장에 대한 모든 정보를 포함하면서도 크기가 작은 딕셔너리이며, 이는 단일 고착 고장뿐 아니라 다중 고장의 경우에도 적용이 가능한 효과적인 딕셔너리 구조이다.

Ternary Decomposition and Dictionary Extension for Khmer Word Segmentation

  • Sung, Thaileang;Hwang, Insoo
    • Journal of Information Technology Applications and Management
    • /
    • 제23권2호
    • /
    • pp.11-28
    • /
    • 2016
  • In this paper, we proposed a dictionary extension and a ternary decomposition technique to improve the effectiveness of Khmer word segmentation. Most word segmentation approaches depend on a dictionary. However, the dictionary being used is not fully reliable and cannot cover all the words of the Khmer language. This causes an issue of unknown words or out-of-vocabulary words. Our approach is to extend the original dictionary to be more reliable with new words. In addition, we use ternary decomposition for the segmentation process. In this research, we also introduced the invisible space of the Khmer Unicode (char\u200B) in order to segment our training corpus. With our segmentation algorithm, based on ternary decomposition and invisible space, we can extract new words from our training text and then input the new words into the dictionary. We used an extended wordlist and a segmentation algorithm regardless of the invisible space to test an unannotated text. Our results remarkably outperformed other approaches. We have achieved 88.8%, 91.8% and 90.6% rates of precision, recall and F-measurement.

2차원 사전 정합을 위한 실용적인 알고리즘 (A Practical Algorithm for Two-Dimensional Dictionary Matching)

  • 이광수
    • 한국정보처리학회논문지
    • /
    • 제6권3호
    • /
    • pp.812-820
    • /
    • 1999
  • In two-dimensional dictionary matching problem, we are given a two-dimensional text T and a dictionary D={P\ulcorner, ...., P\ulcorner} as a set of two-dimensional patterns. We seek the locations of all the dictionary patterns that appear in T. We present a new two-dimensional pattern matching algorithm that can handle just a single pattern, and then show how to extend it into two-dimensional dictionary matching algorithm. The suggested algorithm is practical in the sense that it can deal that it uses a small extra space proportional to the size of the dictionary, and that it is quite simple to be implemented without depending on complicated data structures.

  • PDF

개선된 LZW 사전 관리 기법에 기반한 효과적인 Hyper-Text 문서 압축 방안 (Hyper-Text Compression Method Based on LZW Dictionary Entry Management)

  • 신광철;한상용
    • 정보처리학회논문지A
    • /
    • 제9A권3호
    • /
    • pp.311-316
    • /
    • 2002
  • LZW 알고리즘은 사전(dictionary) 방식의 압축 알고리즘인 LZ78의 변형된 형태로써 높은 압축률을 제공하기 때문에 많은 상업용 압축 프로그램에서 사용되고 있다. LZW의 핵심은 가장 빈번하게 사용되는 문자열을 사전에 저장하면서, 저장된 것과 동일한 입력 데이터의 문자열을 해당 사전 인덱스로 대체하는 것이다. 본 논문에서는 자주 사용되지 않는 사전의 엔트리를 찾기 위해 카운터를 이용하는 새로운 사전 관리 방법을 제안한다. 또한 하이퍼텍스트 문서를 효율적으로 압축하기 위해 태그와 같은 자주 사용되는 용어들을 코드화하여 사전에 저장한 후 압축을 시도하는 방안을 제안한다. 실험결과 기존의 V.42bis와 UNIX의 compress에 비해 상대적으로 일반문서는 3∼8%, HTML 문서는 23∼24%의 향상된 압축효과를 보여준다.

대용량 OWL 온톨로지 자동구축을 위한 세종전자사전 활용 방법론 연구 (A Study of Methodology for Automatic Construction of OWL Ontologies from Sejong Electronic Dictionary)

  • 송도규
    • 한국언어정보학회지:언어와정보
    • /
    • 제9권1호
    • /
    • pp.19-34
    • /
    • 2005
  • Ontology is an indispensable component in intelligent and semantic processing of knowledge and information, such as in semantic web. However, ontology construction requires vast amount of data collection and arduous efforts in processing these un-structured data. This study proposed a methodology to automatically construct and generate ontologies from Sejong Electronic Dictionary. As Sejong Electronic Dictionary is structured in XML format, it can be processed automatically by computer programmed tools into an OWL(Web Ontology Language)-based ontologies as specified in W3C . This paper presents the process and concrete application of this methodology.

  • PDF

어휘정보구축을 위한 사전텍스트의 구조분석 및 변환 (A Structural Analysis of Dictionary Text for the Construction of Lexical Data Base)

  • 최병진
    • 한국언어정보학회지:언어와정보
    • /
    • 제6권2호
    • /
    • pp.33-55
    • /
    • 2002
  • This research aims at transforming the definition tort of an English-English-Korean Dictionary (EEKD) which is encoded in EST files for the purpose of publishing into a structured format for Lexical Data Base (LDB). The construction of LDB is very time-consuming and expensive work. In order to save time and efforts in building new lexical information, the present study tries to extract useful linguistic information from an existing printed dictionary. In this paper, the process of extraction and structuring of lexical information from a printed dictionary (EEKD) as a lexical resource is described. The extracted information is represented in XML format, which can be transformed into another representation for different application requirements.

  • PDF

수치지도 지형지물 분류체계 개선 및 자료사전에 관한 연구 (A Study on Feature Classification and Data Dictionary of Digital Map)

  • 조우석;이동구;윤영보
    • Spatial Information Research
    • /
    • 제10권3호
    • /
    • pp.455-468
    • /
    • 2002
  • 국토의 효율적인 관리를 위해 국립지리원은 1980년대 중반부터 지도 자동제작을 추진하였으며, 1995년부터 국가지리정보체계(NGIS) 구축사업의 일환으로 다양한 수치지도 제작사업을 본격적으로 착수하였다 현재 국립지리원은 1:1,000 1:5,000 1:25,000 축척의 수치지형도를 제작 수정하고 있으며, 짧은 기간에 수치지도 제작사업을 추진하는 과정에서 관련기술 및 경험 부족 등으로 인하여 수정 및 보완해야 할 사항이 발생하게 되었다. 따라서 수치지도를 제작하면서 발생한 문제점을 개선하고 제작자와 사용자에게 수치지도가 지니고 있는 정보의 특성을 명확하게 제공하고 수치지도가 적절하게 활용될 수 있도록 하며, 또한 다양한 종류의 수치지도들을 연계시킬 수 있는 정보를 제공하기 위해서는 수치지도 자료사전(Data Dictionary)이 필요하다. 본 논문에서는 기존에 수행되었던 연구를 분석하고, 기존 수치지도가 갖고 있는 문제점을 파악하여 대축척 수치지도에 대한 새로운 지형지물 분류체계를 제안하고 축척에 따라 지형지물에 대한 자료사전을 제안하였다. 본 연구의 결과물인 축척별 수치지도 자료사전을 이용하여 제작된 수치지도는 다양한 종류의 수치지도와 연계가 가능할 것으로 판단된다.

  • PDF

실버세대를 위한 동영상 영어사전의 개발 및 평가 (Development and Evaluation of Video English Dictionary for Silver Generation)

  • 김제영;박지수;손진곤
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권11호
    • /
    • pp.345-350
    • /
    • 2020
  • 본 논문은 실버세대 영어학습자를 위한 모바일 학습 콘텐츠를 구현하고 이를 평가하여 이들을 위한 콘텐츠 설계시 고려해야 할 사항에 대해 분석하고자 하였다. 실버세대의 신체적, 학습적 특징과 요구사항 분석을 근거로 하여 영어학습 콘텐츠로 동영상 영어사전을 개발하였고 이를 평가하였다. 동영상 영어사전은 입력방식으로 OCR을, 출력방식으로 동영상을 활용하여 개발하였고 17명의 실버세대들을 대상으로 학업성취도, 학습만족도, 사용의 용이성을 평가하였다. 분석결과 문자 영어사전과 동영상 영어사전 모두 학습만족도가 높은 것으로 나타났으나 학업성취도와 사용의 용이성에서는 문자로 된 영어사전보다 동영상 영어사전이 더 높은 결과를 나타냈다.

Radioisotope identification using sparse representation with dictionary learning approach for an environmental radiation monitoring system

  • Kim, Junhyeok;Lee, Daehee;Kim, Jinhwan;Kim, Giyoon;Hwang, Jisung;Kim, Wonku;Cho, Gyuseong
    • Nuclear Engineering and Technology
    • /
    • 제54권3호
    • /
    • pp.1037-1048
    • /
    • 2022
  • A radioactive isotope identification algorithm is a prerequisite for a low-resolution scintillation detector applied to an unmanned radiation monitoring system. In this paper, a sparse representation with dictionary learning approach is proposed and applied to plastic gamma-ray spectra. Label-consistent K-SVD was used to learn a discriminative dictionary for the spectra corresponding to a mixture of four isotopes (133Ba, 22Na, 137Cs, and 60Co). A Monte Carlo simulation was employed to produce the simulated data as learning samples. Experimental measurement was conducted to obtain practical spectra. After determining the hyper parameters, two dictionaries tailored to the learning samples were tested by varying with the source position and the measurement time. They achieved average accuracies of 97.6% and 98.0% for all testing spectra. The average accuracy of each dictionary was above 96% for spectra measured over 2 s. They also showed acceptable performance when the spectra were artificially shifted. Thus, the proposed method could be useful for identifying radioisotopes in gamma-ray spectra from a plastic scintillation detector even when a dictionary is adapted to only simulated data. Furthermore, owing to the outstanding properties of sparse representation, the proposed approach can easily be built into an insitu monitoring system.