• 제목/요약/키워드: Text comparing

검색결과 270건 처리시간 0.025초

내용기반의 인쇄체 영문 문서 영상 검색을 위한 특징 기반 단어 검색 (A Feature -Based Word Spotting for Content-Based Retrieval of Machine-Printed English Document Images)

  • 정규식;권희웅
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권10호
    • /
    • pp.1204-1218
    • /
    • 1999
  • 문서영상 검색을 위한 디지털도서관의 대부분은 논문제목과/또는 논문요약으로부터 만들어진 색인에 근거한 제한적인 검색기능을 제공하고 있다. 본 논문에서는 영문 문서영상전체에 대한 검색을 위한 단어 영상 형태 특징기반의 단어검색시스템을 제안한다. 본 논문에서는 검색의 효율성과 정확도를 높이기 위해 1) 기존의 단어검색시스템에서 사용된 특징들을 조합하여 사용하며, 2) 특징의 개수 및 위치뿐만 아니라 특징들의 순서를 포함하여 매칭하는 방법을 사용하며, 3) 특징비교에 의해 검색결과를 얻은 후에 여과목적으로 문자인식을 부분적으로 적용하는 2단계의 검색방법을 사용한다. 제안된 시스템의 동작은 다음과 같다. 문서 영상이 주어지면, 문서 영상 구조가 분석되고 단어 영역들의 조합으로 분할된다. 단어 영상의 특징들이 추출되어 저장된다. 사용자의 텍스트 질의가 주어지면 이에 대응되는 단어 영상이 만들어지며 이로부터 영상특징이 추출된다. 이 참조 특징과 저장된 특징들과 비교하여 유사한 단어를 검색하게 된다. 제안된 시스템은 IBM-PC를 이용한 웹 환경에서 구축되었으며, 영문 문서영상을 이용하여 실험이 수행되었다. 실험결과는 본 논문에서 제안하는 방법들의 유효성을 보여주고 있다. Abstract Most existing digital libraries for document image retrieval provide a limited retrieval service due to their indexing from document titles and/or the content of document abstracts. This paper proposes a word spotting system for full English document image retrieval based on word image shape features. In order to improve not only the efficiency but also the precision of a retrieval system, we develop the system by 1) using a combination of the holistic features which have been used in the existing word spotting systems, 2) performing image matching by comparing the order of features in a word in addition to the number of features and their positions, and 3) adopting 2 stage retrieval strategies by obtaining retrieval results by image feature matching and applying OCR(Optical Charater Recognition) partly to the results for filtering purpose. The proposed system operates as follows: given a document image, its structure is analyzed and is segmented into a set of word regions. Then, word shape features are extracted and stored. Given a user's query with text, features are extracted after its corresponding word image is generated. This reference model is compared with the stored features to find out similar words. The proposed system is implemented with IBM-PC in a web environment and its experiments are performed with English document images. Experimental results show the effectiveness of the proposed methods.

지자체 기후변화 적응 대책 특성 및 개선 방향 (The Characteristics and Improvement Directions of Regional Climate Change Adaptation Policies in accordance with Damage Cases)

  • 안윤정;강영은;박창석;김호걸
    • 환경영향평가
    • /
    • 제25권4호
    • /
    • pp.296-306
    • /
    • 2016
  • 기후변화에 대한 영향 및 위험은 지역적, 국지적 차원에서 더욱 확장되므로 기후변화에 따른 지역적 영향 및 특성을 반영한 기후변화 적응대책 마련의 필요성이 커지고 있다. 이에 본 연구에서는 기초지자체 적응대책의 분야별 사업 수 및 예산의 특성을 분석하고 피해사례와 비교 검토하여 기후변화 적응대책의 개선방향을 제시하고자 했다. 기초지자체 적응대책 특성 분석을 위해 군집분석을 통하여 지자체 적응대책의 유형별 특성을 파악 했다. 적응대책의 계획이 실제 기후변화로 인한 피해 내용을 잘 반영하고 있는지 검토하기 위하여 과거 24년 동안 지자체별 관측 영향 결과(신문기사 2,565건)와 비교 분석을 수행했다. 군집분석 수행 결과 군집은 4가지 유형으로 구분되었다. 전국 피해 유형으로 재난재해, 건강 부분에서 공통적으로 피해 빈도가 높은 것으로 분석되었으며, 적응계획 또한 재난재해, 건강, 농업, 물 관리 순서로 높은 비율을 보였다. 하지만 피해 사례 반영의 비중과 단기 및 장기 미래에 대한 고려 수준에 따라서 각 군집별로 피해빈도와 적응계획의 특성에서 차이를 보였다. 본 연구의 결과는 향후 기초지자체 특성 및 지역별 실질적 피해에 기반 한 적응대책 마련의 기초자료로 활용될 수 있을 것이라고 판단된다.

병렬 객체지향 프로그래밍을 위한 시각 환경의 설계 및 구현 (Design and Implementation of Visual Environment for Parallel Object-Oriented Programming)

  • 최숙영
    • 한국정보처리학회논문지
    • /
    • 제6권2호
    • /
    • pp.485-496
    • /
    • 1999
  • 병렬 프로그래밍은 프로세스간의 통신과 동기화 문제, 병렬 시스템의 구성 형태등을 고려해야 하기 때문에 순차 프로그래밍에 ? 많은 노력을 필요로 한다. 효율적인 병렬 프로그램을 작성하기 위해서는 사용자와 컴파일러간의 상호 지원이 이루어져야 한다. 이러한 관점에서 본 연구는 선행 연구로써 병렬 객체지향 표기언어 POOSL을 개발하였다. 그러나, 사용자 입장에서 볼 때 병렬 프로그램을 작성하기 위해 POOSL의 문법 구조를 염두에 두고 텍스트 중심의 프로그램을 작성한다면 여전히 부담스러운 작업이 될 것이다. 사용자에게 보다 편리함을 제공하기 위해서는 텍스트보다는 시각적인 프로그래밍 환경이 더욱 효율적이고 바람직할 것이다. 따라서, 본 논문에서는 POOSL을 기초로 하여 사용자가 좀더 쉽고, 편리하게 병렬 프로그래밍 할 수 있는 시각 환경으로써 VEPO(Visual Environment for Parallel Object-Oriented Programing)를 제안하고 있다. 본 논문의 목적은 사용자가 병렬 프로그램을 작성하는데 있어 문제에 내재된 병렬성을 객체지향 개념에 입각하여 시각적으로 자연스럽게 표현하도록 하고, 병렬 프로그램 개발에 관련된 과정들을 하나의 환경을 통합시킴으로써 편리한 프로그램 환경을 제공하는 것이다. 본 연구에서 제안하고 있는 VEPO는 병렬 프로그램을 개발하는데 필요한 기본적인 단계들로써 프로그램 기술 단계, 실행 단계, 실행 과정의 시각화등을 지원하고 있으며, 시각 프로그래밍의 장점을 충분히 살릴 수 있도록 여러 개념들이 지원되고 있다. 특히, 병렬 프로그램에서 복잡하고 까다로운 통신과 동기화에 관련된 코드 등은 번역 과정에서 여러 개념들이 생성되도록, 함으로써 사용자로 하여금 병렬 프로그램을 작성하는데 따르는 부담감을 줄 일 수 있도록 한다. 본 시스템은 PC를 호스트로 연결한 트랜스퓨터들로 구성된 병렬 컴퓨터 MC-3에서 구현되었다. VEPO 그래픽 사용자 인터페이스는 Visual C++로 구현되었고, VEPO에서 작성된 시각 프로그램은 Inmos C 코드로 번역되어 MC-3에서 수행된다.

  • PDF

코퍼스 분석방법을 이용한 『동의보감(東醫寶鑑)』 영역본의 어휘 분석 (An Analysis on the Vocabulary in the English-Translation Version of Donguibogam Using the Corpus-based Analysis)

  • 정지훈;김동율;김도훈
    • 한국의사학회지
    • /
    • 제28권2호
    • /
    • pp.37-45
    • /
    • 2015
  • Objectives : A quantitative analysis on the vocabulary in the English translation version of Donguibogam. Methods : This study quantitatively analyzed the English-translated texts of Donguibogam with the Corpus-based analysis, and compared the quantitative results analyzing the texts of original Donguibogam. Results : As the results from conducting the corpus analysis on the English-translation version of Donguibogam, it was found that the number of total words (Token) was about 1,207,376, and the all types of used words were about 20.495 and the TTR (Type/Token Rate) was 1.69. The accumulation rate reaching to the high-ranking 1000 words was 83.54%, and the accumulation rate reaching to the high-ranking 2000 words was 90.82%. As the words having the high-ranking frequency, the function words like 'the, and of, is' mainly appeared, and for the content words, the words like 'randix, qi, rhizoma and water' were appeared in multi frequencies. As the results from comparing them with the corpus analysis results of original version of Donguibogam, it was found that the TTR was higher in the English translation version than that of original version. The compositions of function words and contents words having high-ranking frequencies were similar between the English translation version and the original version of Donguibogam. The both versions were also similar in that their statements in the parts of 'Remedies' and 'Acupuncture' showed higher composition rate of contents words than the rate of function words. Conclusions : The vocabulary in the English translation version of Donguibogam showed that this book was a book keeping the complete form of sentence and an Korean medical book at the same time. Meanwhile, the English translation version of Donguibogam had some problems like the unification of vocabulary due to several translators, and the incomplete delivery of word's meanings from the Chinese character-culture area to the English-culture area, and these problems are considered as the matters to be considered in a work translating Korean old medical books in English.

슬라브어 담화 직시와 대용 (Discourse Deixis and Anaphora in Slavic Languages)

  • 정정원
    • 비교문화연구
    • /
    • 제45권
    • /
    • pp.381-431
    • /
    • 2016
  • 본고에서는 슬라브어, 특히 러시아어, 폴란드어, 체코어, 불가리아어 담화 직시의 전반적 특징을 살펴본다. 슬라브어에서는 무엇보다도 근칭지시사가 담화 직시사로 기능하는 경향이 강하다는 공통점이 있지만, 개별 슬라브어에서 담화 직시사의 구체적 사용 양상은 상이하다. 폴란드어와 체코어에서는 원칭지시대명사와 인칭대명사가 담화 직시사로 거의 기능하지 못하는 반면, 러시아어는 원칭지시대명사가 담화 직시사로 활발하게 사용되며, 인칭대명사도 사용 가능하다. 불가리아어에서는 원칭지시대명사가 담화 직시사로 거의 사용되지 않는 반면, 인칭대명사는 자주 사용된다. 이와 같이 슬라브어 담화 직시사는 개별 언어에서 상이하게 직시와 대용 기능을 수행하는데, 근칭, 원칭 지시대명사와 인칭대명사가 모두 담화 직시사로 기능하는 러시아어에서는 그것의 직시성이 다른 언어에 비해 두드러지며, 가장 분석적인 슬라브어인 불가리아어에서는 인칭대명사의 사용이 잦아 다른 슬라브어에 비해 담화 직시사의 대용 기능이 두드러진다.

인공지능 검색 서비스 활용에 따른 서비스 사용성 평가: 네이버 앱을 중심으로 (Usability Evaluation of Artificial Intelligence Search Services Using the Naver App)

  • 황신희;주다영
    • 감성과학
    • /
    • 제22권2호
    • /
    • pp.49-58
    • /
    • 2019
  • 4차 산업 혁명 시대에 인공지능은 IT 기업을 중심으로 기업들의 핵심 사업 전략이 되고 있다. 그리고 국내외 주요 포탈 기업들 또한, 인공지능 기반의 검색 서비스를 출시하고 있다. 인공지능 검색 서비스는 이미지 음성과 같은 비정형 데이터를 활용하며 검색 패러다임을 확장시켰다. 하지만 기존의 텍스트 기반의 검색 서비스와 다른 인터페이스를 제공한다. 익숙하지 않은 인터페이스는 서비스의 사용성을 저해할 수 있는 요소로, 인공지능 검색 서비스를 이용에 따른 사용성에 변화를 알아볼 필요가 있다. 본 연구는 네이버앱 8.9.3 베타버전을 사례로 인공지능 검색 서비스를 실험한다. 실험은 네이버앱 사용 경험이 있는 20대와 30대 30명을 대상으로, 네이버앱의 인공지능 검색 서비스인 스마트 렌즈, 스마트 보이스, 스마트 어라운드, AiRS 추천 콘텐츠의 사용성을 기존의 네이버앱 검색과 비교하여 평가한다. 실험분석 결과, 기존의 네이버앱 검색과 비교하여 통계적으로 유의미한 사용성 변화가 있는 것으로 나타났다. 스마트 렌즈, 스마트 보이스, 스마트 어라운드는 양(+)의 상관관계가, AiRS 추천 콘텐츠는 음(-)의 상관관계가 있었다. 본 연구는 인공지능 검색 서비스를 적용에 따른 사용성 변화를 평가하고 분석한 것으로, 추후 인공지능을 활용한 서비스의 사용성 평가 연구에 유용한 자료가 될 것으로 기대한다.

SNS 빅데이터 및 검색포털 트렌드와 마약류 사건 통계간의 비교 및 의미분석 연구 (A Study on the Comparison and Semantic Analysis between SNS Big Data, Search Portal Trends and Drug Case Statistics)

  • 최은정;이수련;권혜민;김명주;이인수;이승훈
    • 디지털융복합연구
    • /
    • 제19권2호
    • /
    • pp.231-238
    • /
    • 2021
  • SNS는 데이터를 통해 사용자의 생각이나 행동을 파악할 수 있고 검색포털의 트렌드는 사용자들의 관심사와 그 변화를 파악할 수 있는 대표적인 서비스이다. 본 논문에서는 SNS의 트윗과 검색포털 트렌드에 마약류관련 단어 노출정도와 마약류 사건 통계와의 비교분석을 수행하여 관계를 분석하였다. SNS와 검색 포털 트렌드의 추이가 일정한 시차를 두고 검찰청 통계에도 동일하게 나타난 것을 확인할 수 있었다. 또한 마약류관련 단어들이 언급된 트윗들에 대한 의미를 파악하기 위해 군집분석을 수행하였다. 2020년 10월에 수집된 5만건 트윗에서는 실제 마약류의 판매에 관련된 의미를 찾을 수 있었다. 이를 통해 SNS모니터링만으로도 마약류관련 사건에 대한 모니터링이 가능하고 구체적 판매 또는 구매관련한 정보를 찾을 수 있고 수사과정에 활용할 수 있다. 추후에는 텍스트뿐 아니라 이미지로 나타나는 관련 범죄사항을 파악할 수 있고 범죄모니터링 및 예측시스템을 제안할 수 있다.

엔트리를 활용한 초등 데이터 과학 교육 사례 연구 (A Study on Elementary Education Examples for Data Science using Entry)

  • 허경
    • 정보교육학회논문지
    • /
    • 제24권5호
    • /
    • pp.473-481
    • /
    • 2020
  • 데이터과학은 스몰데이터 분석에서 출발하여, 빅데이터 분석을 위한 머신러닝, 딥러닝까지 포함하고 있다. 데이터과학은 인공지능 기술의 핵심 영역이고, 학교 교육과정에 체계적으로 반영해야 할 내용이다. 데이터과학 교육을 위해, 엔트리에서도 초등교육용 데이터 분석 도구를 제공하고 있다. 빅데이터 분석에서는 데이터 표본을 추출하여, 통계학적인 추측과 판단을 통해 분석결과를 해석한다. 본 논문에서는 통계학적인 지식을 필요로 하는 빅데이터 분석 영역을 초등영역에서 제외하기로 하고, 초등영역에 초점을 맞춘 데이터과학 교육 사례를 제안하였다. 이를 위해서, 일반적인 데이터과학 교육 단계를 먼저 설명하고, 초등 데이터과학 교육 단계를 새롭게 제안하였다. 그리고 엔트리에서 제공하는 공공 스몰 데이터를 사용한 데이터 변수 값 비교 사례와 데이터 변수 간 상관관계 분석 사례를 초등 데이터과학 교육 단계에 따라 제안하였다. 본 논문에서 제안된 엔트리 데이터분석 사례들을 활용하면, 여러 교과에서 발생하는 데이터를 사용한 초등 데이터과학 융합 교육이 가능하다. 또한, 엔트리를 사용하여 텍스트, 음성 및 영상인식 AI 도구와 결합한 데이터과학 교육 자료도 개발 가능하다.

MeSH 기반의 LDA 토픽 모델을 이용한 검색어 확장 (The MeSH-Term Query Expansion Models using LDA Topic Models in Health Information Retrieval)

  • 유석진
    • 한국도서관정보학회지
    • /
    • 제52권1호
    • /
    • pp.79-108
    • /
    • 2021
  • 헬스 분야에서 정보 검색의 어려움 중의 하나는 일반 사용자들이 전문적인 용어들을 이해하기가 어렵다는 점이다. 헬스와 관련된 전문 용어들은 일반 사용자들이 검색어로 사용하기 어렵기 때문에 이러한 전문 용어들이 자동적으로 검색어에 더해질 수 있다면 좀 더 검색의 효과를 높일 수 있을 것이다. 제안된 검색어 확장 모델은 전문 용어를 포함하는 MeSH(Medical Subject Headings)를 검색어 확장을 위한 단어 후보 군으로 이용하였다. 문서들은 MeSH용어들로 표현이 되고 이렇게 표현된 문서들의 집합에 대해서 LDA(Latent Dirichlet Analysis) 토픽들이 생성된 후, (검색어+초기 검색어에 의해 검색된 상위 k개 문서들)에 연관된 토픽 단어들이 원래의 검색어를 확장하는 데 쓰여졌다. MeSH로 구성된 토픽 단어들은 임의로 정해진 토픽 확률 임계값과 토픽을 구성하는 단어의 확률 임계값보다 높았을 때 초기의 검색어에 포함되었다. 특정수의 토픽을 갖는 LDA 모델에서 이러한 적절한 임계값의 설정을 통해 선택된 토픽 단어들은 검색어 확장에 이용되어 검색시에 infAP(inferred Average Precision)와 infNDCG(inferred Normalized Discounted Cumulative Gain)를 높이는데 효과적으로 작용하였다. 또한 토픽 확률값과 토픽 단어의 확률값을 곱하여 계산된 토픽 단어의 스코어가 높은 상위 k개의 단어를 검색어를 확장하는 데 이용하였을 때에도 검색의 성능이 향상될 수 있음을 확인하였다.

텍스트 마이닝을 활용한 코로나 19 전후 온라인 동영상 서비스(OTT) 리뷰 비교분석 연구 - 정서 중심 대처와 노스탤지어를 중심으로 (A Comparative Analysis of OTT Service Reviews Before and After the Onset of the Pandemic Using Text Mining Technique: Focusing on the Emotion-Focused Coping and Nostalgia)

  • 고민정;이상원
    • 한국콘텐츠학회논문지
    • /
    • 제21권11호
    • /
    • pp.375-388
    • /
    • 2021
  • 본 연구에서는 팬데믹 전후로 온라인 동영상 서비스(OTT) 이용자들의 리뷰를 비교분석 함으로써 코로나 19 시대를 살아가는 소비자에 대한 이해에 기여하고자 하였다. 코로나 19 이후 통제감 상실이 회피 동기의 발현으로 이어져 정서 중심 대처 수단으로써의 OTT 서비스 이용과 노스탤지어를 해소해주는 콘텐츠에 대한 관심이 증가할 것으로 보고 이를 텍스트 분석을 통해 검증하였다. 먼저 블로그 제목 분석결과, 코로나 19 이후 넷플릭스 경쟁사에 대한 언급이 줄었으며, 국내 콘텐츠에 대한 소개와 회피-거부 전략으로써의 OTT 서비스 이용이 증가하였다. 이어 블로그 본문 분석결과, OTT 서비스의 실용적인 장점을 중요시한 코로나 19 전과는 달리 코로나 19 이후 콘텐츠의 분위기, 감정, 대사에 초점을 두었으며 코미디와 로맨스 장르에 대한 관심이 증가했다. 또한, 코로나 19 이전의 현실을 잘 표현한 일상 콘텐츠에 대한 선호가 증가하였다. 본 연구는 코로나 19가 온라인 동영상 서비스 이용에 미치는 영향을 처음으로 살펴본 연구로써 코로나 시대의 OTT 서비스 이용자들에 대한 이해를 넓히고 OTT 서비스 시장에 실무적 제언을 제시함으로써 도움을 줄 수 있을 것으로 기대한다.