• 제목/요약/키워드: Pre Processing

검색결과 1,992건 처리시간 0.026초

비정형 텍스트 데이터 정제를 위한 불용어 코퍼스의 활용에 관한 연구 (A Study on the Use of Stopword Corpus for Cleansing Unstructured Text Data)

  • 이원조
    • 문화기술의 융합
    • /
    • 제8권6호
    • /
    • pp.891-897
    • /
    • 2022
  • 빅데이터 분석에서 원시 텍스트 데이터는 대부분 다양한 비정형 데이터 형태로 존재하기 때문에 휴리스틱 전처리 정제와 컴퓨터를 이용한 후처리 정제과정을 거쳐야 분석이 가능한 정형 데이터 형태가 된다. 따라서 본 연구에서는 텍스트 데이터 분석 기법의 하나인 R 프로그램의 워드클라우드를 적용하기 위해서 수집된 원시 데이터 전처리를 통해 불필요한 요소들을 정제하고 후처리 과정에서 불용어를 제거한다. 그리고 단어들의 출현 빈도수를 계산하고 출현빈도가 높은 단어들을 핵심 이슈들로 표현해 주는 워드클라우드 분석의 사례 연구를 하였다. 이번 연구는 R의워드클라우드 기법으로 기존의 불용어 처리 방법인 "내포된 불용어 소스코드" 방법의 문제점을 개선하기 위하여 "일반적인 불용어 코퍼스"와 "사용자 정의 불용어 코퍼스"의 활용 방안을 제안하고 사례 분석을 통해서 제안된 "비정형 데이터 정제과정 모델"의 장단점을 비교 검증하여 제시하고 "제안된 외부 코퍼스 정제기법"을 이용한 워드클라우드 시각화 분석의 실무적용에 대한 효용성을 제시한다.

딥러닝 기반의 의료 OCR 기술 동향 (Trends in Deep Learning-based Medical Optical Character Recognition)

  • 윤성연;최아린;김채원;오수민;손서영;김지연;이현희;한명은;박민서
    • 문화기술의 융합
    • /
    • 제10권2호
    • /
    • pp.453-458
    • /
    • 2024
  • 광학 문자 인식(Optical Character Recognition, OCR)은 이미지 내의 문자를 인식하여 디지털 포맷(Digital Format)의 텍스트로 변환하는 기술이다. 딥러닝(Deep Learning) 기반의 OCR이 높은 인식률을 보여줌에 따라 대량의 기록 자료를 보유한 많은 산업 분야에서 OCR을 활용하고 있다. 특히, 의료 산업 분야는 의료 서비스 향상을 위해 딥러닝 기반의 OCR을 적극 도입하였다. 본 논문에서는 딥러닝 기반 OCR 엔진(Engine) 및 의료 데이터에 특화된 OCR의 동향을 살펴보고, 의료 OCR의 발전 방향에 대해 제시한다. 현재의 의료 OCR은 검출한 문자 데이터를 자연어 처리(Natural Language Processing, NLP)하여 인식률을 개선하였다. 그러나, 정형화되지 않은 손글씨(Handwriting)나 변형된 문자에서는 여전히 인식 정확도에 한계를 보였다. 의료 데이터의 데이터베이스(Database)화, 이미지 전처리(Pre-processing), 특화된 자연어 처리를 통해 더욱 고도화된 의료 OCR을 발전시키는 것이 필요하다.

Contact image sensor를 위한 고속 영상 처리 보드 구현 (An implementation of the high speed image processing board for contact image sensor)

  • 강현인;주용완;백광렬
    • 제어로봇시스템학회논문지
    • /
    • 제5권6호
    • /
    • pp.691-697
    • /
    • 1999
  • This paper describes the implementation of a high speed image processing board. This image processing board is consist of a image acquisition part and a image processing part. The image acquistion part is digitizing the image input data from CIS and save it to the dual port RAM. By putting on the dual port memory between two parts, during acquistion of image, the image processing part can be effectively processing of large-volume image data. Most of all image preprocessing part are integrated in a large-scaled FPGA. We arwe using ADSP-2181 of the Analog Device Inc., LTD. for a image processing part, and using the available all memory of DSP for the large-volume image data. Especially, using of IDMA exchanges the data with the external microprocessor or the external PC, and can watch the result of image processing and acquired image. Finally, we show that an implemented image processing board used for the simulation of image retreval by the one of the typical application.

  • PDF

효소에 의한 방축가공 양모직물의 물성 변화에 관한 연구 (A Study on the Mechanical Properties of Shrink-Resistant Wool Fabric Treated with Enzyme)

  • 박미라;김환철;박병기
    • 한국염색가공학회지
    • /
    • 제13권3호
    • /
    • pp.155-164
    • /
    • 2001
  • Textile wet-processing industry usually five rise to environmental pollution problems caused by using chemical substance. The objective of this study is to apply enzymes for wool and reduce the environmental problems. Three commercial protein degradation enzymes and a cellulose degradation enzyme as a reference were treated to prevent the shrinkage of wool fabric on laundering. Shrink resistant effects used change with the kinds of enzyme, the amount of enzyme, assistant chemicals, and the pre-treatment condition of wool fabric. When pre-treated with corona before enzyme treatment under ultrasonic condition, the weight loss was increased and strength was decreased and elongation was increased. Both corona pre-treatment and the addition of $Na_2SO_4$ also decreased shrinkage of wool fabrics on laundering. The existence of assistant chemicals increased alkali solubility of wool fabrics.

  • PDF

Extraction of Canine Cataract Object for Developing Handy Pre-diagnostic Tool with Fuzzy Stretching and ART2 Learning

  • Kim, Kwang Baek
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제16권1호
    • /
    • pp.21-26
    • /
    • 2016
  • Canine cataract is developed with aging and can cause the blindness or surgical treatment if not treated timely. The first observation must be made by pet owners but they do not have proper equipment and knowledge to see the abnormalities. In this paper, we propose an intelligent image processing method to extract canine cataract suspicious object from non-professional equipment such as ordinary digital camera and cellular phone photographs so that even casual owners of pet dog can make a pre-diagnosis of such a surgery-needed disease as soon as possible. The experiment shows that the proposed method is successful in most cases except the dog has similar colored hair to the color of cataract.

데이터 사전처리에 의한 GPS 성능 개선 알고리즘 (Algorithm for Improving GPS Performance by Data Pre-processing)

  • 이재훈;홍원철;김현수;전창완
    • 제어로봇시스템학회논문지
    • /
    • 제12권8호
    • /
    • pp.752-758
    • /
    • 2006
  • A GPS receiver provides much information such as calculated position, speed, heading, status of satellites, current time errors, etc. It is well-known that GPS signals from GPS receiver mounted on moving vehicle are often distorted, contaminated by various noises, and blocked by tunnel or tall buildings. The phenomenon often obstructs correct navigation especially when a vehicle keeps stopping or is moving in low speed. Therefore it is needed to pre-process the signals to adapt it to various applications. In this paper, an algorithm to pre-process the signals is proposed. For this, GPS data obtaining from uNAV GPS receiver are analyzed and classified based on dynamic characteristic. Then, the proposed algorithm is applied to the data and some test results are shown to verify the usefulness of the algorithm.

Query Formulation for Heuristic Retrieval in Obfuscated and Translated Partially Derived Text

  • Kumar, Aarti;Das, Sujoy
    • Journal of Information Science Theory and Practice
    • /
    • 제3권1호
    • /
    • pp.24-39
    • /
    • 2015
  • Pre-retrieval query formulation is an important step for identifying local text reuse. Local reuse with high obfuscation, paraphrasing, and translation poses a challenge of finding the reused text in a document. In this paper, three pre-retrieval query formulation strategies for heuristic retrieval in case of low obfuscated, high obfuscated, and translated text are studied. The strategies used are (a) Query formulation using proper nouns; (b) Query formulation using unique words (Hapax); and (c) Query formulation using most frequent words. Whereas in case of low and high obfuscation and simulated paraphrasing, keywords with Hapax proved to be slightly more efficient, initial results indicate that the simple strategy of query formulation using proper nouns gives promising results and may prove better in reducing the size of the corpus for post processing, for identifying local text reuse in case of obfuscated and translated text reuse.

클래스 연산의 선행/후행 조건에 바탕을 둔 클래스의 상태 다이어그램 자동 구성 기법 (An Automatic Construction Approach of State Diagram from Class Operations with Pre/Post Conditions)

  • 이광민;배정호;채흥석
    • 정보처리학회논문지D
    • /
    • 제16D권4호
    • /
    • pp.527-540
    • /
    • 2009
  • 상태 다이어그램은 객체가 가질 수 있는 상태와 각 상태에서 수행 할 수 있는 전이를 사용하여 객체의 동적행위를 표현한다. 본 논문에서는 클래스 연산들의 선행/후행 조건들을 이용하여 상태다이어그램을 자동으로 생성하는 기법을 제안한다. 그리고 본 논문에서 제시한 기법을 구현하는 도구 SDAG(State Diagram Automatic Generation Tool)을 제작하였다. 추가적으로 생성된 상태 다이어그램의 복잡도를 감소시키기 위하여 연산의 종류를 고려한 상태 다이어그램 생성 방법과 생성된 다이어그램을 측정하는 방법을 제안하고 실험하였다.

Korean Patent ELECTRA : 한국 특허문헌 자연어처리 연구를 위한 사전 학습된 언어모델(KorPatELECTRA) (Korean Patent ELECTRA : a pre-trained Korean Patent language representation model for the study of Korean Patent natural language processing(KorPatELECTRA))

  • 민재옥;장지모;조유정;노한성
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.69-71
    • /
    • 2021
  • 특허분야에서 자연어처리 태스크는 특허문헌의 언어적 특이성으로 문제 해결의 난이도가 높은 과제임에 따라 한국 특허문헌에 최적화된 언어모델의 연구가 시급한 실정이다. 본 논문에서는 대량의 한국 특허문헌 데이터를 최적으로 사전 학습(pre-trained)한 Korean Patent ELECTRA 모델과 tokenize 방식을 제안하며 기존 범용 목적의 사전학습 모델과 비교 실험을 통해 한국 특허문헌 자연어처리에 대한 발전 가능성을 확인하였다.

  • PDF

센서 네트워크 기반 자율주행 자동차 제어 시스템 설계 및 구현 (Design and Implementation of Sensor Network based Autonomous Vehicle Control System)

  • 장원철;김종면
    • 대한임베디드공학회논문지
    • /
    • 제7권5호
    • /
    • pp.247-253
    • /
    • 2012
  • This paper presents sensor network based autonomous vehicle system using a proposed image processing algorithm. The proposed image processing algorithm consists of pre-processing and five-stage image processing: coordinate calculation, driving area decision, line segment calculation, steeling decision, and acceleration decision. We evaluate the performance of the proposed algorithm on both straight road and curved road. Experimental results indicate that the proposed algorithm works well for autonomous vehicles. However, control accuracy of the proposed algorithm decreases as speed is increasing.