Efficient Document Classification for Web Document Collection (웹 문서 수집을 위한 효율적인 문서 분류)

  • Lee, Jung-Hun;Cheon, Suh-Hyun;Kim, Sun-Hee
    • Proceedings of the Korean Information Science Society Conference
    • 2006.10b
    • pp.397-401
    • 2006
  • 최근 다양한 형식의 웹 문서에서 사용자가 원하는 정보만을 검색 하기위해 웹 문서를 주제별로 분류하여 수집하고, 관리하는 것은 필수적인 요소이다. 즉, 정확하고 빠른 정보 검색을 위한 웹 문서 수집은 문서 형식에 따라 분류되어 수집 되어야 한다. 따라서 웹 환경에서 문서를 구성하는 형식을 텍스트나 이미지 데이터로 구분하고 그 형식에 맞는 분류기법을 사용한다면 정확한 정보 검색이 이루어 질수 있다. 본 논문에서는 텍스트와 URL을 이용한 주제 중심의 하이브리드 웹 문서 분류 방법을 제안한다. 텍스트와 URL을 이용한 분류 방법은 텍스트 형식은 주제 중심의 문서 분류방식을 사용하며, 텍스트 정보의 효용성이 낮은 경우 URL의 주제 분포도를 이용하여 분류하며 수집한다. 이를 통해 여러 가지 형식의 웹 문서가 분류 가능하며, 주제에 따른 문서 분류의 정확도가 높아진다.

A Sentence Sentiment Classification reflecting Formal and Informal Vocabulary Information (형식적 및 비형식적 어휘 정보를 반영한 문장 감정 분류)

  • Cho, Sang-Hyun;Kang, Hang-Bong
    • The KIPS Transactions:PartB
    • v.18B no.5
    • pp.325-332
    • 2011
  • Social Network Services(SNS) such as Twitter, Facebook and Myspace have gained popularity worldwide. Especially, sentiment analysis of SNS users' sentence is very important since it is very useful in the opinion mining. In this paper, we propose a new sentiment classification method of sentences which contains formal and informal vocabulary such as emoticons, and newly coined words. Previous methods used only formal vocabulary to classify sentiments of sentences. However, these methods are not quite effective because internet users use sentences that contain informal vocabulary. In addition, we construct suggest to construct domain sentiment vocabulary because the same word may represent different sentiments in different domains. Feature vectors are extracted from the sentiment vocabulary information and classified by Support Vector Machine(SVM). Our proposed method shows good performance in classification accuracy.

A Study on Korean Printed Character Type Classification And Nonlinear Grapheme Segmentation (한글 인쇄체 문자의 형식 분류 및 비선형적 자소 분리에 관한 연구)

  • Park Yong-Min;Kim Do-Hyeon;Cha Eui-Young
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • 2006.05a
    • pp.784-787
    • 2006
  • In this paper, we propose a method for nonlinear grapheme segmentation in Korean printed character type classification. The characters are subdivided into six types based on character type information. The feature vector is consist of mesh features, vertical projection features and horizontal projection features which are extracted from gray-level images. We classify characters into 6 types using Back propagation. Character segmentation regions are determined based on character type information. Then, an optimal nonlinear grapheme segmentation path is found using multi-stage graph search algorithm. As the result, a proposed methodology is proper to classify character type and to find nonlinear char segmentation paths.

Classification of Korean Character Type using Multi Neural Network and Fuzzy Inference based on Block Partition for Each Type (형식별 블럭분할에 기초한 다중신경망과 퍼지추론에 의한 한글 형식분류)

  • Pyeon, Seok-Beom;Park, Jong-An
    • The Journal of the Acoustical Society of Korea
    • v.13 no.4
    • pp.5-11
    • 1994
  • In this paper, the ciassification of Korean character type using multi neural network and fuzzy inference based on block partition is studied. For the effective classification of a consonant and a vowel, block partition method which devide the region of a consonant and a vowel for each type in the character is proposed. And the partitioned block can be changed according to the each type adaptively. For the improvement of classification rate, the multi neural network with a whole and a part neural network is consisted, and the character type by using fuzzy inference is decided. To verify the validity of the proposed method, computer simulation is accomplished, and from the classification rate $92.6\%$, the effectivity of the method is confirmed.

A Study on the Hangeul Pattern Classification by Using Adaptive Resonance Theory Neural Network (ART 신경회로망을 이용한 한글 유형 분류에 관한 연구)

  • Jang, Jae-Hyuk;Park, Chang-Han;NamKung, Jae-Chan
    • Annual Conference of KIPS
    • 2003.05a
    • pp.603-606
    • 2003
  • 본 논문에서는 ART(Adaptive Resonance Theory) 신경회로망을 이용하여 한글 모음을 인식하고, 그 유형을 분류하는 방법을 제안하였다. 기존의 연구들은 단순히 문자의 선분, 획 등의 정합만을 이용하여 한글의 자소 분류에 중점을 두었다. 그러나 인식 대상 운자의 특성이 각각 다르므로 효율적인 인식을 위해서는 먼저 포괄적인 특정적 유형 분류가 필요하다. 제안된 한글 유형 분류 시스템에서는 먼저 ART 신경회로망의 문제점인 증가분류 알고리즘의 단점을 최소화할 수 있도록 비교층에 최초 활성화패턴의 크기를 기억하는 메모리를 두고 각 층간 하향틀 변화를 경계인수 값을 "1" 이내로 제한하여 이미 입력된 패턴을 다시 입력할 때, 새로운 노드의 활성화를 방지하여 비교적 입력순서에 둔감한 분류가 가능하였다. 실험 결과 제안된 시스템에서는 한글의 6형식 중 1, 3, 4, 5형식 분류는 평균 97.3% 의 분류율을 보였으나, 나머지 2, 6형식 분류는 다소 떨어지는 평균 94.9% 분류율를 보였다.

Agent for File Format based Classification of the Attached File in E-Mail System (E-Mail 시스템의 첨부파일 형식별 자동분류 및 스팸 제거 에이전트 설계)

  • Hyun, Young-Soon;Jeong, Ok-Ran;Cho, Dong-Sub
    • Annual Conference of KIPS
    • 2003.11b
    • pp.801-804
    • 2003
  • 인터넷과 E-mail 의 사용자가 증가하게 되면서 대량의 메일을 송수신하는 경우, 메일에 대한 효율적 관리의 문제와 불필요한 메일에 대한 관리의 중요성이 부각되고 있다. 본 논문에서는 -mail 시스템의 첨부파일 형식별 자동분류 에이전트는 메일의 내용을 읽어 Keyword 를 검색, 추출한 뒤 불필요한 메일로 판단되는 경우 자동삭제 시키고 그렇지 않은 경우 카테고리별로 폴더를 생성하여 첨부파일 들을 형식별로 분류 시켜주는 E-mail 시스템의 첨부파일 형식별 자동분류 에이전트를 제안하였다. 수신된 메일을 일일이 확인하고 분류해야만 했던 기존의 시스템과는 달리 본 논문에서 제안하고자 하는 시스템을 이용했을 경우 노력과 시간을 절감하고 불필요한 메일에 의한 저장공간의 낭비감소와 첨부파일을 효과적으로 관리할 수 있다는 장점이 있다.

Analysis on the Application of Telecommunication Terminal Equipment for type Approval (형식승인 대상 전기통신 단말장치의 적용현황 분석)

  • Kim, Y.T.;Park, K.S.;Lee, S.H.
    • Electronics and Telecommunications Trends
    • v.10 no.2 s.36
    • pp.125-135
    • 1995
  • 형식승인제도는 몇년 전까지만 해도 전기통신 단말장치에 대한 정부의 고유한 통제와 권한의 영역이라고 생각할 만큼 규제 일변도의 정책 차원으로 다루어졌으나, 최근 통신시장 개방화 및 세계화 등과 같은 국제적인 통신환경을 반영한 단말장치의 통신망 접속 자유화가 실현됨에 따라 새로운 대내.외의 경쟁적 환경 위에서 운영하게 되었다. 특히, 최근에 각국은 다른 국가와의 형식승인 상호인정을 고려하면서 전기통신기술의 급격한 발전에 능동적 및 포괄적으로 대처하기 위한 전기통신 단말장치의 형식승인 적용 분류체계를 재조명하는 흐름을 보이고 있다. 이에, 본 고에서는 선진국의 형식승인 적용 대상 단말장치의 범위와 기능 및 용도별의 분류체계를 분석하여 항목별로 선정되고 있는 국내 형식승인 적용 대상 단말 장치의 분류체계를 선진국 수준의 기능 및 용도별로 개선하기 위한 방향을 모색해 보았다.

A Study on Type Classification and Subpattern Extraction Using Structural Information of Radical in Printed Hanja (인쇄체 한자에서 Radical의 구조적 정보를 이용한 형식분류 및 부분패턴 추출에 관한 연구)

  • 김정한;조용주;남궁재찬
    • The Journal of Korean Institute of Communications and Information Sciences
    • v.16 no.3
    • pp.232-247
    • 1991
  • This paper proposes a new classification algorithm using characteristic and structural information of printed Hanja as preliminary stages of Hanja-character recognition. Hanja is difficult for not only recognition but classification as many character and complicated structure. In this paper, to solve thie problem, extracted common subpattern in classified pattern after processing type classification fot Hanja pattern. First, we extracted subpattern, after we process preprecessing about input of character pattern, extracting directional segment, labeling on 4-directional pattern and 12 type classified using structural information based on the subpattern existing region of character pattern. Though the experiment, this study obtained that classified rate of Hanja is 93.07% on 1800 character of educational Hanja and 90.12% on 4888 character of KS C5601 standard TRIGEM LBP Hanja font and saw that as extracting subpattern at classified data was this paper possibly applied to the recognition.

한반도 선사시대 굽다리토기 연구

  • 강병학
    • no.66
    • pp.5-35
    • 2005
  • 본 고는 매우 복잡 다양하게 출토되고 있는 선사시대 토기 중 굽다리토기에 대한 연구이다. 특수한 기형의 이 토기는 분류조차 제대로 이루어지지 않은 채 의례용으로 인식되어져 왔으며, 그 명칭 또한 무분별하게 사용되어져 왔다. 따라서 충분히 객관적이고도 적절한 정립이 필요한 상황이다. 이 토기는 저부와 신부의 상대크기에 따라 대부형(Ⅰ형)과 대각형(Ⅱ)으로의 세부기종 설정이 가능하고 세부기종별 속성분석을 통하여 6형식의 형식분류가 이루어졌다. 무문토기시대 전기 주거지유적에서 공렬 및 각형토기와 공반하는 1·2·3·4형식의 토기(북한→강원영동→경기중부·충청서해안지역)는 점토대토기문화가 도래하면서 생활, 분묘, 생산, 폐기 그리고 의례관련유구에서 출토되는 5·6형식 토기(경기중부·충청서해안→호남·영남지역)로의 변화를 보이면서 전개된다. 즉 점토대토기문화가 도래하는 시점에서 굽다리토기의 형식도 변화·확대되고 있다. 또한 출토맥락, 형식조합, 제작기술 등의 관점에서 공렬 및 각형토기와 공반하는 1·2·3·4형식은 일상 생활용기로의 상정이 가능한 반면 점토대토기와 조합을 이루는 5·6형식 토기는 의례관련유구와 분묘유구에서 다량 출토되고 있어 기원이나 소원과 관련된 의례용기, 그리고 부장용으로의 기능분화가 관찰된다. 〔주제어〕: 굽다리토기, 공렬토기, 각형토기, 점토대토기문화, 기술유형, 시공적 전개, 기능분화

A Study on the Classification of Hand-written Korean Character Types using Hough Transform (Hough Transform을 이용한 한글 필기체 형식 분류에 관한 연구)

  • 구하성;고경화
    • The Journal of Korean Institute of Communications and Information Sciences
    • v.19 no.10
    • pp.1991-2000
    • 1994
  • In this paper, an alagorithm with six types of classification is suggested for the recognition system of hand-written Korean characters. After thinning process and truncating process for noise redection. The input images are used generalized by $64\times64$ size. The six type classification is composed of preliminary and secondary classification process by using the learning algoritm of multi-layer perceptron. Subblock Hough transform is used as local feature and sampling Hough transform is used as global feature. Experiment is conducted for 1800 characters which is written 31 times per each type by 10 persons. The 90% recognition rate is resulted by the preliminary classification of detection the final consonant and by the secondary classification of detecting the vowels.

