• Title/Summary/Keyword: 한글 웹 문서

Search Result 81, Processing Time 0.026 seconds

An Extension of Hangul MG System for Web Document Retrival (웹 문서 검색을 위한 한글 MG 시스템의 확장)

  • 김범수;나연묵
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.290-292
    • /
    • 2000
  • 최근 국대 인터넷 발전과 더불어 검색엔진들의 수요가 많아지고 있어 크고 작은 검색엔진들이 많이 개발되고 있다. 기존의 디지털 라이브러리에 사용되고 있는 정보 검색 엔진인 한글 MG 시스템을 웹 문서 검색에 적용하는데는 어려움이 있었다. 본 논문은 한글 MG 시스템을 기반으로 웹 사이트의 내부 문서 검색이 가능한 소형검색엔진으로 확장하는데 필요한 웹 로봇에 의한 문서 수집, 수집된 문서의 가공, 메타 데이터의 데이터베이스와, 단락 대 문서 사상, 문서 검색을 위한 질의 루틴의 수정과 웹 검색 및 시스템 관리 인터페이스에 대한 방안들을 제안하여 확장 시스템을 설계하고 구현하였다.

  • PDF

A Comparative Study of Feature Selection Methods for Korean Web Documents Clustering (한글 웹 문서 클러스터링 성능향상을 위한 자질선정 기법 비교 연구)

  • Kim Young-Gi
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.39 no.1
    • /
    • pp.45-58
    • /
    • 2005
  • This Paper is a comparative study of feature selection methods for Korean web documents clustering. First, we focused on how the term feature and the co-link of web documents affect clustering performance. We clustered web documents by native term feature, co-link and both, and compared the output results with the originally allocated category. And we selected term features for each category using $X^2$, Information Gain (IG), and Mutual Information (MI) from training documents, and applied these features to other experimental documents. In addition we suggested a new method named Max Feature Selection, which selects terms that have the maximum count for a category in each experimental document, and applied $X^2$ (or MI or IG) values to each term instead of term frequency of documents, and clustered them. In the results, $X^2$ shows a better performance than IG or MI, but the difference appears to be slight. But when we applied the Max Feature Selection Method, the clustering Performance improved notably. Max Feature Selection is a simple but effective means of feature space reduction and shows powerful performance for Korean web document clustering.

A Development of Jeongeum IME Based on Web (웹기반 정음 입력기 개발)

  • Lee, Hyung-Joon;Byun, Jeong-Yong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.688-691
    • /
    • 2012
  • 웹상의 다양한 문서들 가운데 옛한글 문서는 물론 정확한 외국어 음차표기를 위하여 초성, 중성, 종성자가 2, 3자 합자병서하여 현대 한글의 범위를 넘어서는 음절을 표현하고 검색하는 방법이 요구되고 있다. 이러한 요구를 해결하기 위하여 훈민정음 창제원리에 따른 399억 음절을 표현하고 및 운영 체제에 독립적으로 보다 쉽게 설치할 수 있는 자바스크립트로 된 웹기반 정음 입력기를 개발한다.

A Web-Document Categorization System Using the Hierarchical Information of the Concept (의미의 상하위 정보를 이용한 웹문서 분류시스템)

  • Kang, Won-Seog;Hwang, Do-Sam;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.36-39
    • /
    • 1999
  • 본 논문에서는 다양성을 가진 웹문서의 범주를 결정짓는 웹문서 분류 시스템을 설계, 구축한다. 웹문서는 일관된 형식과 내용이 없이 만들어지기 때문에 문서의 범주를 결정하는 시스템을 구축하기는 쉬운 일이 아니다. 제안한 웹문서 분류 시스템은 잡음 처리에 적합한 신경망 방식을 적용하여 다양한 내용의 웹문서의 범주를 결정짓는다. 본 시스템은 한국어 문장을 분석하는 한국어 형태소 해석기, 단어의 의미를 획득하는 개념 획득기, 단어의 사용된 의미를 고르는 애매성 해소기, 그리고 문서의 범주를 결정하는 신경망 범주 결정기로 구성된다. 본 시스템은 단어의 의미를 이용하여 문서를 표현하고 분석하는 개념 중심의 문서 분류 시스템이다.

  • PDF

Automatic Korean Text Categorization by Subject Thesaurus (분야별 관련어사전에 의한 한글 웹문서 자동분류)

  • Kim, Young;Chae, Soo-Hoan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.771-774
    • /
    • 2005
  • 인터넷이 폭 넓게 보급되어 온라인 상에서 얻을 수 있는 텍스트 정보의 양이 급증함에 따라 산재해 있는 문서들에 대한 효과적인 정보 관리 및 검색이 요구되고 있다. 자동 문서분류란 문서의 내용에 기반하여 미리 정의되어 있는 범주에 문서를 자동으로 할당하는 작업으로써 효율적인 정보 관리 및 검색을 가능하게 한다. 특히 한국어 정보처리의 중요성에 비해 관련 분야의 자료들을 수집, 분류하는데 있어 많은 어려움이 있다. 따라서 논문에서는 한글 웹문서 자동 문서 범주화에 대한 수행단계중 각 분야에 대해 사전구축을 하고, 중복단어제거를 통한 보다 효과적인 분야별 문서분류를 제안하고자한다.

  • PDF

PageRanking of Newly Crawled Web Documents (추가 수집 웹 문서를 위한 페이지랭크 할당 모델)

  • Oh, Eun-Jung;Kang, In-Ho;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.228-234
    • /
    • 2002
  • 사용자가 얻고자 하는 정보를 인터넷에서 빠르고 정확하게 검색하는 것은 중요하다. 웹 문서들 간의 상대적인 중요성을 나타내는 페이지랭크는 검객의 질을 높일 수 있어, 정보 검색에 많이 이용된다. 인터넷상의 웹 문서는 짧은 시간에 빠르게 증가하므로 새로운 문서들이 생성될 때마다 전체 문서의 페이지랭크를 계산하는 것은 많은 시간과 비용이 소모된다. 기존 웹 문서의 페이지랭크는 변경하지 않고 추가된 웹 문서들만으로 페이지랭크를 계산할 수 있다면 시간과 비용면에서 효율을 높일 수 있다. 본 논문에서는 추가되는 문서는 이전 문서의 페이지랭크에 많은 영향을 미치지 않는다는 점을 이용하여 추가되는 문서를 위한 페이지랭크를 할당 모델을 제시하고 평가한다.

  • PDF

Construction of the Site for hangul Pronunciation Education (한글 발음교육을 위한 사이트 구축)

  • 이계영;임재걸;태돌만
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.667-669
    • /
    • 1999
  • 본 논문에서는 웹을 통한 한글 발음을 학습할 수 있는 "한글 발음교육 사이트"의 구축 사례를 소개한다. 기존의 한글교육 사이트는 자음과 모음에 대한 학습, 단어학습, 문장학습 등 한극학습에 대한 내용은 포함하고 있지만, 각 학습에서 문자에 대한 발음이 제시되지 않거나, 발음의 정확성이 떨어진다. 본 논문에서 소개하는 사이트는 한글학습에 있어, 한글의 발음과 발음에 대한 입술모양의 출력에 중점을 두어 구축하였다. 이를 위하여, 음성파일의 생성과 자모의 발음시 입술모양을 작성하고, 웹에서 음성과 음성에 대한 입술모양의 출력을 위한 HTML 문서 작성방법에 대하여 설명한다. 대하여 설명한다.

  • PDF

Web Document Classification Based on Hangeul Morpheme and Keyword Analyses (한글 형태소 및 키워드 분석에 기반한 웹 문서 분류)

  • Park, Dan-Ho;Choi, Won-Sik;Kim, Hong-Jo;Lee, Seok-Lyong
    • The KIPS Transactions:PartD
    • /
    • v.19D no.4
    • /
    • pp.263-270
    • /
    • 2012
  • With the current development of high speed Internet and massive database technology, the amount of web documents increases rapidly, and thus, classifying those documents automatically is getting important. In this study, we propose an effective method to extract document features based on Hangeul morpheme and keyword analyses, and to classify non-structured documents automatically by predicting subjects of those documents. To extract document features, first, we select terms using a morpheme analyzer, form the keyword set based on term frequency and subject-discriminating power, and perform the scoring for each keyword using the discriminating power. Then, we generate the classification model by utilizing the commercial software that implements the decision tree, neural network, and SVM(support vector machine). Experimental results show that the proposed feature extraction method has achieved considerable performance, i.e., average precision 0.90 and recall 0.84 in case of the decision tree, in classifying the web documents by subjects.

Discovery of Genre Information on the Web (웹 상에서의 특정 장르 문서 발견)

  • Joo, Won-Kyun;Myaeng, Sung-Hyon
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.28-35
    • /
    • 1999
  • 정보공유를 목적으로 제안된 웹의 활성화와 함께 유용한 정보들이 웹상에 기하급수적으로 등장함에 따라 정보공간의 확장으로 인한 검색 신뢰도의 저하 문제에 직면하게 되었다. 본 연구에서는 대용량 웹 환경하에서 사용자의 정보발견을 돕기 위해 텍스트이외의 새로운 요소들을 사용하여 특정장르문서를 발견하는 개념을 도입하였다. 먼저 사용자가 발견하고자 하는 장르의 모습을 텍스트, URL정보, 링크 정보. 문서구조 정보 등의 장르 식별요소 값을 이용해 표현한 후, 후보 문서들의 장르관련도를 측정함으로써 특정장르 문서를 검색한다. 각 장르식별요소값은 나름대로의 방법에 의해 계산되는데 $0{\sim}1$사이의 값을 가지며, 종합적인 장르관련도는 각 장르식별요소값의 증거통합 방법에 의해 구한다. 본 논문에서는 각 장르식별요소들의 역할과 장르식별요소가 장르발견에 미치는 영향을 알아보며, 최종적으로 특정 장르 문서발견에 있어서의 검색 신뢰도 향상을 보이기 위해 실험모델을 설계/구현하였다. 본 실험은 웹 문서를 대상으로 하는데, 아직까지 URL, 링크 정보를 모두 갖춘 테스트컬렉션이 없기 때문에 실험을 위해 일반적인 웹 문서로 직접 구성한 컬렉션을 사용하였다. 발견하고자 하는 장르는 "컴퓨터 분야의 컨퍼런스 홈페이지"로 정하였으며 30개의 컴퓨터 분야를 선정하였다. 비교대상으로는 일반 웹 검색 엔진인 알타비스타와 메타검색 엔진인 메타크롤러를 선택하였고. 각 질의에 대해 상위 30개의 결과를 대상으로 정확도를 평가하였다. 결과로서 각 장르식별요소들은 모두 검색 신뢰도의 향상에 기여를 하며, 제안하는 방법은 알타비스타와 메타크롤러에 비해 각각 평균적으로 67.34%, 71.78%의 검색 신뢰도 향상을 보임을 입증하였다.적응에 문제점을 가지기도 하였다. 본 연구에서는 그 동안 계속되어 온 한글과 한잔의 사용에 관한 논쟁을 언어심리학적인 연구 방법을 통해 조사하였다. 즉, 글을 읽는 속도, 글의 의미를 얼마나 정확하게 이해했는지, 어느 것이 더 기억에 오래 남는지를 측정하여 어느 쪽의 입장이 옮은 지를 판단하는 것이다. 실험 결과는 문장을 읽는 시간에서는 한글 전용문인 경우에 월등히 빨랐다. 그러나. 내용에 대한 기억 검사에서는 국한 혼용 조건에서 더 우수하였다. 반면에, 이해력 검사에서는 천장 효과(Ceiling effect)로 두 조건간에 차이가 없었다. 따라서, 본 실험 결과에 따르면, 글의 읽기 속도가 중요한 문서에서는 한글 전용이 좋은 반면에 글의 내용 기억이 강조되는 경우에는 한자를 혼용하는 것이 더 효율적이다.이 높은 활성을 보였다. 7. 이상을 종합하여 볼 때 고구마 끝순에는 페놀화합물이 다량 함유되어 있어 높은 항산화 활성을 가지며, 아질산염소거능 및 ACE저해활성과 같은 생리적 효과도 높아 기능성 채소로 이용하기에 충분한 가치가 있다고 판단된다.등의 관련 질환의 예방, 치료용 의약품 개발과 기능성 식품에 효과적으로 이용될 수 있음을 시사한다.tall fescue 23%, Kentucky bluegrass 6%, perennial ryegrass 8%) 및 white clover 23%를 유지하였다. 이상의 결과를 종합할 때, 초종과 파종비율에 따른 혼파초지의 건물수량과 사료가치의 차이를 확인할 수 있었으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract 농도(濃度)가 증가(增加)함

  • PDF

Clustering Method Using the Union Information of Term Frequency and Link in Hypertext (웹 문서의 단어정보와 링크정보 결합을 이용한 클러스터링 기법)

  • Lee, Won-Hee;Lee, Kyo-Woon;Park, Heum;Kim, Young-Ki;Kwon, Hyuck-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.101-107
    • /
    • 2003
  • 최근의 웹 문서는 텍스트 위주의 구성이 아닌 이미지, 사운드, 동영상 등의 다양한 타입으로 구성되는 추세이다. 이에 따라 단순히 웹 문서 내의 단어 정보추출 만으로는 좋은 성능의 클러스터링을 기대하기 어렵다. 본 논문은 전통적인 문서 클러스터링 기법인 단어기반 클러스터링 기법의 취약점을 제시하고, 웹 문서간의 링크구조정보 중 동시인용 정보를 이용하여 웹 문서 클러스터링 성능향상의 가능성을 보이고자 한다. 실험에서는 네이버디렉토리 중 '자연과학' 범주에 포함된 문서를 대상으로 위의 두 가지 방식과 이 두 가지를 혼합한 단어-링크 혼합 클러스터링을 통해 기존의 방식보다 더 낳은 성능을 얻을 수 있었다.

  • PDF