• 제목/요약/키워드: 범주화

검색결과 923건 처리시간 0.025초

고품질 바이그램을 이용한 문서 범주화 성능 향상 (Improving Text Categorization with High Quality Bigrams)

  • 이찬도;탄체이드멩;왕유안팡
    • 정보처리학회논문지B
    • /
    • 제9B권4호
    • /
    • pp.415-420
    • /
    • 2002
  • 본 논문은 정보이익을 사용하여 고품질 바이그램을 생성하는 효율적 문서 범주화 알고리즘을 제안한다. 실험 결과 유니그램에 적은 수의 바이그램을 추가해서 나이브 베이즈 분류기에 적용했을 때 문서 범주화 성공률은 상당히 향상되었다. 결과 분석은 제안한 알고리즘이 양의 문서를 분류하는데 더 우수하다는 것을 제시한다.

Anchor Text의 단어 정보를 이용한 자동 문서 범주화 (Automatic Text Categorization Using Term Information of Anchor Text)

  • 허희근;한기덕;정성원;임성신;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.665-668
    • /
    • 2004
  • 최근의 웹 문서는 텍스트뿐만 아니라 이미지, 사운드 등 다른 여러 형태로 표현되고 있어서 텍스트의 비중이 낮아지고 있다. 그래서 문서 내에서 일정량 이상의 단어 추출이 어려운 문서들에 대해서 기존의 단어 정보만을 이용한 문서 범주화 방법은 좋은 성능을 기대할 수 없다. 그래서 본 논문은 Anchor Text 단어 정보의 자질 적합성 판단에 의한 새로운 자동 문서 범주화 모델을 제안한다. 문서 범주화 모델로는 베이지언 확률 모델을 이용하였으며, 카이제곱 통계량을 사용하여 자질을 선정하였다. 문서 내에서 추출된 단어 자질들이 해당 문서를 판단하는데 부족하다고 판단되면 문서의 링크정보를 이용하여 연결된 문서의 단어 자질과 Anchor Text의 단어 자질을 반영함으로써 성능을 향상시킨다.

  • PDF

속성간의 대응이 범주학습에 미치는 효과 (The effects of attribute alignment on category learning)

  • 이태연
    • 인지과학
    • /
    • 제12권4호
    • /
    • pp.29-39
    • /
    • 2001
  • Kaplan(2000)은 유사성에서 동일하더라도 대응조건의 사례들이 더 정확하게 범주화된다는 결과를 보고하였다. 이 연구는 Kaplan(2000)의 결과가 연구에서 언어자극이 사용되었기 때문인지를 검토하고 대응효과가 속성에 대한 선택적 주의의 결과인지를 밝히고자 하였다[16]. 실험 1에서는 속성간의 대응이 유사성과 범주화에 모두 영향을 미치는지 그리고 대응되어 있는 속성들이 더 잘 기억되는지를 검토하였다. 그 결과에 따르면 공유속성의 수가 동일하더라도 속성이 대응되어 있으면 자극들이 더 유사하게 평정되었고 범주도 더 빠르고 정화하게 학습되었다. 이러한 결과는 속성간의 대응이 범주내 유사성을 높여 범주학습을 용이하게 하였기 때문이라고 해석될 수 있지만 속성회상검사에서 대응되어 있는 속성이 더 많이 회상된 결과를 볼 때 대응효과가 반드시 유사성에 의존한다고 보기 어렵다. 실험 2에서는 대응효과가 속성에 대한 선택적 주의의 결과인지를 살펴보기 위해 대응범주와 비 대응범주를 정의하는 속성의 수를 동일하게 통제하고 범주화에 적절한 속성에만 주의를 기울이도록 지시하였다. 그 결과를 보면 지시조건과 무관하게 비 대응조건보다 대응조건에서 범주가 더 빨리 학습되었지만 비 대응조건에서는 범주화에 적절한 속성에 주의를 기울이도록 지시한 조건에서 범주가 더 빨리 학습되었고 판단시간도 더 빨랐다. 결론적으로 범주화에서 대응은 범주화에 적절한 차원에 선택적 주의를 하는 과정을 촉진하는 것으로 보인다.

  • PDF

효율적인 바이그램을 이용한 자동문서 범주화 (Automated Text Categorization using high quality Bigrams)

  • 최준영;이찬도
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.261-264
    • /
    • 2003
  • 본 연구는 바이그램을 이용하여 자동문서범주화 성능을 향상시키는 알고리즘의 개발을 목표로 한다. 기존의 문서 범주화 알고리즘의 장단점을 비교하여 개선된 바이그램 추출 알고리즘을 구현하고, 이 알고리즘을 실험한 결과 Reuters-21579 data set은 개별 단어를 사용하여 시험한 결과보다 단어+바이그램을 사용하였을 경우 BEP은 2.07%, F1은 1.40% 향상률을 보였고, Korea-web data set은 BEP의 8.12%, F1의 6.25% 향상을 보였다. 이와 같은 실험결과는 단어를 사용한 경우보다 단어+바이그램을 사용한 자동문서 범주화 시스템이 더 효율적이라는 것을 보여준다.

  • PDF

암석과 지각, 판구조론에 대한 고등학교 학생들의 존재론적 범주화 (Ontological Categorizing of High School Students About Rocks and Crust, Plate Tectonics)

  • 정구송
    • 과학교육연구지
    • /
    • 제33권1호
    • /
    • pp.56-68
    • /
    • 2009
  • 이 연구는 암석과 지각, 판구조론에 대한 학생들의 존재론적 범주화를 분석한 것이다. 연구에는 고등학교 1학년 169명의 학생들이 참여하였으며, 연구 영역에 대한 학생들의 존재론적 범주화 경향을 밝히기 위해 질문지를 개발하고 부호화 틀을 제작하였다. 그리고 모든 학생 결과물들은 부호화 틀에 따라 4 단계(물질, 전환, 초기적 과정, 완료적 과정)의 범주로 부호화하였다. 연구 결과에서 다음과 같은 결과를 얻었다. 첫째, 연구 영역의 개념들에 대한 학생들의 존재론적 범주화는 암석 영역의 개념들에서 62%로 그리고 지각 영역의 개념들에서 75%로 우세하게 물질과 전환 범주로 분류되었다. 판구조론 영역에 대한 개념들의 존재론적 범주화 경향은 65%가 과정 범주로 부호화됨으로써 비교적 과정 지향적 관점을 가지고 있는 것으로 해석되었다. 둘째, 학생 개개인의 영역별 개념들에 대한 존재론적 범주 배정 경향은 모든 영역에서 과정 범주와 물질 범주로 부호화된 학생의 비율이 각각 17%, 30%로 확인되었다. 응답 분석 결과에서 물질 범주로 부호화된 대부분의 학생들은 세계를 단순한 물질의 조합으로 보는 경향이 많은 것으로 확인되었다. 그리고 지식 구조를 형성하는 개념들에 대하여 현상이나 사건 자체로만 사고하는 존재론적 신념을 지니고 있는 것으로 나타났다.

  • PDF

구조적 학술용어사전 구축에 있어서 인문사회분야 복합명사의 한자어 접미사 형태분석에 의한 용어의 개념화에 관한 연구 (A Study on the Conceptualization of Terminology for Construction of Structured Glossary - A Morphological Analysis of Sino-Korean Suffixes of Compound Noun in Humanities & Social Sciences)

  • 박성은;신유정
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2013년도 제20회 학술대회 논문집
    • /
    • pp.123-128
    • /
    • 2013
  • 본 연구는 한자어 접미사를 가진 학술용어 복합명사의 형태를 분석하고, 한자어 접미사를 가진 복합 명사의 범주화를 위한 알고리즘을 제시하는 것을 목적으로 한다. 연구의 배경은 구조적 학술용어사전의 구축과 관련하여 용어의 효율적인 개념화 방법론을 개발하는 것이다. 연구 목적을 이루기 위해 한자어 접미사를 가진 인문사회분야 복합명사의 형태를 분석하여, 출현 빈도가 10회 이상인 한자어 접미사를 각 분야별로 14개씩 추출하였다. 그리고 각 한자어 접미사가 배정된 개념범주와 개념범주 배정 빈도를 분석한 결과, 동음이의 한자어 접미사를 가진 경우 개념범주가 다양하게 배정될 수 있지만, 동음동형 한자어 접미사를 가진 경우에는 그렇지 않다는 특징을 파악하였다. 또한 특정 한자어 접미사가 하나의 개념범주에 배정된 빈도가 높고 그 외의 개념범주에 배정된 빈도는 현저히 낮을 경우 빈도가 높은 개념범주에 배정되는 것이 더 타당한 것으로 분석되었다.

  • PDF

간세포암종의 재발 위험과 관련된 한 예후인자로서의 종양의 크기의 범주화 (Categorizing tumor size as a prognostic factor for risk of relapse of hepatocellular carcinoma)

  • 김선우;박철근
    • 응용통계연구
    • /
    • 제15권1호
    • /
    • pp.1-8
    • /
    • 2002
  • 예후인자의 범주화는 질병의 진단, 치료법 결정 및 임상시험의 참여기준 설정 등에 매우 유용하다. 예후인자의 범주화 방법으로는 생물학적 이론에 따라 경계값을 정하는 방법, 자료의 그래프를 이용하는 방법, 모든 가능한 경계 값들을 적용해보는 최소 유의확률 방법 등이 있다. 또한 최소 유의확률 방법의 다중검정문제를 보완한 몇 가지 방법들이 있다. 본 연구에서는 우리 나라에서 높은 발생률을 보이는 간세포암종의 절제술을 받은 환자들에 있어서 간 절제술 후 재발위험이 높은 군을 구별하는 한 근거로 종양의 크기를 범주화하기 위한 경계값을 결정하고자 하였다.

학습문헌집합에 기 부여된 범주의 정확성과 문헌 범주화 성능 (The Effect of the Quality of Pre-Assigned Subject Categories on the Text Categorization Performance)

  • 심경;정영미
    • 정보관리학회지
    • /
    • 제23권2호
    • /
    • pp.265-285
    • /
    • 2006
  • 문헌범주화에서는 학습문헌집합에 부여된 주제범주의 정확성이 일정 수준을 가진다고 가정한다. 그러나, 이는 실제 문헌집단에 대한 지식이 없이 이루어진 가정이다. 본 연구는 실제 문헌집단에서 기 부여된 주제범주의 정확성의 수준을 알아보고, 학습문헌집합에 기 부여된 주제범주의 정확도와 문헌범주화 성능과의 관계를 확인하려고 시도하였다. 특히, 학습문헌집합에 부여된 주제범주의 질을 수작업 재색인을 통하여 향상시킴으로써 어느 정도까지 범주화 성능을 향상시킬 수 있는가를 파악하고자 하였다. 이를 위하여 과학기술분야의 1,150 초록 레코드 1,150건을 전문가 집단을 활용하여 재색인한 후, 15개의 중복문헌을 제거하고 907개의 학습문헌집합과 227개의 실험문헌집합으로 나누었다. 이들을 초기문헌집단, Recat-1, Recat-2의 재 색인 이전과 이후 문헌집단의 범주화 성능을 kNN 분류기를 이용하여 비교하였다. 초기문헌집단의 범주부여 평균 정확성은 16%였으며, 이 문헌집단의 범주화 성능은 $F_1$값으로 17%였다. 반면, 주제범주의 정확성을 향상시킨 Recat-1 집단은 $F_1$값 61%로 초기문헌집단의 성능을 3.6배나 향상시켰다.

SVM 분류기를 이용한 문서 범주화 연구 (An Experimental Study on Text Categorization using an SVM Classifier)

  • 정영미;임혜영
    • 정보관리학회지
    • /
    • 제17권4호
    • /
    • pp.229-248
    • /
    • 2000
  • 문서 범주화에 이용되는 학습알고리즘 중에서 이원 패턴인식 문제를 해결하기 위해 제안된 SVM은 다른 분류기 보다 우수한 성능을 보이고 있다. 본 연구에서는 Reuters-21578 (ModApte 분할판)을 대상으로 SVM 분류기를 이용하여 단어빈도, 역문헌빈도, 문헌길이 정규화 공식을 자질에 대한 가중치로 적용하여 성능을 평가하고, 선형 SVM과 비선형 SVM의 분류 성능을 비교하였다. 또한 이원 분류기를 승자독식 방법과 쌍단위 분류방법에 의해 다원 분류기로 확정하여 실험한 후 이원 분류기와의 성능을 비교 분석하였다.

  • PDF

일화 기억의 의미적 범주화가 세부 기억의 부호화에 미치는 영향에 대한 자기공명영상 분석 연구 (The effect of semantic categorization of episodic memory on encoding of subordinate details: An fMRI study)

  • 이세중;한상훈
    • 인지과학
    • /
    • 제28권4호
    • /
    • pp.193-221
    • /
    • 2017
  • 의미적 연관성을 지닌 일화들의 범주화는 기억을 더 효과적으로 구조화하는데 도움이 된다. 그러나 해당 일화의 하위 세부 기억들에 대한 상기한 범주화의 영향은 아직 명확하게 알려져 있지 않다. 본 연구에서는 fMRI 실험을 통해 의미적 범주화가 이루어지는 동안 상위의 일화 기억에 주의를 기울이는 것이 하위 세부기억의 생성을 방해하는지, 혹은 강화하는지 실험하였다. 참가자들에게 한 사이클 내에서 각각 2개의 하위단어를 가지고 있는 5개의 목표 단어들이 순서대로 제시되었는데, 참가자들은 해당 사이클 내에서 제시된 목표 단어들을 포함할 수 있는 범주를 떠올릴 수 있는지 응답한 후 그 범주에 대한 주관적 확신도를 평정하였다. fMRI 내 과정이 끝난 후 참가자들은 스캐너 밖으로 이동하여 제시되었던 단서 단어의 하위 단어들에 대한 단서 회상과제를 수행하였다. 행동 실험 결과 매 사이클의 세 번째 시행에서 범주화 과제의 반응속도가 감소하였고 동시에 주관적 확신도 수준이 증가하였는데, 이는 해당 시행에서 의미적 범주화가 완성되었음을 의미한다. 주목할 점은 세 번째 시행 바로 직전에 제시되었던 하위 단어들의 회상 정확도가 그 다음 시행 직전에 제시된 단어들에 비해 유의미하게 낮았다는 점이며 이는 범주화가 완성될 때 일화 기억의 하위 세부 요소들이 손상되었음을 의미한다. 일반선형모델을 통한 분석 결과 의미적 범주화가 완성되기 직전의 시행에서 의미적 기억망과 관련이 있는 것으로 알려져 있는 측두회와 하전두회에서 유의미한 활성화가 나타났다. 또한 패턴 유사성 분석 결과 또한 측두회, 하전두회, 해마 영역에서 세 번째 시행 간의 활성화 패턴이 두 번째 시행의 활성화 패턴에 비해 더 일관적인 것으로 나타났다. 본 연구는 의미적 범주화가 하위 세부 일화 기억을 방해할 수 있다는 것을 보여주며, 이러한 범주화가 진행되는 동안 일어나는 의미적 인출 경험이 관련된 일화 기억의 흔적에 질적인 영향을 미칠 수 있음을 시사한다.