• Title/Summary/Keyword: Corpus Frequency

Search Result 166, Processing Time 0.02 seconds

위키피디어 기반 개념 공간을 가지는 시멘틱 텍스트 모델 (A Semantic Text Model with Wikipedia-based Concept Space)

  • 김한준;장재영
    • 한국전자거래학회지
    • /
    • 제19권3호
    • /
    • pp.107-123
    • /
    • 2014
  • 텍스트마이닝 연구의 기본적인 난제는 기존 텍스트 표현모델이 자연어 문장으로 기술된 텍스트 데이터로부터 의미 또는 개념 정보를 표현하지 않는데 기인한다. 기존 텍스트 표현모델인 벡터공간 모델(vector space model), 불리언 모델(Boolean model), 통계 모델(statistical model), 텐서공간 모델(tensor space model) 등은 'Bag-of-Words' 방식에 바탕을 두고 있다. 이러한 텍스트 모델들은 텍스트에 포함된 단어와 그것의 출현 횟수만으로 텍스트를 표현하므로, 단어의 함축 의미, 단어의 순서 및 텍스트의 구조를 전혀 표현하지 못한다. 대부분의 텍스트 마이닝 기술은 대상 문서를 'Bag-of-Words' 방식의 텍스트 모델로 표현함을 전제로 하여 발전하여 왔다. 하지만 오늘날 빅데이터 시대를 맞이하여 방대한 규모의 텍스트 데이터를 보다 정밀하게 분석할 수 있는 새로운 패러다임의 표현모델을 요구하고 있다. 본 논문에서 제안하는 텍스트 표현모델은 개념공간을 문서 및 단어와 동등한 매핑 공간으로 상정하여, 그 세 가지 공간에 대한 연관 관계를 모두 표현한다. 개념공간의 구성을 위해서 위키피디어 데이터를 활용하며, 하나의 개념은 하나의 위키피디어 페이지로부터 정의된다. 결과적으로 주어진 텍스트 문서집합을 의미적으로 해석이 가능한 3차 텐서(3-order tensor)로 표현하게 되며, 따라서 제안 모델을 텍스트 큐보이드 모델이라 명명한다. 20Newsgroup 문서집합을 사용하여 문서 및 개념 수준의 클러스터링 정확도를 평가함으로써, 제안 모델이 'Bag-of-Word' 방식의 대표적 모델인 벡터공간 모델에 비해 우수함을 보인다.

전화기 자판의 한글 입력 효율성 평가 모형 (A Model for evaluating the efficiency of inputting Hangul on a telephone keyboard)

  • 구민모;이만영
    • 정보처리학회논문지D
    • /
    • 제8D권3호
    • /
    • pp.295-304
    • /
    • 2001
  • 전화기 한글자판 표준안은 객관적인 기준에 따라 결정되어야 한다. 타건수와 운지거리는 객관적으로 수량화할 수 있어서 대부분의 자판 설계자들이 인정할 수 있는 기준이기 때문에, 본 연구자들은 타건수와 운지거리의 측면에서 전화기 자판의 한글 입력 효율성을 평가하는 모형을 개발하였다. 이 모형의 특징은 다음과 같다. 첫째, 타건속도로 평가하는 다른 모형들과는 달리 타건수의 측면에서 자판의 입력 효율성을 평가한다. 둘째, 타건수를 계산하기 위해서 별도의 말모둠 자료를 사용하지 않고, 1000만 어절 규모의 <고려대학교 한국어 말모둠 1>에서 조사된 연관출현빈도를 직접적으로 사용한다. 셋째, 다른 모형들은 자판에 배정된 기본자모를 대상으로 효율성을 평가하지만 이 모형에서는 67개의 전체 자모집합을 대상으로 타건수를 계산한다. 넷째, 완성키, 채움키 및 받침키와 같은 음절기능키를 사용하는 자판과 이러한 음절기능키를 사용하지 않는 자판을 비교하고 평가할 수 있다. 그러나, 전화기 한글자판의 입력 효율성을 입력 효율성을 정확하게 평가하기 위해서는 타건수와 운지거리뿐만 아니라 논리적인 평가자료와 실험실 연구 결과들도 고려해야 할 것이다.

  • PDF

지자체 사이버 공간 안전을 위한 금융사기 탐지 텍스트 마이닝 방법 (Financial Fraud Detection using Text Mining Analysis against Municipal Cybercriminality)

  • 최석재;이중원;권오병
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.119-138
    • /
    • 2017
  • 최근 SNS는 개인의 의사소통뿐 아니라 마케팅의 중요한 채널로도 자리매김하고 있다. 그러나 사이버 범죄 역시 정보와 통신 기술의 발달에 따라 진화하여 불법 광고가 SNS에 다량으로 배포되고 있다. 그 결과 개인정보를 빼앗기거나 금전적인 손해가 빈번하게 일어난다. 본 연구에서는 SNS로 전달되는 홍보글인 비정형 데이터를 분석하여 어떤 글이 금융사기(예: 불법 대부업 및 불법 방문판매)와 관련된 글인지를 분석하는 방법론을 제안하였다. 불법 홍보글 학습 데이터를 만드는 과정과, 데이터의 특성을 고려하여 입력 데이터를 구성하는 방안, 그리고 판별 알고리즘의 선택과 추출할 정보 대상의 선정 등이 프레임워크의 주요 구성 요소이다. 본 연구의 방법은 실제로 모 지방자치단체의 금융사기 방지 프로그램의 파일럿 테스트에 활용되었으며, 실제 데이터를 가지고 분석한 결과 금융사기 글을 판정하는 정확도가 사람들에 의하여 판정하는 것이나 키워드 추출법(Term Frequency), MLE 등에 비하여 월등함을 검증하였다.

중심 측두부 극파를 보이는 전형적 및 비전형적 양성 부분 간진의 비교 연구 (Comparative study of typical and atypical benign epilepsy with centrotemporal spikes (Rolandic epilepsy))

  • 송준혁;이규하;정사준
    • Clinical and Experimental Pediatrics
    • /
    • 제51권10호
    • /
    • pp.1085-1089
    • /
    • 2008
  • 목적: 비전형적 롤란도 간질이 드물지 않게 있지만, 전형적 및 비전형적 롤란도 간질의 비교 연구가 거의 없는 상태이다. 본 연구는 전형적 및 비전형적 롤란도 간질의 임상 특징을 알아보고 비교하기 위하여 시행하였다. 방법: 2002년 1월 1일부터 2006년 12월 31일까지 경희의료원을 내원한 롤란도 간질 환자 158명을 선별하여 임상 증상, 경과, 관해율, 재발 등을 후향적으로 연구 하였다. Wirrel 기준으로 116명의 전형적 롤란도 간질군(A군)과 42명의 비전형적 롤란도 간질군(B군)으로 분류하였다. 결과: 1) 경련 시작 나이 : A군은 $8.6{\pm}1.7$세, B군은 $6.2{\pm}1.7$세에 경련을 시작하였다. B군이 A군보다 더 일찍 경련이 시작하였지만 통계적 유의성은 없었다(P<0.05). 2) 성별 : 총 158명의 환자 중, 남자가 96명, 여자가 62명 이였다. 남녀 비는 1.6:1 이였다. 42명의 비전형적 롤란도 간질환자(B군) 중, 24명이 남자, 18명이 여자였고, 남녀 비는 1.3:1 이였다. 통계적 유의성은 없었다(P>0.05). 3) 40명의 환자에서 뇌 영상 촬영을 하였다(A군 25명, B군 15명). B군 뇌 영상에서 뇌실 확장(4명), 경증 겉질 위축(4명), 뇌량의 부분적 무발생(2명) 등의 이상 소견이 발견 되었다. A군은 뇌 영상에서 이상이 없었다(P<0.05). 4) 치료 시작 전 경련의 빈도 : A군은 한 달에 $2.0{\pm}1.0$회의 경련을 보였고, B군은 한 달에 $2.3{\pm}1.2$회의 경련을 보였다. 두 군간 통계적 유의성은 없었다(P>0.05). 5) 처음 항경련제 투여 후 경련을 조절하는데 걸린 기간 : A군은 3개월 내, B군은 3-12개월에 조절되었다(P<0.05). 6) 2년간 경련을 보이지 않는 관해율 : A군 116명 환자 중 105명이 관해를 보였고(90.5%), B군 42명 환자 중 38명이 관해를 보였다(90.4%)(P>0.05). 7) 2년간 경련이 없는 관해를 보인 후의 재발률 : A군은 105명의 환자 중 13명이 재발하였고(12.4%), B군은 32명의 환자 중 12명이 재발하였다(37.5%)(P<0.05). 결 론: 이번 연구에서는 비전형적 롤란딕 간질 환자군(B군)의 경련이 더 일찍 시작 되었으나 유의한 통계적 차이는 없었다. 성별, 치료 시작 전 경련의 빈도, 2년간 경련을 보이지 않는 관해율 등은 두 군간 차이가 없었다. 그러나 뇌 영상 촬영에서의 이상 소견, 처음 항경련제 투여 후 경련 조절 기간, 2년간 경련을 보이지 않는 관해 후의 재발률 등은 두 군간 유의한 통계적 차이가 있었다.

배란유도주기에 따른 초음파검사와 기초체온표의 비교분석 (A Comparative Analysis of Basal Body Temperature to Ultrasound, as a Method of Ovulation Detection in Induced Ovulatory Menstrual Cycles)

  • 최욱;서병희;이재현
    • Clinical and Experimental Reproductive Medicine
    • /
    • 제12권2호
    • /
    • pp.25-37
    • /
    • 1985
  • Four points on the basal body temperature (B.B.T.) curve was correlated with the estimated time of ovulation, as determined by serial ultrasound in 50 induced menstrual cycles from 22 subjects. The time of ovulation was estimated by measuring the maximal diameter of follicles and observing the morphologic changes within the ovary from follicle to corpus luteum. The results were as following; 1. The diameter of the follicle measured at the day before disappearance was 21.1 mm on an average (S.D.: 2.14). The average follicular growth for 4 days before ovulation was measured at a rate of 2.8 mm/day, and rapid growth of follicle was observed 3.1 mm/day at the day before. 2. The changes associated with rupture of the follicles were the followings, in order of frequency; decrease in size(94%), disappearance of follicles(64%), fluid in the Cul-de-Sac(26%) and increased internal echoes(16%). 3. Only 20 of 50 cycles, exhibited a BBT dip and correlated with the estimated time of ovulation by ultrasound in 2 of which cases(10%). BBT nadir, 30 of 50 cycles, correlated in 5(16.7%). The first day of hyperthermic plateau(FDHP) and BBT coverline was exhibited in all cycles, correlated in 41(82%) and 35(70%) cases. 4. The relationship between the diameter of dominant dominant follicle, measured by ultrasound, and the basal body temperature curve were as following. During cycles in which dip was observed on the BBT curve, the follicular diameter were 10.5${\pm}$2.12 mm on 4 days prior to the point (D-4), and 12.5${\pm}$2.12 mm (D-3), 15.5${\pm$2.12 mm (D-2), 17.0${\pm}$1.41 mm (D-1) and 21.5${\pm}$2.12 mm just prior to the dip (D-0). In the nadir; 9.6${\pm}$1.67 mm (N-4), 12.8${\pm}$1.79 mm (N-3), 16.2${\pm}$1.92 mm (N-2), 18.2${\pm}$2.17 mm (N-1) and 21.4${\pm}$2.61 mm (N-0). In the First day of Hyperthemic Plateau (FDHP); 9.8${\pm}$1.36 mm (F-4), 12.4${\pm}$1.41 mm (F-3),15.1${\pm}$1.57 mm (F-2), 18.1${\pm}$1.67 mm (F-1) and 21.2${\pm}$2.25 mm (F-0). In the BBT coverline endopint; 9.9${\pm}$.39 mm (C-4), 12.5 ${\pm}$1.44 mm (C-3), 15.2${\pm}$1.64 mm (C-2), 18.0 ${\pm}$1.69 mm (C-1), and 21.2${\pm}$2.31 mm (C-0). 5. The relationship between the ultrasonographic signs of ovulation and the basal body temperature curve were as following. The BBT dip correlated with the ovulation in 2 cases, which revealed decrease in follicular diameter (100%), fluid pattem in the Cul-de-Sac (1 case, 50%) and complete disappearance of follicle (1 case, 50%). In the nadir (5 cases); the ultrasonographic signs of ovulation were decrease in follicular diameter (5 cases, 100%), fluid pattern in the Cul-de-Sac (1 case, 20%) and complete disappearance of follicle (3 cases, 60%). In the First day of Hyperthermic Plateau (41 cases); decrease in follicular diameter (40 cases, 97.6%), fluid pattern in the Cul-de-Sac (11 cases, 26.8%), appearance of internal echo and thickening of the wall (6 cases, 14.6%) and com plete disappearance of follicle (28 cases, 68.3%). In the BBT coverline endpoint (35 cases); decrease in follicular diameter (33 cases, 94.3%), fluid pattern in the Cul-de Sac (9 cases, 25.7%), appearance of internal echo and thickening of the wall (5 cases 14.3%) and complete disappearance of follicle (20 cases, 57.1%).

  • PDF

도메인 특수성이 도메인 특화 사전학습 언어모델의 성능에 미치는 영향 (The Effect of Domain Specificity on the Performance of Domain-Specific Pre-Trained Language Models)

  • 한민아;김윤하;김남규
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.251-273
    • /
    • 2022
  • 최근 텍스트 분석을 딥러닝에 적용한 연구가 꾸준히 이어지고 있으며, 특히 대용량의 데이터 셋을 학습한 사전학습 언어모델을 통해 단어의 의미를 파악하여 요약, 감정 분류 등의 태스크를 수행하려는 연구가 활발히 이루어지고 있다. 하지만 기존 사전학습 언어모델이 특정 도메인을 잘 이해하지 못한다는 한계를 나타냄에 따라, 최근 특정 도메인에 특화된 언어모델을 만들고자 하는 방향으로 연구의 흐름이 옮겨가고 있는 추세이다. 도메인 특화 추가 사전학습 언어모델은 특정 도메인의 지식을 모델이 더 잘 이해할 수 있게 하여, 해당 분야의 다양한 태스크에서 성능 향상을 가져왔다. 하지만 도메인 특화 추가 사전학습은 해당 도메인의 말뭉치 데이터를 확보하기 위해 많은 비용이 소요될 뿐 아니라, 고성능 컴퓨팅 자원과 개발 인력 등의 측면에서도 많은 비용과 시간이 투입되어야 한다는 부담이 있다. 아울러 일부 도메인에서 추가 사전학습 후의 성능 개선이 미미하다는 사례가 보고됨에 따라, 성능 개선 여부가 확실하지 않은 상태에서 도메인 특화 추가 사전학습 모델의 개발에 막대한 비용을 투입해야 하는지 여부에 대해 판단이 어려운 상황이다. 이러한 상황에도 불구하고 최근 각 도메인의 성능 개선 자체에 초점을 둔 추가 사전학습 연구는 다양한 분야에서 수행되고 있지만, 추가 사전학습을 통한 성능 개선에 영향을 미치는 도메인의 특성을 규명하기 위한 연구는 거의 이루어지지 않고 있다. 본 논문에서는 이러한 한계를 극복하기 위해, 실제로 추가 사전학습을 수행하기 전에 추가 사전학습을 통한 해당 도메인의 성능 개선 정도를 선제적으로 확인할 수 있는 방안을 제시한다. 구체적으로 3개의 도메인을 분석 대상 도메인으로 선정한 후, 각 도메인에서의 추가 사전학습을 통한 분류 정확도 상승 폭을 측정한다. 또한 각 도메인에서 사용된 주요 단어들의 정규화된 빈도를 기반으로 해당 도메인의 특수성을 측정하는 지표를 새롭게 개발하여 제시한다. 사전학습 언어모델과 3개 도메인의 도메인 특화 사전학습 언어모델을 사용한 분류 태스크 실험을 통해, 도메인 특수성 지표가 높을수록 추가 사전학습을 통한 성능 개선 폭이 높음을 확인하였다.