• 제목/요약/키워드: Stop Words

검색결과 107건 처리시간 0.024초

카테고리 중립 단어 활용을 통한 주가 예측 방안: 텍스트 마이닝 활용 (Stock Price Prediction by Utilizing Category Neutral Terms: Text Mining Approach)

  • 이민식;이홍주
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.123-138
    • /
    • 2017
  • 주식 시장은 거래자들의 기업과 시황에 대한 기대가 반영되어 움직이기에, 다양한 원천의 텍스트 데이터 분석을 통해 주가 움직임을 예측하려는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 것이기에 단순히 주가의 등락 뿐만이 아니라, 뉴스 기사나 소셜 미디어의 반응에 따라 거래를 하고 이에 따른 수익률을 분석하는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 연구들도 다른 분야의 텍스트 마이닝 접근 방안과 동일하게 단어-문서 매트릭스를 구성하여 분류 알고리즘에 적용하여 왔다. 문서에 많은 단어들이 포함되어 있기 때문에 모든 단어를 가지고 단어-문서 매트릭스를 만드는 것보다는 단어가 문서를 범주로 분류할 때 기여도가 높은 단어들을 선정하여야 한다. 단어의 빈도를 고려하여 너무 적은 등장 빈도나 중요도를 보이는 단어는 제거하게 된다. 단어가 문서를 정확하게 분류하는 데 기여하는 정도를 측정하여 기여도에 따라 사용할 단어를 선정하기도 한다. 단어-문서 매트릭스를 구성하는 기본적인 방안인 분석의 대상이 되는 모든 문서를 수집하여 분류에 영향력을 미치는 단어를 선정하여 사용하는 것이었다. 본 연구에서는 개별 종목에 대한 문서를 분석하여 종목별 등락에 모두 포함되는 단어를 중립 단어로 선정한다. 선정된 중립 단어 주변에 등장하는 단어들을 추출하여 단어-문서 매트릭스 생성에 활용한다. 중립 단어 자체는 주가 움직임과 연관관계가 적고, 중립 단어의 주변 단어가 주가 상승에 더 영향을 미칠 것이라는 생각에서 출발한다. 생성된 단어-문서 매트릭스를 가지고 주가의 등락 여부를 분류하는 알고리즘에 적용하게 된다. 본 연구에서는 종목 별로 중립 단어를 1차 선정하고, 선정된 단어 중에서 다른 종목에도 많이 포함되는 단어는 추가적으로 제외하는 방안을 활용하였다. 온라인 뉴스 포털을 통해 시가 총액 상위 10개 종목에 대한 4개월 간의 뉴스 기사를 수집하였다. 3개월간의 뉴스 기사를 학습 데이터로 분류 모형을 수립하였으며, 남은 1개월간의 뉴스 기사를 모형에 적용하여 다음 날의 주가 움직임을 예측하였다. 본 연구에서 제안하는 중립 단어 활용 알고리즘이 희소성에 기반한 단어 선정 방안에 비해 우수한 분류 성과를 보였다.

브레이크 디스크 커버의 제동 열손상에 대한 실험적 연구 (An Experimental Study on Braking Thermal Damage of Brake Disk Cover)

  • 고광호;문병구
    • 디지털융복합연구
    • /
    • 제13권11호
    • /
    • pp.171-178
    • /
    • 2015
  • 디스크 커버는 브레이크 디스크 및 캘리퍼를 보호하기 위해 설치하고, 고객에게 인도되기 직전에 제거된다. 본 연구에서 디스크 커버의 온도는 주행 시험 차량(2000cc, 디젤)을 대상으로 측정되었다. 주행 시험(120km/h-제동(0.3G)-정지-120km/h-제동(0.5G)-정지)에서 측정된 최고 온도는 디스크 커버 상부에서 $260{\sim}270^{\circ}C$이었고, 디스크 커버 주위에 상당한 변화를 보였다. 이는 고온 디스크로부터 커버로의 주요 열전달이 대류를 통해서임을 커버 주위의 온도 분포로부터 추론 할 수 있다. 즉, 마찰 제동에 의해 발생된 고온의 공기가 디스크 커버 상부까지 올라간 것이다. 그리고 주행 시험 중에 디스크 커버의 상부 영역만이 용융되었다. 디스크 커버의 두께를 0.7mm부터 1.0mm로 증가시키고, 마스킹 테이프 1장을 디스크 커버 상부 영역에 부착하였다. 그 후에 디스크 커버는 주행 시험 시 마찰 제동에 의해 형성된 고온의 공기에도 변형되지 않았다.

Recognizing the Two Faces of Gambling: The Lived Experiences of Korean Women Gamblers

  • Kim, Sungjae;Kim, Wooksoo;Dickerson, Suzanne S.
    • 대한간호학회지
    • /
    • 제46권5호
    • /
    • pp.753-765
    • /
    • 2016
  • Purpose: The aim of this study was to explore the lived experiences of women problem gamblers, focusing on the meaning of gambling to them, how and why these women continue to gamble or stop gambling, and their needs and concerns. In order to effectively help women problem gamblers, practical in-depth knowledge is necessary to develop intervention programs for prevention, treatment, and recovery among women problem gamblers. Methods: The hermeneutic phenomenology approach was used to guide in-depth interviews and team interpretation of data. Sixteen women gamblers who chose to live in the casino area were recruited through snowball sampling with help from a counseling center. Participants were individually interviewed from February to April 2013 and asked to tell their stories of gambling. Transcribed interviews provided data for interpretive analysis. Results: In the study analysis one constitutive pattern was identified: moving beyond addiction by recognizing the two faces of gambling in their life. Four related themes emerged in the analysis-gambling as alluring; gambling as 'ugly'; living in contradictions; and moving beyond. Conclusion: Loneliness and isolation play a critical role in gambling experiences of women gamblers in Korea. In other words, they are motivated to gamble in order to escape from loneliness, to stop gambling for fear of being lonely as they get older, and to stay in the casnio area so as not to be alone. The need for acceptance is one fo the important factors that should be considered in developing intervention program for women.

U-learning 환경의 대용량 학습문서 판리를 위한 효율적인 점진적 문서 (An Effective Increment리 Content Clustering Method for the Large Documents in U-learning Environment)

  • 주길홍;최진탁
    • 한국컴퓨터산업학회논문지
    • /
    • 제5권9호
    • /
    • pp.859-872
    • /
    • 2004
  • 컴퓨터와 통신 기술이 발전함에 따라 최근의 교육 환경은 학습자 스스로 학습 내용, 학습 시간 및 학습 순서를 선택하고 조직하는 유비쿼터스 학습 방향으로 나아가고 있다. 방대한 양의 학습정보들은 대부분 문서 형태로 관리되고 있기 때문에 문서 단위로 표현된 많은 정도들을 효과적으로 관리하고 검색하기 위한 방법의 연구가 필요하게 되었다. 문서 클러스터링은 문서간의 유사도를 바탕으로 서로 연관된 문서들을 군집화하여 문서틀을 주제별로 통합하는 방법으로 대용량의 문서들을 자통으로 분류하고, 검색하는 데 있어서 검색의 정확성을 증대시킬 수 있다. 따라서 본 논문에서는 새로운 학습 문서의 추가나 기존문서의 삭제로 인하여 군집화 대상이 되는 학습 문서 집합이 점진적으로 변화하는 환경을 위한 점진적 문서 클러스터링 알고리즘을 제안한다. 점진적 문서 클러스터링 알고리즘은 새로운 문서가 추가되었을 경우 문서 전체를 다시 클러스터링하지 않고. 이미 생성된 클러스터들의 구조를 적응적으로 변화시킴으로써 높은 효율성을 제공할 수 있다. 또한, 문서 글러스터링의 정확도극 높이기 위하여 통계적인 기법으로 불용어를 판별하여 제거하는 알고리즘을 제안한다.

  • PDF

대용량 문서 데이터베이스를 위한 효율적인 점진적 문서 클러스터링 기법 (An Effective Incremental Text Clustering Method for the Large Document Database)

  • 강동혁;주길홍;이원석
    • 정보처리학회논문지D
    • /
    • 제10D권1호
    • /
    • pp.57-66
    • /
    • 2003
  • 컴퓨터의 발전과 인터넷의 급속한 발전으로 정보의 양이 폭발적으로 증가하게 되었고 이러한 방대한 양의 정보들은 대부분 문서 형태로 관리되고 있으며, 문서 단위별 표현된 많은 정보들을 효과적으로 관리하고 검색하기 위한 방법의 연구가 필요하게 되었다. 문서 클러스터링은 문서간의 유사도를 바탕으로 서로 연관된 문서들을 군집화하여 문서들을 주제별로 통합하는 방법으로 대용량의 문서들을 자동으로 분류하고, 검색하는 데 있어서 검색의 정확성을 증대시킬 수 있다. 본 논문에서는 새로운 문서의 추가나 기존문서의 삭제로 인하여 군집화 대상이 되는 문서 집합이 점진적으로 변화하는 환경을 위한 점진적 문서 클러스터링 알고리즘을 제안한다. 점진적 문서 클러스터링 알고리즘은 새로운 문서가 추가되었을 경우 문서 전체를 다시 클러스터링하지 않고, 이미 생성된 클러스터들의 구조를 적극적으로 변화시킴으로써 높은 효율성을 제공할 수 있다. 또한, 문서 클러스터링의 정확도를 높이기 위하여 통계적인 기법으로 불용어를 판별하여 제거하는 알고리즘을 제안하고, 문서 클러스터링에서 정확한 단어가중치 산출을 위해 TF$\times$IDF 공식을 수정한 TF$\times$NIDF 공식을 제안한다.

기능적 조음장애아동과 일반아동의 어중자음 연쇄조건에서 나타나는 어중종성 오류 특성 비교 (Comparison of error characteristics of final consonant at word-medial position between children with functional articulation disorder and normal children)

  • 이란;이은주
    • 말소리와 음성과학
    • /
    • 제7권2호
    • /
    • pp.19-28
    • /
    • 2015
  • This study investigated final consonant error characteristics at word-medial position in children with functional articulation disorder. Data was collected from 11 children with functional articulation and 11 normal children, ages 4 to 5. The speech samples were collected from a naming test. Seventy-five words with every possible bi-consonants matrix at the word-medial position were used. The results of this study were as follows : First, percentage of correct word-medial final consonants of functional articulation disorder was lower than normal children. Second, there were significant differences between two groups in omission, substitution and assimilation error. Children with functional articulation disorder showed a high frequency of omission and regressive assimilation error, especially alveolarization in regressive assimilation error most. However, normal children showed a high frequency of regressive assimilation error, especially bilabialization in regressive assimilation error most. Finally, the results of error analysis according to articulation manner, articulation place and phonation type of consonants of initial consonant at word-medial, both functional articulation disorder and normal children showed a high error rate in stop sound-stop sound condition. The error rate of final consonant at word-medial position was high when initial consonant at word-medial position was alveolar sound and alveopalatal sound. Futhermore, when initial sounds were fortis and aspirated sounds, more errors occurred than linis sound was initial sound. The results of this study provided practical error characteristics of final consonant at word-medial position in children with speech sound disorder.

상악 총의치 장착 환자 언어의 음향학적 특성 연구 (Acoustic Characteristics of Patients with Maxillary Complete Dentures)

  • 고석민;황병남
    • 음성과학
    • /
    • 제8권4호
    • /
    • pp.139-156
    • /
    • 2001
  • Speech intelligibility in patients with complete dentures is an important clinical problem depending on the material used. The objective of this study was to investigate the speech of two edentulous subjects fitted with a complete maxillary prosthesis made of two different palatal materials: chrome-cobalt alloy and acrylic resin. Three patients with complete dentures in the experiment group and ten people in the controls groups participated in the experiment. CSL, Visi-Pitch were used to measure speech characteristics. The test words consisted of a simple vowel /e/, meaningless three syllabic words containing fricative, affricated and stops sounds, and sustained fricative sounds /s/ and /$\int$/. The analysis speech parameters were vowel and lateral formants, VOT, sound durations, sound pressure level and fricative frequency. Data analysis was conducted by a series of paired T-test. The findings like the following: (1) Vowel formant one of patients with complete denture is higher than that of the control group (p<0.05), while lateral formant three of patients with complete denture is lower than that of the control group (p<0.0l). (2) Patients with complete denture produced lower speech intelligibility with low fricative frequency (/$\int$/) than control group (p<0.0). The speech intelligibility of patients with metal prosthesis was higher than that of those with resin prosthesis (p<0.05). (3) Fricative, lateral and stop sound durations of patients with complete denture were longer than those of the control group (p<0.01 and p<0.05), respectively. Total sound durations of patients with metal prosthesis were similar to that of the control group (p<0.05), while those with resin prosthesis had a shorter duration (p<0.01). This implied that those with metal prosthesis had higher speech intelligibility than those with resin prosthesis. (4) Patients with complete denture had higher sound pressure levels /t/ and /c/ than the control group (p<0.01). However, sound pressure levels for /c/ of patients with metal prosthesis or resin prosthesis was similar to the control group (p<0.05). (5) Patients with complete denture had higher fundamental frequency than the control group (p<0.01).

  • PDF

텍스트 마이닝을 이용한 특허정보검색 개발에 관한 연구 (A Study on Development of Patent Information Retrieval Using Textmining)

  • 고광수;정원교;신영근;박상성;장동식
    • 한국산학기술학회논문지
    • /
    • 제12권8호
    • /
    • pp.3677-3688
    • /
    • 2011
  • 특허정보검색의 목적은 다양한 목적성을 지니고 있다. 일반적으로 특허정보검색은 제한된 키워드들에 의한 검색으로 이루어지며, 선행 특허권과 유사특허를 파악하기 위하여 반복적인 검색과 검토의 노력이 필요하다. 본 논문에서는 특허문서의 전체 텍스트를 분석하여 특징치를 찾아내는 내용기반 검색방법을 제안하고 검색결과를 질의문서와 유사한 문서 순으로 우선 배치하여 검색에 효율을 높일 수 있는 방법을 제안한다. 즉, 제안된 알고리즘은 텍스트 분석과정을 통해 각 문서별로 특징치가 부여되고 문서 간 특징치 비교를 통해 유사문서를 찾고 문서를 랭킹하여 유사정보를 제공한다. 텍스트 분석과정은 Stop-word과정, 핵심단어 추출과정, 핵심단어 가중치 산출 과정으로 이루어진다. 실험결과에서는 정확도 측정을 실시하여 일반검색엔진과 본 논문에서 제안한 알고리즘의 검색 정확도를 비교하였다. 본 논문은 검색결과를 질의한 문서와 유사한 문서 순으로 랭킹하기 때문에 검색이용자가 검색결과 검토과정에서 유사한 문서를 먼저 검토할 수 있도록 하여 검토시간을 줄이고 검색의 효율을 높일 수 있다. 또한 특허문서 전체 텍스트를 입력받아 사용하기 때문에 특허검색에 익숙하지 않는 이용자도 검색을 쉽고 빠르게 이용할 수 있다. 그리고 내용 기반 검색이 이루어지기 때문에 키워드 및 검색 식을 이용하는 방법보다 검색범위를 넓힐 수 있어서 검색에 누락되는 데이터를 줄일 수 있는 효과를 가진다.

지자체 사이버 공간 안전을 위한 금융사기 탐지 텍스트 마이닝 방법 (Financial Fraud Detection using Text Mining Analysis against Municipal Cybercriminality)

  • 최석재;이중원;권오병
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.119-138
    • /
    • 2017
  • 최근 SNS는 개인의 의사소통뿐 아니라 마케팅의 중요한 채널로도 자리매김하고 있다. 그러나 사이버 범죄 역시 정보와 통신 기술의 발달에 따라 진화하여 불법 광고가 SNS에 다량으로 배포되고 있다. 그 결과 개인정보를 빼앗기거나 금전적인 손해가 빈번하게 일어난다. 본 연구에서는 SNS로 전달되는 홍보글인 비정형 데이터를 분석하여 어떤 글이 금융사기(예: 불법 대부업 및 불법 방문판매)와 관련된 글인지를 분석하는 방법론을 제안하였다. 불법 홍보글 학습 데이터를 만드는 과정과, 데이터의 특성을 고려하여 입력 데이터를 구성하는 방안, 그리고 판별 알고리즘의 선택과 추출할 정보 대상의 선정 등이 프레임워크의 주요 구성 요소이다. 본 연구의 방법은 실제로 모 지방자치단체의 금융사기 방지 프로그램의 파일럿 테스트에 활용되었으며, 실제 데이터를 가지고 분석한 결과 금융사기 글을 판정하는 정확도가 사람들에 의하여 판정하는 것이나 키워드 추출법(Term Frequency), MLE 등에 비하여 월등함을 검증하였다.

차상통합신호시스템에서 ATP 안테나와 ATS 안테나 사이의 결합계수에 관한 연구 (A Study on the Coupling Coefficient between ATP Antenna and ATS Antenna in Combined On-Board System)

  • 김두겸;김민석;김민규;이종우
    • 한국철도학회:학술대회논문집
    • /
    • 한국철도학회 2011년도 정기총회 및 추계학술대회 논문집
    • /
    • pp.211-225
    • /
    • 2011
  • Railroad signalling systems are to control intervals and routes of trains. There are ATS(Automatic Train Stop), ATP(Automatic Train Protection), ATO(Automatic Train Operation) and ATC(Automatic Train Control) system. Trains are operated in the section which is met on the signalling system because various signalling systems are used in Korea. On the other words, trains are not operated in the section which is used in the other signalling system. To solve this problem, recently combined on-board system has been developed. The combined on-board system is designed by doubling the ATS, ATP and ATC system. Information signal is received by magnetic sensors in the ATC system and is received by antennas in the ATS and ATP system. Therefore, it is possible to arise transmission problems by magnetic coupling. In this paper, electric model of the ATS and ATP antenna is suggested and interference frequency by the magnetic coupling between the ATS and ATP antenna is estimated numerically. As a results of the magnetic coupling, the value of the magnetic coupling is presented without magnetic induction.

  • PDF