• 제목/요약/키워드: Corpus analysis

검색결과 419건 처리시간 0.033초

뉴럴 텐서 네트워크 기반 주식 개별종목 지식개체명 추출 방법에 관한 연구 (A Study on Knowledge Entity Extraction Method for Individual Stocks Based on Neural Tensor Network)

  • 양윤석;이현준;오경주
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.25-38
    • /
    • 2019
  • 정보화 시대의 넘쳐나는 콘텐츠들 속에서 사용자의 관심과 요구에 맞는 양질의 정보를 선별해내는 과정은 세대를 거듭할수록 더욱 중요해지고 있다. 정보의 홍수 속에서 사용자의 정보 요구를 단순한 문자열로 인식하지 않고, 의미적으로 파악하여 검색결과에 사용자 의도를 더 정확하게 반영하고자 하는 노력이 이루어지고 있다. 구글이나 마이크로소프트와 같은 대형 IT 기업들도 시멘틱 기술을 기반으로 사용자에게 만족도와 편의성을 제공하는 검색엔진 및 지식기반기술의 개발에 집중하고 있다. 특히 금융 분야는 끊임없이 방대한 새로운 정보가 발생하며 초기의 정보일수록 큰 가치를 지녀 텍스트 데이터 분석과 관련된 연구의 효용성과 발전 가능성이 기대되는 분야 중 하나이다. 따라서, 본 연구는 주식 관련 정보검색의 시멘틱 성능을 향상시키기 위해 주식 개별종목을 대상으로 뉴럴 텐서 네트워크를 활용한 지식 개체명 추출과 이에 대한 성능평가를 시도하고자 한다. 뉴럴 텐서 네트워크 관련 기존 주요 연구들이 추론을 통해 지식 개체명들 사이의 관계 탐색을 주로 목표로 하였다면, 본 연구는 주식 개별종목과 관련이 있는 지식 개체명 자체의 추출을 주목적으로 한다. 기존 관련 연구의 문제점들을 해결하고 모형의 실효성과 현실성을 높이기 위한 다양한 데이터 처리 방법이 모형설계 과정에서 적용되며, 객관적인 성능 평가를 위한 실증 분석 결과와 분석 내용을 제시한다. 2017년 5월 30일부터 2018년 5월 21일 사이에 발생한 전문가 리포트를 대상으로 실증 분석을 진행한 결과, 제시된 모형을 통해 추출된 개체명들은 개별종목이 이름을 약 69% 정확도로 예측하였다. 이러한 결과는 본 연구에서 제시하는 모형의 활용 가능성을 보여주고 있으며, 후속 연구와 모형 개선을 통한 성과의 제고가 가능하다는 것을 의미한다. 마지막으로 종목명 예측 테스트를 통해 본 연구에서 제시한 학습 방법이 새로운 텍스트 정보를 의미적으로 접근하여 관련주식 종목과 매칭시키는 목적으로 사용될 수 있는 가능성을 확인하였다.

복합 문서의 의미적 분해를 통한 다중 벡터 문서 임베딩 방법론 (Multi-Vector Document Embedding Using Semantic Decomposition of Complex Documents)

  • 박종인;김남규
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.19-41
    • /
    • 2019
  • 텍스트 데이터에 대한 다양한 분석을 위해 최근 비정형 텍스트 데이터를 구조화하는 방안에 대한 연구가 활발하게 이루어지고 있다. doc2Vec으로 대표되는 기존 문서 임베딩 방법은 문서가 포함한 모든 단어를 사용하여 벡터를 만들기 때문에, 문서 벡터가 핵심 단어뿐 아니라 주변 단어의 영향도 함께 받는다는 한계가 있다. 또한 기존 문서 임베딩 방법은 하나의 문서가 하나의 벡터로 표현되기 때문에, 다양한 주제를 복합적으로 갖는 복합 문서를 정확하게 사상하기 어렵다는 한계를 갖는다. 본 논문에서는 기존의 문서 임베딩이 갖는 이러한 두 가지 한계를 극복하기 위해 다중 벡터 문서 임베딩 방법론을 새롭게 제안한다. 구체적으로 제안 방법론은 전체 단어가 아닌 핵심 단어만 이용하여 문서를 벡터화하고, 문서가 포함하는 다양한 주제를 분해하여 하나의 문서를 여러 벡터의 집합으로 표현한다. KISS에서 수집한 총 3,147개의 논문에 대한 실험을 통해 복합 문서를 단일 벡터로 표현하는 경우의 벡터 왜곡 현상을 확인하였으며, 복합 문서를 의미적으로 분해하여 다중 벡터로 나타내는 제안 방법론에 의해 이러한 왜곡 현상을 보정하고 각 문서를 더욱 정확하게 임베딩할 수 있음을 확인하였다.

산업군 내 동질성을 고려한 온라인 뉴스 기반 주가예측 (Online news-based stock price forecasting considering homogeneity in the industrial sector)

  • 성노윤;남기환
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.1-19
    • /
    • 2018
  • 주가 예측은 학문적으로나 실용적으로나 중요한 문제이기에, 주가 예측에 관련된 연구가 활발히 진행되었다. 빅 데이터 시대에 도입하면서, 빅 데이터를 결합한 주가 예측 연구도 활발히 진행되고 있다. 다수의 데이터를 기반으로 기계 학습을 이용한 연구가 주를 이룬다. 특히 언론의 효과를 접목한 연구 방법들이 주목을 받고 있는데, 그중 온라인 뉴스를 분석하여 주가 예측에 활용하는 연구가 주를 이루고 있다. 기존 연구들은 온라인 뉴스가 개별 회사에 대한 미치는 영향을 주로 살펴보았다. 또한, 관련성이 높은 기업끼리 서로 영향을 주는 것을 고려하는 방법도 최근에 연구되고 있다. 이는 동질성을 가지는 산업군에 대한 효과를 살펴본 것인데, 기존 연구에서 동질성을 가지는 산업군은 국제 산업 분류 표준에 따른다. 즉, 기존 연구들은 국제 산업 분류 표준으로 나뉜 산업군이 동질성을 가진다는 가정하에서 분석을 시행하였다. 하지만 기존 연구들은 영향력을 가지는 회사를 고려하지 못한 채 예측하였거나 산업군 내에서 이질성이 존재하는 점을 반영하지 못했다는 한계점을 가진다. 본 연구는 산업군 내에 이질성이 존재함을 밝히고, 이질성을 반영하지 못한 기존 연구의 한계점을 K-평균 군집 분석을 적용하여, 주가에 영향을 미치는 산업군의 동질적인 효과를 반영할 수 있는 방법론을 제안하였다. 방법론이 적합하다는 것을 증명하기 위해 3년간의 온라인 뉴스와 주가를 통해 실험한 결과, 다수의 경우에서 본 논문에서 제시한 방법이 좋은 결과를 나타냄을 확인할 수 있었으며, 국제 산업 분류 표준 산업군 내에서 이질성이 클수록 본 논문에서 제시한 방법이 좋은 효과를 보인다는 것을 확인할 수 있었다. 본 연구는 국제 산업 분류 표준으로 나누어진 기업들이 높은 동질성을 가지지 않는 다는것을 밝히고 이를 반영한 예측 모형의 효율성을 입증하였다는 점에서 의의를 가진다.

지자체 사이버 공간 안전을 위한 금융사기 탐지 텍스트 마이닝 방법 (Financial Fraud Detection using Text Mining Analysis against Municipal Cybercriminality)

  • 최석재;이중원;권오병
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.119-138
    • /
    • 2017
  • 최근 SNS는 개인의 의사소통뿐 아니라 마케팅의 중요한 채널로도 자리매김하고 있다. 그러나 사이버 범죄 역시 정보와 통신 기술의 발달에 따라 진화하여 불법 광고가 SNS에 다량으로 배포되고 있다. 그 결과 개인정보를 빼앗기거나 금전적인 손해가 빈번하게 일어난다. 본 연구에서는 SNS로 전달되는 홍보글인 비정형 데이터를 분석하여 어떤 글이 금융사기(예: 불법 대부업 및 불법 방문판매)와 관련된 글인지를 분석하는 방법론을 제안하였다. 불법 홍보글 학습 데이터를 만드는 과정과, 데이터의 특성을 고려하여 입력 데이터를 구성하는 방안, 그리고 판별 알고리즘의 선택과 추출할 정보 대상의 선정 등이 프레임워크의 주요 구성 요소이다. 본 연구의 방법은 실제로 모 지방자치단체의 금융사기 방지 프로그램의 파일럿 테스트에 활용되었으며, 실제 데이터를 가지고 분석한 결과 금융사기 글을 판정하는 정확도가 사람들에 의하여 판정하는 것이나 키워드 추출법(Term Frequency), MLE 등에 비하여 월등함을 검증하였다.

Effect of Post Insemination Progesterone Supplement on Pregnancy Rates of Repeat Breeder Friesian Cows

  • Ababneh, Mohammed M.;Alnimer, Mufeed A.;Husein, Mustafa Q.
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제20권11호
    • /
    • pp.1670-1676
    • /
    • 2007
  • Fifty repeat breeder (RB) Friesian cows were allocated to five groups of 10 cows each, to determine the effect of progesterone (P4) supplement on P4 concentrations and pregnancy rates during the periods of corpus luteum (CL) formation and development between days 2-7 and 7-12 following a spontaneous or $PGF_{2{\alpha}}$-induced estrus. Cows were artificially inseminated during $PGF_{2{\alpha}}$-induced (PGF-P4-d2 and PGF-P4-d7 groups) or spontaneous (S-P4-d2, S-P4-d7, and control groups) estrus. Progesterone-releasing intravaginal device (PRID) devoid of estrogen capsule were inserted either on d 2 (PGF-P4-d2 and S-P4-d2 groups) or d 7 (PGF-P4-d7 and S-P4-d7 groups) post-insemination and left in place for 5 days. Control cows did not receive any treatment. Blood samples were collected for progesterone analysis from all cows once daily for 4 days starting on the day of estrus (d 0) and once every 3 days thereafter until d 22. Progesterone treatment by day interaction accounted for higher plasma P4 in treated than non-treated control cows. Progesterone concentrations differed significantly (p<0.05) during metestrus (d 2 to d 7) but not during diestrus (d 7 to d 12). $PGF_{2{\alpha}}$ treatment, lactation number, service number or their interactions did not affect progesterone concentrations and pregnancy rates. Therefore, cows were grouped according to the day of P4 supplement irrespective of the $PGF_{2{\alpha}}$ treatment. Progesterone supplement on d 7 but not d 2 significantly increased (p<0.03) pregnancy rates in repeat breeding cows with four or more previous services but not in cows in their third service. In conclusion, post-insemination P4 supplement to repeat breeding cows with four or more previous services improved pregnancy rates and should be advocated when no specific reason for infertility is diagnosed. Further studies with larger numbers of repeat breeding cows under field conditions are needed to ascertain the findings of this study.

면역형광측정법에 의한 우수정란의 성 판별 (Immunofluorescent Detection of H-Y Antigen on Preimplantation Bovine Embryos)

  • 고광두;양부근;박연수;김정익
    • 한국가축번식학회지
    • /
    • 제13권2호
    • /
    • pp.113-120
    • /
    • 1989
  • In order to determine the sex of preimplantation embryos prior to transfer in cattle, a series of experiments were carried out using 45 Holstein donor cows to examine the ovarian response on the gonadotropin and PGF2${\alpha}$, and the morphology of fresh embryos or frozen/thawed embryos after deep freezing at -196$^{\circ}C$. The sexing of embryos treated with the medium containing H-Y antiserum(10%, v/v) and FITC anti-mouse IgG(10%, v/v) were analysed by chromosomal analysis, and the sex of the embryos which survived were ascertain after delivering the pups. The results obtained were summarized as follows ; 1. The average number of developed follicle and corpus luteum per cow were 13.5 and 8.1, and the ovalation rate was 60.1%. 2. Of 220-ova recovered, 75(34.1%) were morula and 91(41.4%) were blastocyst, and the morphological normal and abnormal rate of ova recovered were 75.5% and 24.5%, respectively. 3. Of 39 frozen/thawed embryos, the scores of normal morula and blastocyst, after thawing were 79.2%(19/24) and 73.3%(11/15). The average rate of frozen/thawed embryos which appeared morphologically normal post thawing was 76.9%(30/39). 4. The sex ratio was measured using the embryos treated with immunofluorescence assay to examine the relationship between embryo developmental stage, sex ratio of morula stage embryo was 42.2%(19/45) fluorescing and 57.8%(26/45) non-fluorescing, on the other hand, the ratio switched to 46.8%(29/62) fluorescing and 53.2%(33/62) non-fluorescing embryo in blastocyst stage. The sex ratio was also measured between fresh and frozen/thawed embryos, fresh and frozen/thawed treated embryos were indicated 45.8%(38/83) fluorescing, 54.2%(45/83) non-fluorescing and 41.7%(10/24) fluorescing, 58.3%(14/24) non-fluorescing. This trend indicated the approximal sex ratio was 1 : 1. 5. The result of karyotype test showed the successful rate of sexing embryo is fluorescing and non-fluorescing was 21.2%(7/33) and 29.6%(8/27). The female to male ratio within 33 fluorescing was 28.6 : 71.4, and the ratio of 27 non-fluorescing embryos was 87.7 : 12.5. 6. Of the embryo transferred after assignment of H-Y phenotype, five of the fluorescing embryos survived to term, all was males. Whereas six non-fluorescing embryos also survived to term and the sexes of the calves were 1 male 5 female.

  • PDF

뇌자기공명영상 검사를 통해 조기 발견된 제2형 뮤코다당증 1례 (A Case of Mucopolysaccharidosis Type 2 Diagnosed Early through Brain MRI)

  • 이윤경;조성윤;김진섭;허림;진동규
    • 대한유전성대사질환학회지
    • /
    • 제15권2호
    • /
    • pp.87-92
    • /
    • 2015
  • 뮤코다당증(mucopolysaccharidosis)은 글리코사미노글리칸(glycosaminoglycans)의 분해에 필요한 리소좀 효소의 결함으로 인해 야기되는 질병으로 글리코사미노글리칸의 대사 산물이 세포의 리소좀 내에 축적되어 세포, 조직 그리고 기관의 기능 이상을 초래해 신체적, 신경학적인 퇴행을 보이며, 심한 경우 조기에 사망하게 되는 다양한 임상양상을 보이는 질환이다. 뮤코다당증 가운데 가장 높은 비율을 차지하는 헌터증후군(뮤코다당증 제2형)은 조기에 진단하여 효소보충요법을 시행하는 것이 중요하다. 본 증례는 언어발달지연과 등과 엉덩이에 몽고반점, 간비대, 두껍고 거친 피부가 있었으며 과성장된 신체 검진소견을 보였던 환아에서, 뇌자기공명영상 검사 결과에서 뇌교량체에 다수의 낭종, 백색질에 비정상 신호 증가 병변들, 미만성 뇌수축 소견을 보여 헌터증후군을 의심하였으며 효소검사 결과를 통해 확진하였다. 저자들은 언어발달지연을 주소로 내원한 환아에게 시행한 뇌자기공명영상에서 조기에 헌터증후군을 의심하여 효소검사를 통해 확진을 할 수 있었던 증례를 경험하였기에 이를 보고하는 바이다.

상호 정보를 이용한 구조적 모호성 해소와 결과에 대한 확신도 측정 (Structural Disambiguation using Mutual Information and the Measure of Confidence)

  • 심광섭
    • 인지과학
    • /
    • 제4권1호
    • /
    • pp.153-176
    • /
    • 1993
  • 구조적 모호성은 자연 언어 문장을 분석할 때 흔히 나타내는 문제점 중의 하나로,지금까지 이문제의 해결은 대단히 어려운 것으로 인식되어 왔다.그러나,구조적 모호성을 해소하지 않고 올바른 언어 처리를 한다는 것은 사실상 불가능하다.본 논문에서는 이 문제에 대하여 정보 이론적(information-theoretic)개념인 상호 정보(mutual information)를 이용한 통계적 접근방법을 제안한다.상호정보는 말 뭉치로 부터 자동 습득이 가능하므로 지식습득속도가 대단히 빠를뿐만 아니라 지속적인 지식습득이 가능하다. 구조적 모호성 해소는 물론 모호성 해소 결과의 옳고 그름을 스스로 판단할수 있는 능력을 부여할수 있다면 보다 지능적인 시스템을 개발하는데 도움이 될것이다.본 논문에서는 그와 같은 지적 능력을 부여한느데 필요한 확신도(congidence measure) 개념도 또한 제시한다.확신도는 구조적 모호성을 해소하고 난 후에 계산되는 수치로서,구조적 모호성이 올바르게 해소되었을 가능성이 높으면 높을수록 그 값이 커지는 성질을 가지고 있다. 본 논문에서 제시한 구조적 모호성 해소 알고리즘의 타당성을 검증하기 위하여 이공계 논문 초록으로부터 발췌된 약 160만 단어의 말뭉치로부터 상호 정보를 자동 습득하고 이를 이용하요,1,639개의 문장에 대하여 구조적 모호성을 해소하는 실험을 하였다. 실험결과 구조적 모호성 해소 정화도는 약 80%로 나타났다.확신도 개념을 이용할 경우 구조적 모호성 해소가 잘못된 문장을 찾아 정정하는 작업을 매우 효과적으로 진행할 수 있었다.

Jeju crossbred에서 계절에 따른 난소주기 변화 연구 (Effect of Ovarian Changes according to Four Season for Reproduction of Jeju Crossbred Horses)

  • 유영주;박설화;신상민;양병철;성필남;우제훈;김남영;손준규
    • 한국수정란이식학회지
    • /
    • 제32권3호
    • /
    • pp.177-182
    • /
    • 2017
  • 본 연구는 암말의 계절에 따른 난소주기 변화를 분석하기 위해 수행하였다. 공시마는 국립축산과학원 난지축산연구소에서 사육 보유하고 있는 Jeju crossbred horses(더러브렛${\times}$제주마) 21두를 공시하였으며, 2016년 5월부터 2017년 6월까지 공시하였으며, 암말의 생식기 및 난소 초음파 검사는 주 1회 초음파 진단기를 이용하여 난소 내 난포 및 황체를 확인하였다. 공시마의 호르몬 분석을 위해 일주일에 2회 채혈하였으며 혈중 P4 농도를 분석하였다. 난소주기가 진행이 되면 배란된 날에 난소주기가 재개된 것으로 간주하였다. 총 21두의 공시마 중 13두(61.9%)만이 정상적인 난소주기를 보였으며, 공시마 8두(38.1%)는 난소주기가 지연되는 것을 확인할 수 있었다. 10월에 3두(16.7%), 11월에 5두(27.8%), 12월에 5두(27.8%)가 발정이 정지 되었으며, 나머지 5두(27.8%)에서는 겨울철에도 발정이 지속되는 것을 확인할 수 있었다. 발정이 정지된 개체는 이듬해 3월까지 발정이 정지되어 있었으며, 비번식계절에도 27.8%는 발정이 지속되었다. 18두 중 4월달에 11두(61.1%), 5월달에 2두(11.1%)가 발정이 재귀되었다.

영한 기계번역 시스템의 영한 변환사전 확장 도구 (English-Korean Transfer Dictionary Extension Tool in English-Korean Machine Translation System)

  • 김성동
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권1호
    • /
    • pp.35-42
    • /
    • 2013
  • 영한 기계번역 시스템을 개발하기 위해서는 언어에 대한 다양한 정보를 필요로 하며, 특히 영어 단어에 대한 의미 정보를 포함하는 영한 변환사전의 풍부한 정보량은 번역품질에 중요한 요소이다. 지속적으로 생성되는 새로운 단어들은 사전에 등록되어 있지 않아 번역문에 영어 단어가 그대로 출력되어 번역품질을 저하시킨다. 또한 복합명사는 어휘분석, 구문분석을 복잡하게 하고 사전에 의미가 등록되지 않은 경우가 많아 올바르게 번역하기 어렵다. 따라서 영한 기계번역의 번역품질 향상을 위해서는 사전에 등록되어 있지 않은 단어들과 자주 사용되는 복합명사들을 수집하고 의미 정보를 추가하여 영한 변환사전을 지속적으로 확장하는 것이 필요하다. 본 논문에서는 인터넷 신문기사로부터 말뭉치를 추출하고, 사전 미등록 단어와 자주 나타나는 복합명사를 찾은 후, 이들에 대해 의미를 부착하여 영한 변환사전에 추가하는 일련의 과정으로 구성되는 영한 변환사전의 확장 방안을 제안하고 이를 지원하는 도구를 개발하였다. 사전 정보의 확대는 많은 사람의 노력을 필요로 하는 일이지만, 영한 기계번역 시스템의 개선을 위해서는 필수적이다. 본 논문에서 개발한 도구는 사람의 노력을 최소화 하면서, 영한 변환사전의 정보량 지속적인 확대를 위해 유용하게 활용되어 영한 기계번역 시스템의 번역품질 개선에 기여할 것으로 기대된다.