• 제목/요약/키워드: Corpus-based Study

검색결과 204건 처리시간 0.03초

Effects of Ovarian Morphology and Culture Vessel on In vitro Development and Cell Number in Embryos of Korean Native Cows

  • Park, Yong-Soo;Kim, Jae-Myeoung
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제20권1호
    • /
    • pp.31-35
    • /
    • 2007
  • The main purpose of this study was to improve the efficiency and quality of in vitro embryo production in Korean Native Cows (KNC). We examined the effects of ovarian morphologies (Experiment 1) and the culture vessel (Experiment 2) on in vitro maturation (IVM). We measured the subsequent development rates and cell numbers of blastocysts. In Experiment 1, the ovaries of KNC were divided into six groups, based on follicle and corpus luteum (CL) morphology. The development rates to the 2- and 8-cell stages were similar among the six groups. The development rates to blastocyst stages were significantly higher in the group without a CL or follicle (WOCL/F) than in the groups with follicular cysts (FCs), regressive CLs (RCLs) or cystic CLs (CCLs) (p<0.05). The cell number of the inner cell mass (ICM) of blastocysts in the FCs and RCLs groups, and the number of cells in the trophectoderm (TE) in the WOCL/F group, FCs, growing CLs (GCLs) and RCLs were significantly higher than in other groups (p<0.05). The total cell number (TCN) in the WOCL/F, FC and RCL groups was also significantly higher than in other groups (p<0.05). The ICM cell number/TCN ratio was significantly higher in the FC and RCL groups than in the GCL and DF groups (p<0.05). In Experiment 2, oocyte IVM was carried out in culture dishes, in 0.25- or 0.5-ml straws used for freezing sperm. The development rate to the 2-cell stage was significantly higher in the 0.5-ml straw group than in the 0.25-ml straw group. The development rates to the blastocyst stage were similar in the dish and the two straw groups. There were no differences in the cell numbers of ICM, TE or TCN or ICM cell number/TCN ratios between groups.

자동 발췌문/요약 시스템 구축에 관한 연구 - 학술지 논문기사를 중심으로 - (A Study on the Construction of the Automatic Extracts and Summaries - On the Basis of Scientific Journal Articles -)

  • 이태영
    • 한국문헌정보학회지
    • /
    • 제39권3호
    • /
    • pp.139-163
    • /
    • 2005
  • 코퍼스 기반의 제 방법. 담화구조의 수사역할, 유사문장의 통합을 이용하여 발췌문과 기초적 요약문을 자동으로 작성하는 방법론을 구축하였다. 코퍼스에 따른 기법들의 효율적 한계치를 사전에 확인하였고 발췌/요약문의 신축적 작성을 위해서 요약문을 이루는 문장들의 수사역할을 목적, 배경, 방법, 결과. 결론 등으로 정하고 각각의 발췌기를 적용하였다. 발췌 성공률은 $90\%$이었다. 수사역할별로 선정된 문장의 합성과 분리를 위하여 유사도 공식을 이용한 유사문장의 통합, 불필요한 의미의 수식절, 삽입절의 제거, 짧은 문장들과 연결이 가능한 문장들의 합성을 시도하였다. 높은 발췌 성공률을 바탕으로 문장의 수사역할, 절의 용언어미 표징, 단서적 어구와 소재를 가미한 문장 정리 시스템의 개발이 요망된다.

The Study on Implementation of Crime Terms Classification System for Crime Issues Response

  • Jeong, Inkyu;Yoon, Cheolhee;Kang, Jang Mook
    • International Journal of Advanced Culture Technology
    • /
    • 제8권3호
    • /
    • pp.61-72
    • /
    • 2020
  • The fear of crime, discussed in the early 1960s in the United States, is a psychological response, such as anxiety or concern about crime, the potential victim of a crime. These anxiety factors lead to the burden of the individual in securing the psychological stability and indirect costs of the crime against the society. Fear of crime is not a good thing, and it is a part that needs to be adjusted so that it cannot be exaggerated and distorted by the policy together with the crime coping and resolution. This is because fear of crime has as much harm as damage caused by criminal act. Eric Pawson has argued that the popular impression of violent crime is not formed because of media reports, but by official statistics. Therefore, the police should watch and analyze news related to fear of crime to reduce the social cost of fear of crime and prepare a preemptive response policy before the people have 'fear of crime'. In this paper, we propose a deep - based news classification system that helps police cope with crimes related to crimes reported in the media efficiently and quickly and precisely. The goal is to establish a system that can quickly identify changes in security issues that are rapidly increasing by categorizing news related to crime among news articles. To construct the system, crime data was learned so that news could be classified according to the type of crime. Deep learning was applied by using Google tensor flow. In the future, it is necessary to continue research on the importance of keyword according to early detection of issues that are rapidly increasing by crime type and the power of the press, and it is also necessary to constantly supplement crime related corpus.

인터넷 감정기호를 이용한 긍정/부정 말뭉치 구축 및 감정분류 자동화 (Automatic Construction of a Negative/positive Corpus and Emotional Classification using the Internet Emotional Sign)

  • 장경애;박상현;김우제
    • 정보과학회 논문지
    • /
    • 제42권4호
    • /
    • pp.512-521
    • /
    • 2015
  • 네티즌은 인터넷을 통해서 상품을 구매하고 상품에 대한 감정을 긍정 혹은 부정으로 상품평에 표현한다. 상품평에 대한 분석은 잠재적 소비자뿐만 아니라 기업의 의사결정에 중요한 자료가 된다. 따라서 인터넷의 대량 리뷰에서 의미 있는 정보를 분석하여 의견을 도출하는 오피니언 마이닝 기술의 중요성이 증대되고 있다. 기존의 연구는 대부분이 영어를 기반으로 진행되었고 아직 한글에 대한 상품평 분석은 활발히 이루어 지지 않고 있다. 또한 한글은 영어와 달라 꾸미는 말과 어미가 복잡한 특성을 갖고 있다. 그리고 기존의 연구는 통계적 기법, 사전 기법, 기계학습 기법 등을 사용하여 연구되었으나 인터넷 언어의 특성을 감안하지는 못하였다. 본 연구에서는 감정이 포함된 인터넷 언어의 특성을 분석하여 감정분석의 정확률을 높이는 감정분류 방법을 제안한다. 이를 통해 데이터에 독립적인 인터넷 감정기호를 이용해서 자동으로 긍정 및 부정 상품평을 분류할 수 있었고 높은 정확률, 재현율, Coverage 결과를 통해서 제안 알고리즘의 유효성을 확인할 수 있었다.

추가 사전학습 기반 지식 전이를 통한 국가 R&D 전문 언어모델 구축 (Building Specialized Language Model for National R&D through Knowledge Transfer Based on Further Pre-training)

  • 유은지;서수민;김남규
    • 지식경영연구
    • /
    • 제22권3호
    • /
    • pp.91-106
    • /
    • 2021
  • 최근 딥러닝 기술이 빠르게 발전함에 따라 국가 R&D 분야의 방대한 텍스트 문서를 다양한 관점에서 분석하기 위한 수요가 급증하고 있다. 특히 대용량의 말뭉치에 대해 사전학습을 수행한 BERT(Bidirectional Encoder Representations from Transformers) 언어모델의 활용에 대한 관심이 높아지고 있다. 하지만 국가 R&D와 같이 고도로 전문화된 분야에서 높은 빈도로 사용되는 전문어는 기본 BERT에서 충분히 학습이 이루어지지 않은 경우가 많으며, 이는 BERT를 통한 전문 분야 문서 이해의 한계로 지적되고 있다. 따라서 본 연구에서는 최근 활발하게 연구되고 있는 추가 사전학습을 활용하여, 기본 BERT에 국가 R&D 분야 지식을 전이한 R&D KoBERT 언어모델을 구축하는 방안을 제시한다. 또한 제안 모델의 성능 평가를 위해 보건의료, 정보통신 분야의 과제 약 116,000건을 대상으로 분류 분석을 수행한 결과, 제안 모델이 순수한 KoBERT 모델에 비해 정확도 측면에서 더 높은 성능을 나타내는 것을 확인하였다.

영어 '보다(see)' 구문에 나타나는 통사와 의미의 상호관련성 연구 (On the Study of the Interaction between Syntax and Semantics in See Verb Construction in English)

  • 김미자
    • 비교문화연구
    • /
    • 제39권
    • /
    • pp.329-354
    • /
    • 2015
  • The major goals of this paper are to identify the degree into which the meanings of 'see' verb can be extended, focusing on the extended meanings shown in the expressions that denote our instinctive actions for survival, such as eating or drinking, etc., and to clarify the doubt on whether any syntactic pattern can be associated with the meaning in the process of meaning extension of 'see' verb. For doing this task, this paper picked out 2,000 examples randomly from COCA (Corpus of Contemporary American English), in which the verb 'see' is used. This paper classified the sentences into thirteen different sentence types, according to the syntactic patterns. This research showed that these thirteen syntactic types lead us to figure out the process of the meaning extension of the verb 'see'. With this result, this paper made an attempt to provide the four steps toward the meaning extension of verb 'see'. The verb 'see' in the first step denotes the meaning of purely seeing the visualized objects. This verb in the second step expresses the shifted function, under which the agent in the subject position takes the seeing action as a secondary task in order to carry out other main task. The verb in the third step denotes the extended meanings irrelevant to the seeing action, because the sentences on this step do not contain any visualized objects. In the last step this verb functions as conventional implicature whose meaning does not contribute to the whole meaning of a sentence. In addition, this paper identified that the syntactic properties are deeply associated with the process of meaning extension of the verb 'see', and tried to formalize this relationship between the syntax and semantics within the framework of Construction Grammar based on A. Goldberg.

트랜스포머 기반 효율적인 자연어 처리 방안 연구 (A Study on Efficient Natural Language Processing Method based on Transformer)

  • 임승철;윤성구
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권4호
    • /
    • pp.115-119
    • /
    • 2023
  • 현재의 인공지능에서 사용되는 자연어 처리 모델은 거대하여 실시간으로 데이터를 처리하고 분석하는 것은 여러가지 어려움들을 야기하고 있다. 이런 어려움을 해결하기 위한 방법으로 메모리를 적게 사용해 처리의 효율성을 개선하는 방법을 제안하고 제안된 모델의 성능을 확인하였다. 본 논문에서 제안한 모델의 성능평가를 위해 적용한 기법은 BERT[1] 모델의 어텐션 헤드 개수와 임베딩 크기를 작게 조절해 큰 말뭉치를 나눠서 분할 처리 후 출력값의 평균을 통해 결과를 산출하였다. 이 과정에서 입력 데이터의 다양성을 주기위해 매 에폭마다 임의의 오프셋을 문장에 부여하였다. 그리고 모델을 분류가 가능하도록 미세 조정하였다. 말뭉치를 분할 처리한 모델은 그렇지 않은 모델 대비 정확도가 12% 정도 낮았으나, 모델의 파라미터 개수는 56% 정도 절감되는 것을 확인하였다.

Document Classification Methodology Using Autoencoder-based Keywords Embedding

  • Seobin Yoon;Namgyu Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권9호
    • /
    • pp.35-46
    • /
    • 2023
  • 본 연구에서는 문서 분류기의 정확도를 높이기 위해 문맥 정보와 키워드 정보를 모두 사용하는 이중 접근(Dual Approach) 방법론을 제안한다. 우선 문맥 정보는 다양한 자연어 이해 작업(Task)에서 뛰어난 성능을 나타내고 있는 사전학습언어모델인 Google의 BERT를 사용하여 추출한다. 구체적으로 한국어 말뭉치를 사전학습한 KoBERT를 사용하여 문맥 정보를 CLS 토큰 형태로 추출한다. 다음으로 키워드 정보는 문서별 키워드 집합을 Autoencoder의 잠재 벡터를 통해 하나의 벡터 값으로 생성하여 사용한다. 제안 방법을 국가과학기술정보서비스(NTIS)의 국가 R&D 과제 문서 중 보건 의료에 해당하는 40,130건의 문서에 적용하여 실험을 수행한 결과, 제안 방법이 문서 정보 또는 단어 정보만을 활용하여 문서 분류를 진행하는 기존 방법들에 비해 정확도 측면에서 우수한 성능을 나타냄을 확인하였다.

Trends in Incidence of Common Cancers in Iran

  • Enayatrad, Mostafa;Mirzaei, Maryam;Salehiniya, Hamid;Karimirad, Mohammad Reza;Vaziri, Siavash;Mansouri, Fiezollah;Moudi, Asieh
    • Asian Pacific Journal of Cancer Prevention
    • /
    • 제17권sup3호
    • /
    • pp.39-42
    • /
    • 2016
  • Cancer is a major public health problem in Iran. The aim of this study was to evaluate trends in incidence of ten common cancers in Iran, based on the national cancer registry reports from 2004 to 2009. This epidemiological study was carried out based on existing age-standardized estimate cancer data from the national report on cancer registry/Ministry of Health in Iran. The obtained data were analyzed by test for linear trend and $P{\geq}0.05$ was taken as the significant level. Totals of 41,169 and 32,898 cases of cancer were registered in men and females, respectively, during these years. Overall age-standard incidence rates (ASRs) per 100,000 population according to primary site weres 125.6 and 113.4 in males and females, respectively. Between 2004 and 2009, the ten most common cancers (excluding skin cancer) were stomach (16.2), bladder (12.6), prostate (11), colon-rectum (10.14), hematopoeitic system (7.1), lung (6.1), esophagus (6.4), brain (3.2), lymph node (3.8) and larynx (3.4) in males; and in females were breast (27.4), colon-rectum (9.3), stomach (7.6), esophagus (6.4), hematopoeitic system (4.9), thyroid (3.9), ovary (3.6), corpus uteri (2.9), bladder (3.2) and lung (2.6). Moreover, results showed that skin cancer was estimated as the most common cancer in both sexes. The lowest and the highest incidence in females and males were reported respectively in 2004 and 2009. Over this period, the incidence of cancer in both sexes has been significantly increasing (p<0.01). Like other less developed and epidemiologically transitioning countries, the trend of age-standardized incidence rate of cancer in Iran is rising. Due to the increasing trends, the future burden of cancer in the Iran is going to be acute with the expected increases in aging populations. Determining and controlling potential risk factors of cancer should hopefully lead to decrease in its burden.

빅데이터 분석 방법론을 활용한 지방자치단체 단위과제 운영 지원도구 개발 연구 (Research on Development of Support Tools for Local Government Business Transaction Operation Using Big Data Analysis Methodology)

  • 김다빈;이은정;류한조
    • 기록학연구
    • /
    • 제70호
    • /
    • pp.85-117
    • /
    • 2021
  • 이 연구의 목적은 지방자치단체에서 사용하고 있는 단위과제 현황, 단위과제 운영 및 기록관리 관점의 문제점을 조사 및 분석하여 그 과정에서 도출된 시사점들을 기반으로 텍스트 기반 빅데이터 기술을 활용하여 문제점에 대한 개선방안을 제시하는 것이다. 지방자치단체는 단위과제의 오분류로 인한 보존기간 책정 오류, 과공통사무와 기관공통사무의 유형식별 불가, 단위과제의 과대·과소·중복생성의 오류, 단위과제 명칭의 오류, 참고 가능한 표준의 부재, 통제 가능한 시스템 또는 도구의 부재 등으로 인해 기록관리 운영상 심각한 상태에 놓여 있다. 그러나 단위과제의 수가 약 72만개로 지나치게 많은 수량 때문에 효과적으로 통제할 수 없는 실정이며, 따라서 엄밀하고 통제할 수 있는 도구 및 표준이 필요하다. 본 연구에서는 이와 같은 문제점을 해결하기 위하여 빅데이터 분석 기술 중 텍스트기반 분석 도구인 코퍼스와 토큰화 기술을 적용한 시스템을 개발하고, 이를 기록관리기준표를 구성하고 있는 명칭 및 구성용어에 적용하였다. 이러한 단위과제 운영 지원도구는 통일성 있는 보존 기간 책정, 위임사무 기록물 식별, 중복·유사단위과제 생성 통제, 공통 과제의 표준적인 운영 등을 지원할 수 있는 도구가 될 수 있어 기록관리 업무에 상당한 기여를 할 수 있을 것으로 예상된다. 따라서 향후 빅데이터 분석 방법론을 활용한 지원도구가 BRM 및 RMS 등과 연계할 수 있다면 기록관리기준표 관리 업무의 품질이 높아질 수 있을 것으로 보인다.