Causal questions are prevalent in scientific research, for example, how effective a treatment was for preventing an infectious disease, how much a policy increased utility, or which advertisement would give the highest click rate for a given customer. Causal inference theory in statistics interprets those questions as inferring the effect of a given intervention (treatment or policy) in the data generating process. Causal inference has been used in medicine, public health, and economics; in addition, it has received recent attention as a tool for data-driven decision making processes. Many recent datasets are observational, rather than experimental, which makes the causal inference theory more complex. This review introduces key concepts and recent trends of statistical causal inference in observational studies. We first introduce the Neyman-Rubin's potential outcome framework to formularize from causal questions to average treatment effects as well as discuss popular methods to estimate treatment effects such as propensity score approaches and regression approaches. For recent trends, we briefly discuss (1) conditional (heterogeneous) treatment effects and machine learning-based approaches, (2) curse of dimensionality on the estimation of treatment effect and its remedies, and (3) Pearl's structural causal model to deal with more complex causal relationships and its connection to the Neyman-Rubin's potential outcome model.
Kim, Taeyong;Park, Hyemin;Heo, Junyong;Yang, Minjune
Economic and Environmental Geology
/
v.54
no.3
/
pp.353-364
/
2021
Since the mid-twentieth century, geology has gradually evolved as an interdisciplinary context in South Korea. The journal of Economic and Environmental Geology (EEG) has a long history of over 52 years and published interdisciplinary articles based on geology. In this study, we performed a literature review using topic modeling based on Latent Dirichlet Allocation (LDA), an unsupervised machine learning model, to identify geological topics, historical trends (classic topics and emerging topics), and association by analyzing titles, keywords, and abstracts of 2,571 publications in EEG during 1968-2020. The results showed that 8 topics ('petrology and geochemistry', 'hydrology and hydrogeology', 'economic geology', 'volcanology', 'soil contaminant and remediation', 'general and structural geology', 'geophysics and geophysical exploration', and 'clay mineral') were identified in the EEG. Before 1994, classic topics ('economic geology', 'volcanology', and 'general and structure geology') were dominant research trends. After 1994, emerging topics ('hydrology and hydrogeology', 'soil contaminant and remediation', 'clay mineral') have arisen, and its portion has gradually increased. The result of association analysis showed that EEG tends to be more comprehensive based on 'economic geology'. Our results provide understanding of how geological research topics branch out and merge with other fields using a useful literature review tool for geological research in South Korea.
Journal of The Korean Association of Information Education
/
v.24
no.5
/
pp.473-481
/
2020
Data science starts with small data analysis and includes machine learning and deep learning for big data analysis. Data science is a core area of artificial intelligence technology and should be systematically reflected in the school curriculum. For data science education, The Entry also provides a data analysis tool for elementary education. In a big data analysis, data samples are extracted and analysis results are interpreted through statistical guesses and judgments. In this paper, the big data analysis area that requires statistical knowledge is excluded from the elementary area, and data science education examples focusing on the elementary area are proposed. To this end, the general data science education stage was explained first, and the elementary data science education stage was newly proposed. After that, an example of comparing values of data variables and an example of analyzing correlations between data variables were proposed with public small data provided by Entry, according to the elementary data science education stage. By using these Entry data-analysis examples proposed in this paper, it is possible to provide data science convergence education in elementary school, with given data generated from various subjects. In addition, data science educational materials combined with text, audio and video recognition AI tools can be developed by using the Entry.
KIPS Transactions on Computer and Communication Systems
/
v.11
no.7
/
pp.233-240
/
2022
Most of the recent AI researches has focused on developing AI models. However, recently, artificial intelligence research has gradually changed from model-centric to data-centric, and the importance of learning data is getting a lot of attention based on this trend. However, it takes a lot of time and effort because the preparation of learning data takes up a significant part of the entire process, and the generation of labeling data also differs depending on the purpose of development. Therefore, it is need to develop a tool with various labeling functions to solve the existing unmetneeds. In this paper, we describe a labeling system for creating precise and fast labeling data of medical images. To implement this, a semi-automatic method using Back Projection, Grabcut techniques and an automatic method predicted through a machine learning model were implemented. We not only showed the advantage of running time for the generation of labeling data of the proposed system, but also showed superiority through comparative evaluation of accuracy. In addition, by analyzing the image data set of about 1,000 patients, meaningful diagnostic indexes were presented for men and women in the diagnosis of sarcopenia.
The study measured a subway construction worker's Macpa stress by Heart Rate Variability measuring instrument and conducted a survey of Korean job stress from subway construction workers. Also, the study analyzed the relationship between Macpa stress index and Korean job stress result and suggested managing stress method for each item. According to National Statistical Office data, the first line subway in Seoul was started to open in 1974. The extended total length is 996 kilometers until 2019. Many aged workers are currently working at subway construction sites due to the avoidance of young workers since the past until now. It means that the elderly has a substantial portion among subway construction workers. The productivity has been adversely affected by health problems due to the aging of workers, job stress due to heavy work, and personal health problems. So, the regulation and policies on job stress health management are being strengthened. The data were measured Macpa stress by machine measuring heart rate variability and conducted Korean job stress survey(shortened) from Sa-sang to Ha-dan line Busan subway construction workers for analyzing the relationship. Independent variable were age, job duration, job position, employment type, working type in this study. Macpa's dependent variable was stress index and Korean job stress survey(shortened)'s dependent variables were job requirements, job autonomy, relationship conflict, job instability, organizational structure, inappropriate compensation, working place culture, and total score. SPSS 12.0 K Statistics Program was used for statistical analysis. Kruskal-wallis test, a nonparametric statistical analysis, was used because the data are difficult to be assumed as normal distribution. As a result, the paper indicated the significant correlation between Macpa stress index and Korean job stress(short version). The elderly workers presented higher Macpa index and higher job stress due to aging and heavy-duty work. The majority workers were daily workers who had unstable working condition and uncertainty about the future. The study suggested a manual that could reduce job stress for subway construction workers and future study deriving management tool through analyzing job stress factor is necessary.
Journal of the Korea Society of Computer and Information
/
v.27
no.8
/
pp.241-251
/
2022
Diagnosis and management of customer's skin condition is an important essential function in the cosmetics and beauty industry. As the social media environment spreads and generalizes to all fields of society, the interaction of questions and answers to various and delicate concerns and requirements regarding the diagnosis and management of skin conditions is being actively dealt with in the social media community. However, since social media information is very diverse and atypical big data, an intelligent skin condition diagnosis system that combines appropriate skin condition information analysis and artificial intelligence technology is necessary. In this paper, we developed the skin condition diagnosis system SCDIS to intelligently diagnose and manage the skin condition of customers by processing the text analysis information of social media into learning data. In SCDIS, an artificial neural network model, AnnTFIDF, that automatically diagnoses skin condition types using artificial neural network technology, a deep learning machine learning method, was built up and used. The performance of the artificial neural network model AnnTFIDF was analyzed using test sample data, and the accuracy of the skin condition type diagnosis prediction value showed a high performance of about 95%. Through the experimental and performance analysis results of this paper, SCDIS can be evaluated as an intelligent tool that can be used efficiently in the skin condition analysis and diagnosis management process in the cosmetic and beauty industry. And this study can be used as a basic research to solve the new technology trend, customized cosmetics manufacturing and consumer-oriented beauty industry technology demand.
Proceedings of the Korea Water Resources Association Conference
/
2021.06a
/
pp.448-448
/
2021
최근 급격한 기후변화와 도시화 및 산업화로 인한 지류하천에서의 수량과 수질의 변동은 생물 다양성 감소와 수생태계 건강성 저하에 큰 영향을 미치고 있다. 효율적인 수생태 관리를 위해서는 지속적인 유량, 수질, 그리고 수생태 모니터링을 통한 데이터 축적과 더불어 면밀한 상관 분석을 통해 수생태계 건강성의 악화 원인을 규명해야 할 필요가 있다. 그러나 수많은 지류하천을 대상으로 한 지속적인 모니터링은 현실적으로 어려움이 있으며, 수생태계의 특성 상 단일 영향 인자만으로 수생태계의 건강성 변화와의 관계를 정확히 파악하는데 한계가 있다. 따라서 지류하천에서의 유량 및 수질의 시공간적인 변동성과 다양한 영향 인자를 고려하여 수생태계의 건강성을 효율적으로 예측할 수 있는 기술이 필요하다. 이에 본 연구에서는 경험적 데이터 기반의 머신러닝 모델 구축을 통해 미계측 하천에서의 수생태계 건강성 지수(BMI, TDI, FAI)의 등급(A to E)을 예측하고자 하였다. 머신러닝 모델은 학습 데이터셋의 양과 질에 따라 성능이 크게 달라질 수 있으며, 학습 데이터셋의 분포가 불균형적일 경우 과적합 또는 과소적합 문제가 발생할 수 있다. 이를 보완하고자 본 연구에서는 실제 측정망 데이터셋을 바탕으로 생성적 적대 신경망 GAN(Generative Adversarial Network) 알고리즘을 통해 머신러닝 모델 학습에 필요한 추가 데이터셋(유량, 수질, 기상, 수생태 등급)을 확보하였다. 머신러닝 모델의 성능은 5차 교차검증 과정을 통해 평가하였으며, GAN 데이터셋의 정확도는 실제 측정망 데이터셋의 정규분포와의 비교 분석을 통해 평가하였다. 최종적으로 SWAT(Soil and Water Assessment Tool) 모형을 통해 예측 된 미계측 하천에서의 데이터셋을 머신러닝 모델의 검증 자료로 사용하여 수생태계 건강성 등급 예측 정확도를 평가하였다. 본 연구에서의 GAN에 의해 강화된 머신러닝 모델은 수질 및 수생태 관리가 필요한 우심 지류하천 선정과 구조적/비구조적 최적관리기법에 따른 수생태계 건강성 개선 효과를 평가하는데 활용될 수 있을 것이다. 또한 이를 통해 예측된 미계측 하천에서의 수생태계 건강성 등급 자료는 수량-수질-수생태를 유기적으로 연계한 통합 물관리 정책을 수립하는데 기초자료로 활용될 수 있을 것이라 사료된다.
The Journal of the Convergence on Culture Technology
/
v.9
no.3
/
pp.407-413
/
2023
The purpose of this study is to provide basic information about various methods to easily affix unique embroidery effects to clothes due to the current expansion of digital fashion technology. A comparison of design techniques using virtual and real clothing was used to show the visual expression of embroidery designs. Actual embroidery motifs were created using a computer embroidery machine, DTP embroidery motifs were made by utilizing digitalization techniques, and digital motifs were produced. Then patch pocket type T-shirts were produced using each embroidery technique to compare the visual expression effects on clothing. The results of this comparison are as follows: for real clothing color (3.5), texture (4.0), gloss (3.8), and thickness (3.5). It was found that the color and thickness of the embroidery floss was visually sufficiently show the design texture and gloss. In terms of the embroidery design on virtual garments, the resutls of color (3.8), texture (4.3), gloss (3.9), and thickness (3.6) showed a high degree of similarity to the non-virtual results, confirming that digitized embroidery motifs are also a tool that can fully realize unique embroidery effect.
In recent years, ransomware attacks have become more organized and specialized, with the sophistication of attacks targeting specific individuals or organizations using tactics such as social engineering, spear phishing, and even machine learning, some operating as business models. In order to effectively respond to this, various researches and solutions are being developed and operated to detect and prevent attacks before they cause serious damage. In particular, honeypots can be used to minimize the risk of attack on IT systems and networks, as well as act as an early warning and advanced security monitoring tool, but in cases where ransomware does not have priority access to the decoy file, or bypasses it completely. has a disadvantage that effective ransomware response is limited. In this paper, this honeypot is optimized for the user environment to create a reliable real-time dynamic honeypot file, minimizing the possibility of an attacker bypassing the honeypot, and increasing the detection rate by preventing the attacker from recognizing that it is a honeypot file. To this end, four models, including a basic data collection model for dynamic honeypot generation, were designed (basic data collection model / user-defined model / sample statistical model / experience accumulation model), and their validity was verified.
Through artificial neural network education using spreadsheets, non-major undergraduate students can understand the operation principle of artificial neural networks and develop their own artificial neural network software. Here, training of the operation principle of artificial neural networks starts with the generation of training data and the assignment of correct answer labels. Then, the output value calculated from the firing and activation function of the artificial neuron, the parameters of the input layer, hidden layer, and output layer is learned. Finally, learning the process of calculating the error between the correct label of each initially defined training data and the output value calculated by the artificial neural network, and learning the process of calculating the parameters of the input layer, hidden layer, and output layer that minimize the total sum of squared errors. Training on the operation principles of artificial neural networks using a spreadsheet was conducted for undergraduate non-major students. And image training data and basic artificial neural network development results were collected. In this paper, we analyzed the results of collecting two types of training data and the corresponding artificial neural network SW with small 12-pixel images, and presented methods and execution results of using the collected training data for Orange machine learning model learning and analysis tools.
본 웹사이트에 게시된 이메일 주소가 전자우편 수집 프로그램이나
그 밖의 기술적 장치를 이용하여 무단으로 수집되는 것을 거부하며,
이를 위반시 정보통신망법에 의해 형사 처벌됨을 유념하시기 바랍니다.
[게시일 2004년 10월 1일]
이용약관
제 1 장 총칙
제 1 조 (목적)
이 이용약관은 KoreaScience 홈페이지(이하 “당 사이트”)에서 제공하는 인터넷 서비스(이하 '서비스')의 가입조건 및 이용에 관한 제반 사항과 기타 필요한 사항을 구체적으로 규정함을 목적으로 합니다.
제 2 조 (용어의 정의)
① "이용자"라 함은 당 사이트에 접속하여 이 약관에 따라 당 사이트가 제공하는 서비스를 받는 회원 및 비회원을
말합니다.
② "회원"이라 함은 서비스를 이용하기 위하여 당 사이트에 개인정보를 제공하여 아이디(ID)와 비밀번호를 부여
받은 자를 말합니다.
③ "회원 아이디(ID)"라 함은 회원의 식별 및 서비스 이용을 위하여 자신이 선정한 문자 및 숫자의 조합을
말합니다.
④ "비밀번호(패스워드)"라 함은 회원이 자신의 비밀보호를 위하여 선정한 문자 및 숫자의 조합을 말합니다.
제 3 조 (이용약관의 효력 및 변경)
① 이 약관은 당 사이트에 게시하거나 기타의 방법으로 회원에게 공지함으로써 효력이 발생합니다.
② 당 사이트는 이 약관을 개정할 경우에 적용일자 및 개정사유를 명시하여 현행 약관과 함께 당 사이트의
초기화면에 그 적용일자 7일 이전부터 적용일자 전일까지 공지합니다. 다만, 회원에게 불리하게 약관내용을
변경하는 경우에는 최소한 30일 이상의 사전 유예기간을 두고 공지합니다. 이 경우 당 사이트는 개정 전
내용과 개정 후 내용을 명확하게 비교하여 이용자가 알기 쉽도록 표시합니다.
제 4 조(약관 외 준칙)
① 이 약관은 당 사이트가 제공하는 서비스에 관한 이용안내와 함께 적용됩니다.
② 이 약관에 명시되지 아니한 사항은 관계법령의 규정이 적용됩니다.
제 2 장 이용계약의 체결
제 5 조 (이용계약의 성립 등)
① 이용계약은 이용고객이 당 사이트가 정한 약관에 「동의합니다」를 선택하고, 당 사이트가 정한
온라인신청양식을 작성하여 서비스 이용을 신청한 후, 당 사이트가 이를 승낙함으로써 성립합니다.
② 제1항의 승낙은 당 사이트가 제공하는 과학기술정보검색, 맞춤정보, 서지정보 등 다른 서비스의 이용승낙을
포함합니다.
제 6 조 (회원가입)
서비스를 이용하고자 하는 고객은 당 사이트에서 정한 회원가입양식에 개인정보를 기재하여 가입을 하여야 합니다.
제 7 조 (개인정보의 보호 및 사용)
당 사이트는 관계법령이 정하는 바에 따라 회원 등록정보를 포함한 회원의 개인정보를 보호하기 위해 노력합니다. 회원 개인정보의 보호 및 사용에 대해서는 관련법령 및 당 사이트의 개인정보 보호정책이 적용됩니다.
제 8 조 (이용 신청의 승낙과 제한)
① 당 사이트는 제6조의 규정에 의한 이용신청고객에 대하여 서비스 이용을 승낙합니다.
② 당 사이트는 아래사항에 해당하는 경우에 대해서 승낙하지 아니 합니다.
- 이용계약 신청서의 내용을 허위로 기재한 경우
- 기타 규정한 제반사항을 위반하며 신청하는 경우
제 9 조 (회원 ID 부여 및 변경 등)
① 당 사이트는 이용고객에 대하여 약관에 정하는 바에 따라 자신이 선정한 회원 ID를 부여합니다.
② 회원 ID는 원칙적으로 변경이 불가하며 부득이한 사유로 인하여 변경 하고자 하는 경우에는 해당 ID를
해지하고 재가입해야 합니다.
③ 기타 회원 개인정보 관리 및 변경 등에 관한 사항은 서비스별 안내에 정하는 바에 의합니다.
제 3 장 계약 당사자의 의무
제 10 조 (KISTI의 의무)
① 당 사이트는 이용고객이 희망한 서비스 제공 개시일에 특별한 사정이 없는 한 서비스를 이용할 수 있도록
하여야 합니다.
② 당 사이트는 개인정보 보호를 위해 보안시스템을 구축하며 개인정보 보호정책을 공시하고 준수합니다.
③ 당 사이트는 회원으로부터 제기되는 의견이나 불만이 정당하다고 객관적으로 인정될 경우에는 적절한 절차를
거쳐 즉시 처리하여야 합니다. 다만, 즉시 처리가 곤란한 경우는 회원에게 그 사유와 처리일정을 통보하여야
합니다.
제 11 조 (회원의 의무)
① 이용자는 회원가입 신청 또는 회원정보 변경 시 실명으로 모든 사항을 사실에 근거하여 작성하여야 하며,
허위 또는 타인의 정보를 등록할 경우 일체의 권리를 주장할 수 없습니다.
② 당 사이트가 관계법령 및 개인정보 보호정책에 의거하여 그 책임을 지는 경우를 제외하고 회원에게 부여된
ID의 비밀번호 관리소홀, 부정사용에 의하여 발생하는 모든 결과에 대한 책임은 회원에게 있습니다.
③ 회원은 당 사이트 및 제 3자의 지적 재산권을 침해해서는 안 됩니다.
제 4 장 서비스의 이용
제 12 조 (서비스 이용 시간)
① 서비스 이용은 당 사이트의 업무상 또는 기술상 특별한 지장이 없는 한 연중무휴, 1일 24시간 운영을
원칙으로 합니다. 단, 당 사이트는 시스템 정기점검, 증설 및 교체를 위해 당 사이트가 정한 날이나 시간에
서비스를 일시 중단할 수 있으며, 예정되어 있는 작업으로 인한 서비스 일시중단은 당 사이트 홈페이지를
통해 사전에 공지합니다.
② 당 사이트는 서비스를 특정범위로 분할하여 각 범위별로 이용가능시간을 별도로 지정할 수 있습니다. 다만
이 경우 그 내용을 공지합니다.
제 13 조 (홈페이지 저작권)
① NDSL에서 제공하는 모든 저작물의 저작권은 원저작자에게 있으며, KISTI는 복제/배포/전송권을 확보하고
있습니다.
② NDSL에서 제공하는 콘텐츠를 상업적 및 기타 영리목적으로 복제/배포/전송할 경우 사전에 KISTI의 허락을
받아야 합니다.
③ NDSL에서 제공하는 콘텐츠를 보도, 비평, 교육, 연구 등을 위하여 정당한 범위 안에서 공정한 관행에
합치되게 인용할 수 있습니다.
④ NDSL에서 제공하는 콘텐츠를 무단 복제, 전송, 배포 기타 저작권법에 위반되는 방법으로 이용할 경우
저작권법 제136조에 따라 5년 이하의 징역 또는 5천만 원 이하의 벌금에 처해질 수 있습니다.
제 14 조 (유료서비스)
① 당 사이트 및 협력기관이 정한 유료서비스(원문복사 등)는 별도로 정해진 바에 따르며, 변경사항은 시행 전에
당 사이트 홈페이지를 통하여 회원에게 공지합니다.
② 유료서비스를 이용하려는 회원은 정해진 요금체계에 따라 요금을 납부해야 합니다.
제 5 장 계약 해지 및 이용 제한
제 15 조 (계약 해지)
회원이 이용계약을 해지하고자 하는 때에는 [가입해지] 메뉴를 이용해 직접 해지해야 합니다.
제 16 조 (서비스 이용제한)
① 당 사이트는 회원이 서비스 이용내용에 있어서 본 약관 제 11조 내용을 위반하거나, 다음 각 호에 해당하는
경우 서비스 이용을 제한할 수 있습니다.
- 2년 이상 서비스를 이용한 적이 없는 경우
- 기타 정상적인 서비스 운영에 방해가 될 경우
② 상기 이용제한 규정에 따라 서비스를 이용하는 회원에게 서비스 이용에 대하여 별도 공지 없이 서비스 이용의
일시정지, 이용계약 해지 할 수 있습니다.
제 17 조 (전자우편주소 수집 금지)
회원은 전자우편주소 추출기 등을 이용하여 전자우편주소를 수집 또는 제3자에게 제공할 수 없습니다.
제 6 장 손해배상 및 기타사항
제 18 조 (손해배상)
당 사이트는 무료로 제공되는 서비스와 관련하여 회원에게 어떠한 손해가 발생하더라도 당 사이트가 고의 또는 과실로 인한 손해발생을 제외하고는 이에 대하여 책임을 부담하지 아니합니다.
제 19 조 (관할 법원)
서비스 이용으로 발생한 분쟁에 대해 소송이 제기되는 경우 민사 소송법상의 관할 법원에 제기합니다.
[부 칙]
1. (시행일) 이 약관은 2016년 9월 5일부터 적용되며, 종전 약관은 본 약관으로 대체되며, 개정된 약관의 적용일 이전 가입자도 개정된 약관의 적용을 받습니다.