• 제목/요약/키워드: critical experiment

검색결과 943건 처리시간 0.019초

EPC 프로젝트의 위험 관리를 위한 ITB 문서 조항 분류 모델 연구: 딥러닝 기반 PLM 앙상블 기법 활용 (Research on ITB Contract Terms Classification Model for Risk Management in EPC Projects: Deep Learning-Based PLM Ensemble Techniques)

  • 이현상;이원석;조보근;이희준;오상진;유상우;남마루;이현식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권11호
    • /
    • pp.471-480
    • /
    • 2023
  • 국내 건설수주 규모는 2013년 91.3조원에서 2021년 총 212조원으로 특히 민간부문에서 크게 성장하였다. 국내외 시장 규모가 성장하면서, EPC(Engineering, Procurement, Construction) 프로젝트의 규모와 복잡성이 더욱 증가되고, 이에 프로젝트 관리 및 ITB(Invitation to Bid) 문서의 위험 관리가 중요한 이슈가 되고 있다. EPC 프로젝트 발주 이후 입찰 절차에서 실제 건설 회사에게 부여되는 대응 시간은 한정적일 뿐만 아니라, 인력 및 비용의 문제로 ITB 문서 계약 조항의 모든 리스크를 검토하는데 매우 어려움이 있다. 기존 연구에서는 이와 같은 문제를 해결하고자 EPC 계약 문서의 위험 조항을 범주화하고, 이를 AI 기반으로 탐지하려는 시도가 있었으나, 이는 레이블링 데이터 활용의 한계와 클래스 불균형과 같은 데이터 측면의 문제로 실무에서 활용할 수 있는 수준의 지원 시스템으로 활용하기 어려운 상황이다. 따라서 본 연구는 기존 연구와 같이 위험 조항 자체를 정의하고 분류하는 것이 아니라, FIDIC Yellow 2017(국제 컨설팅엔지니어링 연맹 표준 계약 조건) 기준 계약 조항을 세부적으로 분류할 수 있는 AI 모델을 개발하고자 한다. 프로젝트의 규모, 유형에 따라서 세부적으로 검토해야 하는 계약 조항이 다를 수 있기 때문에 이와 같은 다중 텍스트 분류 기능이 필요하다. 본 연구는 다중 텍스트 분류 모델의 성능 고도화를 위해서 최근 텍스트 데이터의 컨텍스트를 효율적으로 학습할 수 있는 ELECTRA PLM(Pre-trained Language Model)을 사전학습 단계부터 개발하고, 해당 모델의 성능을 검증하기 위해서 총 4단계 실험을 진행했다. 실험 결과, 자체 개발한 ITB-ELECTRA 모델 및 Legal-BERT의 앙상블 버전이 57개 계약 조항 분류에서 가중 평균 F1-Score 기준 76%로 가장 우수한 성능을 달성했다.

시맨틱 웹 자원의 랭킹을 위한 알고리즘: 클래스중심 접근방법 (A Ranking Algorithm for Semantic Web Resources: A Class-oriented Approach)

  • 노상규;박현정;박진수
    • Asia pacific journal of information systems
    • /
    • 제17권4호
    • /
    • pp.31-59
    • /
    • 2007
  • We frequently use search engines to find relevant information in the Web but still end up with too much information. In order to solve this problem of information overload, ranking algorithms have been applied to various domains. As more information will be available in the future, effectively and efficiently ranking search results will become more critical. In this paper, we propose a ranking algorithm for the Semantic Web resources, specifically RDF resources. Traditionally, the importance of a particular Web page is estimated based on the number of key words found in the page, which is subject to manipulation. In contrast, link analysis methods such as Google's PageRank capitalize on the information which is inherent in the link structure of the Web graph. PageRank considers a certain page highly important if it is referred to by many other pages. The degree of the importance also increases if the importance of the referring pages is high. Kleinberg's algorithm is another link-structure based ranking algorithm for Web pages. Unlike PageRank, Kleinberg's algorithm utilizes two kinds of scores: the authority score and the hub score. If a page has a high authority score, it is an authority on a given topic and many pages refer to it. A page with a high hub score links to many authoritative pages. As mentioned above, the link-structure based ranking method has been playing an essential role in World Wide Web(WWW), and nowadays, many people recognize the effectiveness and efficiency of it. On the other hand, as Resource Description Framework(RDF) data model forms the foundation of the Semantic Web, any information in the Semantic Web can be expressed with RDF graph, making the ranking algorithm for RDF knowledge bases greatly important. The RDF graph consists of nodes and directional links similar to the Web graph. As a result, the link-structure based ranking method seems to be highly applicable to ranking the Semantic Web resources. However, the information space of the Semantic Web is more complex than that of WWW. For instance, WWW can be considered as one huge class, i.e., a collection of Web pages, which has only a recursive property, i.e., a 'refers to' property corresponding to the hyperlinks. However, the Semantic Web encompasses various kinds of classes and properties, and consequently, ranking methods used in WWW should be modified to reflect the complexity of the information space in the Semantic Web. Previous research addressed the ranking problem of query results retrieved from RDF knowledge bases. Mukherjea and Bamba modified Kleinberg's algorithm in order to apply their algorithm to rank the Semantic Web resources. They defined the objectivity score and the subjectivity score of a resource, which correspond to the authority score and the hub score of Kleinberg's, respectively. They concentrated on the diversity of properties and introduced property weights to control the influence of a resource on another resource depending on the characteristic of the property linking the two resources. A node with a high objectivity score becomes the object of many RDF triples, and a node with a high subjectivity score becomes the subject of many RDF triples. They developed several kinds of Semantic Web systems in order to validate their technique and showed some experimental results verifying the applicability of their method to the Semantic Web. Despite their efforts, however, there remained some limitations which they reported in their paper. First, their algorithm is useful only when a Semantic Web system represents most of the knowledge pertaining to a certain domain. In other words, the ratio of links to nodes should be high, or overall resources should be described in detail, to a certain degree for their algorithm to properly work. Second, a Tightly-Knit Community(TKC) effect, the phenomenon that pages which are less important but yet densely connected have higher scores than the ones that are more important but sparsely connected, remains as problematic. Third, a resource may have a high score, not because it is actually important, but simply because it is very common and as a consequence it has many links pointing to it. In this paper, we examine such ranking problems from a novel perspective and propose a new algorithm which can solve the problems under the previous studies. Our proposed method is based on a class-oriented approach. In contrast to the predicate-oriented approach entertained by the previous research, a user, under our approach, determines the weights of a property by comparing its relative significance to the other properties when evaluating the importance of resources in a specific class. This approach stems from the idea that most queries are supposed to find resources belonging to the same class in the Semantic Web, which consists of many heterogeneous classes in RDF Schema. This approach closely reflects the way that people, in the real world, evaluate something, and will turn out to be superior to the predicate-oriented approach for the Semantic Web. Our proposed algorithm can resolve the TKC(Tightly Knit Community) effect, and further can shed lights on other limitations posed by the previous research. In addition, we propose two ways to incorporate data-type properties which have not been employed even in the case when they have some significance on the resource importance. We designed an experiment to show the effectiveness of our proposed algorithm and the validity of ranking results, which was not tried ever in previous research. We also conducted a comprehensive mathematical analysis, which was overlooked in previous research. The mathematical analysis enabled us to simplify the calculation procedure. Finally, we summarize our experimental results and discuss further research issues.

대나무류(類)의 유관속초(維管束鞘)에 의(依)한 형태학적(形態學的) 연구(硏究) (A Morphological Study of Bamboos by Vascular Bundle Sheath)

  • 김재생
    • 한국산림과학회지
    • /
    • 제25권1호
    • /
    • pp.13-47
    • /
    • 1975
  • 대나무류(類)는 열대방지(熱帶方地)에서 총생(叢生)하는 대형(大型)의 대나무가 많고, 온대(溫帶)가 되면 소형(小型)의 세류(笹類)로 퇴화(退化)하여, 그 종류(種類)는 세계(世界)에 50속(屬) 1,000여종(餘種)이나 있다고하여 그 종류수(種類數)는 대단(大端)히 많다. 이와 같은 대나무는 동양(東洋)에서는 건엽용(建葉用)과 공예용(工藝用)으로 이용(利用)되고있으며, 또한 죽순(竹筍)은 식용(食用)으로서 특유(特有)한 맛이있어 상용(賞用)되고있을 뿐만아니라 최근(最近)에는 세류(笹類)의 액즙(液汁)이 암(癌)에도 효과(効果)가 있다고 하여 중요(重要)한 산업(産業)으로서 발달(發達)하게되었다. 그리고 동남아(東南亞)에서는 삽목(揷木)으로서 용이(容易)하게 증산(增産)하여 pulp재(材)로 사용(使用)하게되여 대단(大端)히 중요시(重要視)하고있다. 이와같이 대나무는 인류생활(人類生活)에 필요부가결(必要不可決)한 목본식물(木本植物)이지만 아직까지 그 형태(形態)의 분류(分類)가 명확(明確)하게 되어 있지 않고 지연되여 있는 형편이다. 18세기(世紀) 중반기(中半期)의 Linne시대(時代)에 들어와서 생식기관(生殖器管)을 주체(主體)로 한 그 형태(形態)의 분류체계(分類體系)가 만들어진 이래(以來) 수정(修正)이 거듭되여온 바 있으나 대나무는 개화(開花)가 일정(一定)한 주기(周期)가 있어서 60-120년(年)의 기나긴 세월(歲月)이 소요(所要)되기 때문에 그의 형태적(形態的) 분류체계(分類體系)를 완성(完成)하는일은 극(極)히 어려운 일이었다. 오늘날까지 대나무에 관(關)한 많은 문헌(文獻)이 있기는 하나 그 시료(試料)가 적기때문에 불확실(不確實)한 기재(記載)도 많이있었고 속(屬)이 변경(變更)된것도 간혹(間或)있어서 그것을 공인(公認)할수 없는 것이 많이 있다. 그래서 내부(內部)의 형태적(形態的)인 분류(分類)에 관(關)하여는 근년(近年)에 이르러 중국(中國)의 Liese씨(氏)에 의(依)하여 겨우 시작(始作)이 되였으며, 또한 독일(獨逸)의 Grosser씨등(氏等)이 유관속(維管束)의 형태(形態)에 착안(着眼)하여 새로운 형태(形態)의 분류(分類)를 시도(試圖)한바있다. 그러나 이들의 이 형태(形態)에 관한 분류(分類)는 Holttum의 자방(子房)의 형태(形態)에 의(依)한 분류(分類)와 밀접(密接)한 관계(關係)가 있는것 뿐이었다. 따라서 필자(筆者)는 유관속초(維管束鞘)의 형태(形態)에 의(依)해 자유중국산(自由中國産)의 대나무 11속(屬) 26종류(種類)를 재료(材料)로하여 대나무의 형태(形態)에 관(關)한 분류체계(分類體系)에 대(對)하여 재고(再考)를 시도(試圖)하여 보았다. 그 결과(結果) Grosser씨(氏) 등(等)의 형태(形態)의 분류(分類)와 일부(一部)는 일치(一致)하였으나, Bambusa와 Dendrocalamus는 분류(分類)하기가 곤란(困難)하였던 것을 고립유관속초(孤立維管束鞘)의 존부(存否)로서 명확(明確)히 구별(區別)할수있었고 또한 종류(種類)가 많은 Bambusa를 2개(個)의 형(型)으로 나눌수가 있었다. 따라서 이 결과(結果)는 앞으로 아속(亞屬)이나 혹(或)은 절(節)로서의 분류(分類)로서 고려(考慮)되여야 할 문제(問題)라고 생각한다. 왜냐하면 이 근거(根據)는, 죽간(竹稈)의 최외층(最外層)에서 최내층(最內層)으로 향(向)하여 변화(變化)하고있는 형태(形態)에 착안(着眼)하여, 그 분화적(分化的)인 면(面)을 관찰(觀察)하였기 때문이다. 이 형태적(形態的)인 분화(分化)에 관(關)한 관찰(觀察)은 형태분류(形態分類)의 철칙(鐵則)인 "간단(簡單)한 것에서 복잡(複雜)한 것으로 진화(進化)한다"라고하는 철칙(鐵則)에 있어서도 충분(充分)히 조사(調査)하여 보았는데, 그 결과(結果)는 생식기관(生殖器官)의 형태적분류(形態的分類)와 대조(對照)하여 결정(決定)되어야 할 것이며, 금후(今後)의 문제(問題)로서 계속연구(繼續硏究)할까 생각한다.

  • PDF