Modified host cells for high efficiency production of vanillin

Abstract

Provided herein are genetically modified host cells, compositions, and methods for improved production of vanillin and/or glucovanillin. The host cells, compositions, and methods described herein provide an efficient route for the heterologous production of vanillin and/or glucovanillin and any compound that can be synthesized or biosynthesized from either or both.

Claims

1. A genetically modified yeast host cell capable of producing vanillin or glucovanillin comprising: (a) one or more nucleic acids comprising nucleic acids capable of overexpressing SHM2, SAH1, MET6, and MET13; or SHM2, SAH1, MET6, and a chimeric MET13; and (b) deletion of ADH6.

2. The genetically modified host cell of claim 1, wherein the one or more nucleic acids further comprise nucleic acids capable of overexpressing SAM1.

3. The genetically modified host cell of claim 2, wherein SAM1 encodes an amino acid sequence at least 80, 85, 90, 95, 99, or 100% identical to the Sam1 amino acid sequence encoded by nucleotides 7394-6051 of SEQ ID NO:8.

4. The genetically modified host cell of claim 1, wherein the one or more nucleic acids further comprise nucleic acids capable of overexpressing SAM2.

5. The genetically modified host cell of claim 4, wherein SAM2 encodes an amino acid sequence at least 80, 85, 90, 95, 99, or 100% identical to the Sam2 amino acid sequence encoded by nucleotides 8087-9440 of SEQ ID NO:8.

6. The genetically modified host cell of claim 1, wherein the one or more nucleic acids further comprise nucleic acids capable of overexpressing SAM1 and SAM2.

7. The genetically modified host cell of claim 1 that is capable of overexpressing SHM2, SAH1, MET6 under one or more inducible promoters.

8. The genetically modified host cell of claim 1, wherein the one or more nucleic acids further comprise nucleic acids capable of overexpressing MET12.

9. The genetically modified host cell of claim 1, wherein the chimeric MET13 comprises a S. cerevisiae MET13 N-terminal domain and an Arabadopsis MTHFR C-terminal domain.

10. The genetically modified host cell of claim 1, wherein the nucleic acids capable of overexpressing MET6 comprise two copies of MET6.

11. The genetically modified host cell of claim 1, wherein the one or more nucleic acids further comprise nucleic acids capable of overexpressing MET12; and wherein the one or more nucleic acids capable of overexpressing MET6 comprise two or more copies of MET6.

12. The genetically modified host cell of claim 11 wherein MET12 and the two or more copies of MET6 are overexpressed under one inducible promoter.

13. The genetically modified host cell of claim 12 wherein, SAM1 and SAM2 are overexpressed under one inducible promoter.

14. The genetically modified host cell of claim 1 wherein, SHM2, SAH1, MET6, and MET13 or chimeric MET13 are overexpressed under one or more inducible promoters.

15. The genetically modified host cell of claim 1 wherein, SHM2, SAH1, MET6, and MET13 or chimeric MET13 are overexpressed under one inducible promoter.

16. The genetically modified host cell of claim 1 further comprising deletion of GRE2.

17. The genetically modified host cell of claim 1 further comprising deletion of YGL039W.

18. The genetically modified host cell of claim 1 further comprising one or more nucleic acids expressing AroB, AroD, and AroZ.

19. The genetically modified host cell of claim 18, wherein the AroB gene product comprises an amino acid sequence at least 80, 85, 90, 95, 99, or 100% identical to the AroB amino acid sequence encoded by nucleotides 5596-6684 of SEQ ID NO:5, nucleotides 2930-4143 of SEQ ID NO:11, or nucleotides 2906-4119 of SEQ ID NO:17.

20. The genetically modified host cell of claim 18, wherein the AroD gene product comprises an amino acid sequence at least 80, 85, 90, 95, 99, or 100% identical to the AroD amino acid sequence encoded by nucleotides 7951-7193 of SEQ ID NO:5, nucleotides 5775-4892 of SEQ ID NO:11, or nucleotides 5751-4868 of SEQ ID NO:17.

21. The genetically modified host cell of claim 18, wherein the AroZ gene product comprises an amino acid sequence at least 80, 85, 90, 95, 99, or 100% identical to the AroZ amino acid sequence encoded by nucleotides 1134-2237 of SEQ ID NO:5, nucleotides 1095-2323 of SEQ ID NO:11, or nucleotides 1780-55218.

22. The genetically modified host cell of claim 1 further comprising one or more nucleic acids expressing AroB, AroD, AroF, and AroZ.

23. The genetically modified host cell of claim 22, wherein the AroF gene product comprises an amino acid sequence at least 80, 85, 90, 95, 99, or 100% identical to the AroF amino acid sequence encoded by nucleotides 3761-2961 of SEQ ID NO:5, nucleotides 7577-6382 of SEQ ID NO:11, or nucleotides 6877-8072 of SEQ ID NO:17.

24. The genetically modified host cell of claim 1 further comprising one or more nucleic acids expressing E. coli AroB, E. coli AroD, E. coli AroF, and Podospora pauciseta AroZ.

25. The genetically modified host cell of claim 1 further comprising one or more nucleic acids expressing PPTASE and ACAR.

26. The genetically modified host cell of claim 25, wherein the PPTASE gene product comprises an amino acid sequence at least 80, 85, 90, 95, 99, or 100% identical to the PPTASE amino acid sequence encoded by nucleotides 1618-825 of SEQ ID NO: 6, nucleotides 7070-5883 of SEQ ID NO: 14, or nucleotides 5883-7070 of SEQ ID NO: 19.

27. The genetically modified host cell of claim 1 further comprising one or more nucleic acids expressing UDP-glycosyltransferase (UGT).

28. The genetically modified host cell of claim 27, wherein the UGT gene product comprises an amino acid sequence at least 80, 85, 90, 95, 99, or 100% identical to the UGT amino acid sequence encoded by nucleotides 2214-769 and 2907-4352 of SEQ ID NO:10.

29. The genetically modified host cell of claim 1 further comprising one or more nucleic acids expressing Arabidopsis thaliana UGT.

30. The genetically modified host cell of claim 1, wherein SHM2, SAH1, MET6, and MET13 or the chimeric MET13 are each expressed from a GAL promoter, and wherein a GAL80 gene is expressed from a MAL promoter.

31. The genetically modified host cell of claim 1, wherein the yeast host cell is Saccharomyces cerevisiae.

32. The genetically modified host cell of claim 1, wherein SAH1 encodes an amino acid sequence at least 80, 85, 90, 95, 99, or 100% identical to the Sah1 amino acid sequence encoded by nucleotides 2094-554 of SEQ ID NO:8.

33. The genetically modified host cell of claim 1, wherein MET6 encodes an amino acid sequence at least 80, 85, 90, 95, 99, or 100% identical to the Met6 amino acid sequence encoded by nucleotides 2787-5302 of SEQ ID NO:8 or nucleotides 3249-5764 of SEQ ID NO:14.

34. The genetically modified host cell of claim 1, wherein SHM2 encodes an amino acid sequence at least 80, 85, 90, 95, 99, or 100% identical to the Shm2 amino acid sequence encoded by nucleotides 9381-10975 of SEQ ID NO:14.

35. The genetically modified host cell of claim 1, wherein MET12 encodes an amino acid sequence at least 80, 85, 90, 95, 99, or 100% identical to the Met12 amino acid sequence encoded by nucleotides 8688-6513 of SEQ ID NO:14.

36. The genetically modified host cell of claim 1, wherein MET13 encodes an amino acid sequence at least 80, 85, 90, 95, 99, or 100% identical to the Met13 amino acid sequence encoded by nucleotides 2556-554 of SEQ ID NO: 14, and the chimeric MET13 encodes an amino acid sequence at least 80, 85, 90, 95, 99, or 100% identical to the chimeric Met13 amino acid sequence encoded by nucleotides 554-2338 of SEQ ID NO:23.

37. The genetically modified host cell of claim 1 that produces at least a 5, 10, 15, or 20% increase in peak cumulative yield or productivity, or both, compared to a parent strain.

38. The genetically modified host cell of claim 37 that produces up to 7% increase in peak cumulative yield and up to 17% productivity, compared to a parent strain.

39. A method for producing vanillin or one or more glucovanillins comprising the steps: (a) culturing a population of the host cells of claim 1 in a medium with a carbon source under conditions suitable for making vanillin or one or more glucovanillins to yield a culture broth; and (b) recovering said vanillin or one or more glucovanillins from the culture broth.

Description

BRIEF DESCRIPTION OF THE FIGURES

(1) FIG. 1 is a schematic showing an enzymatic pathway from a native yeast whereby SAH is recycled back to SAM which is used as a co-substrate for the methylation reaction catalyzed by OMT.

(2) FIG. 2 is a schematic showing an enzymatic pathway from a native yeast whereby Shm2 and Met12/Met13 catalyze the transfer of a C.sub.1 unit to tetrahydrofolate (THF) and subsequent reduction to 5-methyltetrahydrofolate, which in turn acts as a methyl donor in a Met6 reaction that regenerates methionine from homocysteine.

(3) FIG. 3 provides cumulative yield (weight %; vanillin+vanillyl alcohol) and cumulative productivity (g/L/h; vanillin plus vanillyl alcohol) for a 5 day fermentation using the vanillin producing strain Y41906 and an improved derivative Y42688. Cumulative indicates the value for the interval from time zero to the indicated time.

(4) FIG. 4 provides cumulative yield (weight %) and productivity (g/L/h) for vanillin for a 5 day fermentation of glucovanillin producing strain Y48967 and an improved derivative Y48969. Cumulative indicates the value for the interval from time zero to the indicated time.

(5) FIG. 5 provides cumulative yield (weight %) and productivity (g/L/h) for vanillin producing strain Y57481 and an improved derivative Y57482. Cumulative indicates the value for the interval from time zero to the indicated time.

(6) FIG. 6 provides titers (g/L) of vanillin and degradation products vanillyl alcohol and vanillic acid in liquid medium with a starting concentration of 1 g/L vanillin incubated for 24 hours for the strain modifications indicated.

(7) FIG. 7 provides cumulative yield (weight %; vanillin+vanillyl alcohol) and cumulative productivity (g/L/h; vanillin+vanillyl alcohol) for a 5 day fermentation of vanillin producing strain Y42688 and an improved derivative Y43188. Cumulative indicates the value for the interval from time zero to the indicated time.

(8) FIG. 8 provides percent specificity for 4-hydroxyl versus percent conversion of PCA to vanillin or isovanillin.

(9) FIG. 9 provides percent conversion to vanillin for a series of enzyme variants.

DETAILED DESCRIPTION OF THE EMBODIMENTS

Terminology

(10) As used herein, the term about refers to a reasonable range about a value as determined by the practitioner of skill. In certain embodiments, the term about refers to one, two, or three standard deviations. In certain embodiments, the term about refers to 5%, 10%, 20%, or 25%. In certain embodiments, the term about refers to 0.1, 0.2, or 0.3 logarithmic units, e.g. pH units.

(11) As used herein, the term heterologous refers to what is not normally found in nature. The term heterologous nucleotide sequence refers to a nucleotide sequence not normally found in a given cell in nature. As such, a heterologous nucleotide sequence may be: (a) foreign to its host cell (i.e., is exogenous to the cell); (b) naturally found in the host cell (i.e., endogenous) but present at an unnatural quantity in the cell (i.e., greater or lesser quantity than naturally found in the host cell); or (c) be naturally found in the host cell but positioned outside of its natural locus.

(12) On the other hand, the term native or endogenous as used herein with reference to molecules, and in particular enzymes and nucleic acids, indicates molecules that are expressed in the organism in which they originated or are found in nature. It is understood that expression of native enzymes or polynucleotides may be modified in recombinant microorganisms. In particular embodiments, codon optimized genes express native enzymes.

(13) As used herein, the term heterologous nucleic acid expression cassette refers to a nucleic acid sequence that comprises a coding sequence operably linked to one or more regulatory elements sufficient to expresses the coding sequence in a host cell. Non-limiting examples of regulatory elements include promoters, enhancers, silencers, terminators, and poly-A signals.

(14) As used herein, gene names are typically capitalized and italicized, e.g. SAM1. Protein names are typically initially capitalized and not italicized, e.g. Sam1 or Sam1p. However, where the term protein is indicated, then the protein is intended. For instance, those of skill will recognize that SAM1 protein is intended to refer to Sam1p.

(15) As used herein, the terms S-adenosylmethionine synthetase and SAM1 or Sam1 refer to an encoding nucleic acid and an S-adenosylmethionine synthetase that catalyzes transfer of the adenosyl group of ATP to the sulfur atom of methionine. In certain embodiments, its EC number is 2.5.1.6. In certain embodiments, its sequence is according to GenBank locus AAB67461 or S. cerevisiae YLR180W.

(16) As used herein, the terms S-adenosylmethionine synthetase and SAM2 or Sam2 or ETH2 or Eth2 refer to an encoding nucleic acid and an S-adenosylmethionine synthetase that catalyzes transfer of the adenosyl group of ATP to the sulfur atom of methionine. In certain embodiments, its EC number is 2.5.1.6. In certain embodiments, its sequence is according to NCBI Reference Sequence AAT93205.1 or S. cerevisiae YDR502C. Sam1 and Sam2 are paralogs and will be identified by their abbreviations herein.

(17) As used herein, the terms S-adenosyl-L-homocysteine hydrolase and SAH1 or Sah1 refer to an encoding nucleic acid and an S-adenosyl-L-homocysteine hydrolase that catabolizes S-adenosyl-L-homocysteine which is formed after donation of the activated methyl group of S-adenosyl-L-methionine (AdoMet) to an acceptor. In certain embodiments, its EC number is 3.3.1.1. In certain embodiments, its sequence is according to GenBank locus X07238 or S. cerevisiae YER043C.

(18) As used herein, the terms cobalamin-independent methionine synthase and MET6 or Met6 refer to an encoding nucleic acid and a cobalamin-independent methionine synthase that is involved in methionine biosynthesis and regeneration and requires a minimum of two glutamates on the methyltetrahydrofolate substrate. In certain embodiments, its EC number is 2.1.1.14. In certain embodiments, its sequence is according to GenBank locus AY692801 or S. cerevisiae YER091C.

(19) As used herein, the terms cytosolic serine hydroxymethyltransferase and SHM2 or Shm2 refer to an encoding nucleic acid and a cytosolic serine hydroxymethyltransferase that converts serine to glycine plus 5,10 methylenetetrahydrofolate. In certain embodiments, its EC number is 2.1.2.1. In certain embodiments, its sequence is according to GenBank locus AAB68164 or S. cerevisiae YLR058C.

(20) As used herein, the term MET12 or Met12 refers to an encoding nucleic acid and an isozyme of methylenetetrahydrofolate reductase (MTHFR). In certain embodiments, its EC number is 1.5.1.20. In certain embodiments, its sequence is according to NCBI Reference Sequence NP_013159 or S. cerevisiae YPL023C.

(21) As used herein, the term MET13 or Met13 refers to an encoding nucleic acid and an isozyme of methylenetetrahydrofolate reductase (MTHFR). In certain embodiments, its EC number is 1.5.1.20. In certain embodiments, its sequence is according to GenBank locus Z72647 or S. cerevisiae YGL125W.

(22) As used herein, the terms NADPH-dependent medium chain alcohol dehydrogenase and ADH6 or Adh6 refer to an encoding nucleic acid and an alcohol dehydrogenase. In certain embodiments, its EC number is 1.1.1.2. In certain embodiments, its sequence is according to GenBank locus CAA90836 or S. cerevisiae YMR318C.

(23) As used herein, the terms 3-methylbutanal reductase and NADPH-dependent methylglyoxal reductase and GRE2 or Gre2 refer to an encoding nucleic acid and a 3-methylbutanal reductase and NADPH-dependent methylglyoxal reductase. In certain embodiments, its EC number is 1.1.1.265 or 1.1.1.283. In certain embodiments, its sequence is according to NCBI reference sequence NP_014490 or S. cerevisiae YOL151W.

(24) As used herein, the term YGL039W refers to an encoding nucleic acid and an aldehyde reductase. Its systematic name is YGL039W. In certain embodiments, its sequence is according to GenBank reference Z72561.

(25) As used herein, the terms dihydrofolate reductase and DHFR refer to an encoding nucleic acid and a dihydrofolate reductase. In certain embodiments, its EC number is 1.5.1.3. In certain embodiments, DHFR is from Mus musculus. In certain embodiments, the DHFR sequence is according to NCBI reference sequence NP_034179.

(26) As used herein, the terms 3-dehydroquinate synthase and AroB refer to an encoding nucleic acid and a 3-dehydroquinate synthase. In certain embodiments, its EC number is 4.2.3.4. In certain embodiments, AroB is from E. coli. In certain embodiments, the AroB sequence is according to UniProtKB P07639.

(27) As used herein, the terms 3-dehydroquinate dehydratase and AroD refer to an encoding nucleic acid and a 3-dehydroquinate dehydratase. In certain embodiments, its EC number is 4.2.1.10. In certain embodiments, AroD is from E. coli. In certain embodiments, the AroD sequence is according to UniProtKB P05194.

(28) As used herein, the terms phospho-2-dehydro-3-deoxyheptonate aldolase, Tyr-sensitive and AroF refer to an encoding nucleic acid and a phospho-2-dehydro-3-deoxyheptonate aldolase. In certain embodiments, its EC number is 2.5.1.54. In certain embodiments, AroF is from E. coli. In certain embodiments, the AroF sequence is according to UniProtKB P00888. In certain embodiments, the AroF is feedback resistant (J. Bacteriol. November 1990 172:6581-6584).

(29) As used herein, the terms 3-dehydroshikimate dehydratase and AroZ refer to an encoding nucleic acid and a 3-dehydroshikimate dehydratase. In certain embodiments, its EC number is 4.2.1.118. In certain embodiments, AroZ is from Podospora pauciseta. In certain embodiments, the AroZ sequence is according to Hansen et al., Appl Environ Microbiol. 2009 (May) 75 (9): 2765-74.

(30) As used herein, the terms phosphopantetheinyl transferase and PPTASE refer to an encoding nucleic acid and a phosphopantetheinyl transferase. In certain embodiments, its EC number is 2.7.8.7. In certain embodiments, PPTASE is from Corynebacterium glutamicum. In certain embodiments, the PPTASE sequence is according to UniProtKB Q8NP45.

(31) As used herein, the terms aromatic carboxylic acid reductase and ACAR refer to an encoding nucleic acid and an aromatic carboxylic acid reductase. In certain embodiments, its EC number is 1.2,1.30. In certain embodiments, ACAR is from Nocardia iowensis. In certain embodiments, the ACAR sequence is according to UniProtKB Q6RKB1. In certain embodiments, ACAR is from Table 3 below.

(32) As used herein, the terms O-methyl transferase and OMT refer to an encoding nucleic acid and an O-methyl transferase. In certain embodiments, OMT is from Hordeum vulgare or from Brassica napus. In certain embodiments, the OMT sequence is according to UniProtKB F2E2Z7 (Hordeum vulgare) or A0A078HEB0 (Brassica napus). In certain embodiments, OMT is from Table 2 below.

(33) As used herein, the terms eugenol alcohol oxidase and EAO refer to an encoding nucleic acid and a eugenol alcohol oxidase. In certain embodiments, EAO is from Rhodococcus jostii. In certain embodiments, the EAO sequence is according to UniProtKB Q0SBK1.

(34) As used herein, the terms UDP-glycosyltransferase and UGT refer to an encoding nucleic acid and a UDP-glycosyltransferase. In certain embodiments, its EC number is 2.4.1.126. In certain embodiments, the UGT is from Arabidopsis thaliana. In certain embodiments, the UGT is A. thaliana UGT72E2. In certain embodiments, the UGT sequence is according to UniProtKB Q9LVR1.

(35) As used herein, the term parent cell refers to a cell that has an identical genetic background as a genetically modified host cell disclosed herein except that it does not comprise one or more particular genetic modifications engineered into the modified host cell, for example, one or more modifications selected from the group consisting of: heterologous expression of an enzyme of a vanillin pathway, heterologous expression of an enzyme of a glucovanillin pathway; or heterologous expression of SAM1, SAM2, SAH1, MET6, SHM2, MET12, MET13, a MET13 chimera, AroB, AroD, AroF, AroZ, PPTASE, ACAR, OMT, EAO, or UGT; or deletion of ADH6, GRE2, or YGL039W.

(36) As used herein, the term naturally occurring refers to what is found in nature. For example, gene product that is present in an organism that can be isolated from a source in nature and that has not been intentionally modified by a human in the laboratory is naturally occurring gene product. Conversely, as used herein, the term non-naturally occurring refers to what is not found in nature but is created by human intervention. In certain embodiments, naturally occurring genomic sequences are modified, e.g. codon optimized, for use in the organisms provided herein.

(37) The term medium refers to a culture medium and/or fermentation medium.

(38) The term fermentation composition refers to a composition which comprises genetically modified host cells and products or metabolites produced by the genetically modified host cells. An example of a fermentation composition is a whole cell broth, which can be the entire contents of a vessel (e.g., a flasks, plate, or fermentor), including cells, aqueous phase, and compounds produced from the genetically modified host cells.

(39) As used herein, the term production generally refers to an amount of vanillin or a derivative thereof produced by a genetically modified host cell provided herein. Derivatives can include glucovanillin, vanillyl alcohol, and/or vanillic acid. In some embodiments, production is expressed as a yield of vanillin or glucovanillin by the host cell. In other embodiments, production is expressed as the productivity of the host cell in producing the vanillin or glucovanillin.

(40) As used herein, the term productivity refers to production of a vanillin or a derivative thereof by a host cell, expressed as the amount of vanillin or glucovanillin produced (by weight) per amount of fermentation broth in which the host cell is cultured (by volume) over time (per hour). Derivatives can include glucovanillin, vanillyl alcohol, and/or vanillic acid.

(41) As used herein, the term yield refers to production of a vanillin or a derivative thereof by a host cell, expressed as the amount of vanillin or glucovanillin produced per amount of carbon source consumed by the host cell, by weight. Derivatives can include glucovanillin, vanillyl alcohol, and/or vanillic acid.

(42) As used herein, the term titer refers to production of a vanillin or a derivative thereof by a host cell, expressed as the amount of vanillin or glucovanillin or other derivative produced per volume of media. Derivatives can include glucovanillin, vanillyl alcohol, and/or vanillic acid.

(43) As used herein, the term an undetectable level of a compound (e.g., vanillic acid, or other compounds) means a level of a compound that is too low to be measured and/or analyzed by a standard technique for measuring the compound. For instance, the term includes the level of a compound that is not detectable by the typical analytical methods known in the art.

(44) The term vanillin refers to the compound vanillin, including any stereoisomer of vanillin. The chemical name of vanillin is 4-hydroxy-3-methoxybenzaldehyde. In particular embodiments, the term refers to the compound according to the following structure:

(45) ##STR00001##

(46) The term vanillyl alcohol refers to the compound vanillyl alcohol, including any stereoisomer of vanillyl alcohol. The chemical name of vanillyl alcohol is 4-(hydroxymethyl)-2-methoxyphenol. In particular embodiments, the term refers to the compound according to the following structure:

(47) ##STR00002##

(48) The term vanillic acid refers to the compound vanillic acid, including any stereoisomer of vanillic acid. The chemical name of vanillic acid is 4-hydroxy-3-methoxybenzoic acid. In particular embodiments, the term refers to the compound according to the following structure:

(49) ##STR00003##

(50) The term glucovanillin refers to the compound glucovanillin, including any stereoisomer of glucovanillin. The chemical name of glucovanillin is 3-methoxy-4-[(2S,3R,4S,5S,6R)-3,4,5-trihydroxy-6-(hydroxymethyl) oxan-2-yl]oxybenzaldehyde. In particular embodiments, the term refers to the compound according to the following structure:

(51) ##STR00004##

(52) The term protecatechuic acid refers to the compound protecatechuic acid, including any stereoisomer of protecatechuic acid. The chemical name of protecatechuic acid is 3,4-dihydroxybenzoic acid. In particular embodiments, the term refers to the compound according to the following structure:

(53) ##STR00005##

(54) As used herein, the term variant refers to a polypeptide differing from a specifically recited reference polypeptide (e.g., a wild-type sequence) by amino acid insertions, deletions, mutations, and/or substitutions, but retains an activity that is substantially similar to the reference polypeptide. In some embodiments, the variant is created by recombinant DNA techniques or by mutagenesis. In some embodiments, a variant polypeptide differs from its reference polypeptide by the substitution of one basic residue for another (i.e. Arg for Lys), the substitution of one hydrophobic residue for another (i.e. Leu for Ile), or the substitution of one aromatic residue for another (i.e. Phe for Tyr), etc. In some embodiments, variants include analogs wherein conservative substitutions resulting in a substantial structural analogy of the reference sequence are obtained. Examples of such conservative substitutions, without limitation, include glutamic acid for aspartic acid and vice-versa; glutamine for asparagine and vice-versa; serine for threonine and vice-versa; lysine for arginine and vice-versa; or any of isoleucine, valine or leucine for each other.

(55) As used herein, the term sequence identity or percent identity, in the context or two or more nucleic acid or protein sequences, refers to two or more sequences or subsequences that are the same or have a specified percentage of amino acid residues or nucleotides that are the same. For example, the sequence can have a percent identity of at least 60%, at least 65%, at least 70%, at least 75%, at least 80%, at least 85%, at least 90%, at least 91% at least 92%, at least 93%, at least 94%, at least 95%, at least 96%, at least 97%, at least 98%, at least 99%, or higher identity over a specified region to a reference sequence when compared and aligned for maximum correspondence over a comparison window, or designated region as measured using a sequence comparison algorithm or by manual alignment and visual inspection. For example, percent of identity is determined by calculating the ratio of the number of identical nucleotides (or amino acid residues) in the sequence divided by the length of the total nucleotides (or amino acid residues) minus the lengths of any gaps.

(56) For convenience, the extent of identity between two sequences can be ascertained using computer programs and mathematical algorithms known in the art. Such algorithms that calculate percent sequence identity generally account for sequence gaps and mismatches over the comparison region. Programs that compare and align sequences, like Clustal W (Thompson et al., (1994) Nucleic Acids Res., 22:4673-4680), ALIGN (Myers et al., (1988) CABIOS, 4:11-17), FASTA (Pearson et al., (1988) PNAS, 85:2444-2448; Pearson (1990), Methods Enzymol., 183:63-98) and gapped BLAST (Altschul et al., (1997) Nucleic Acids Res., 25:3389-3402) are useful for this purpose. The BLAST or BLAST 2.0 (Altschul et al., J. Mol. Biol. 215:403-10, 1990) is available from several sources, including the National Center for Biological Information (NCBI) and on the Internet, for use in connection with the sequence analysis programs BLASTP, BLASTN, BLASTX, TBLASTN, and TBLASTX. Additional information can be found at the NCBI web site.

(57) In certain embodiments, the sequence alignments and percent identity calculations can be determined using the BLAST program using its standard, default parameters. For nucleotide sequence alignment and sequence identity calculations, the BLASTN program is used with its default parameters (Gap opening penalty=5, Gap extension penalty=2, Nucleic match=2, Nucleic mismatch=3, Expectation value=10.0, Word size=11, Max matches in a query range=0). For polypeptide sequence alignment and sequence identity calculations, BLASTP program is used with its default parameters (Alignment matrix=BLOSUM62; Gap costs: Existence=11, Extension=1; Compositional adjustments=Conditional compositional score, matrix adjustment; Expectation value=10.0; Word size=6; Max matches in a query range=0). Alternatively, the following program and parameters can be used: Align Plus software of Clone Manager Suite, version 5 (Sci-Ed Software); DNA comparison: Global comparison, Standard Linear Scoring matrix, Mismatch penalty=2, Open gap penalty=4, Extend gap penalty=1. Amino acid comparison: Global comparison, BLOSUM 62 Scoring matrix. In the embodiments described herein, the sequence identity is calculated using BLASTN or BLASTP programs using their default parameters. In the embodiments described herein, the sequence alignment of two or more sequences are performed using Clustal W using the suggested default parameters (Dealign input sequences: no; Mbed-like clustering guide-tree: yes; Mbed-like clustering iteration: yes; number of combined iterations: default(0); Max guide tree iterations: default; Max HMM iterations: default; Order: input).

(58) Nucleic Acids, Expression Cassettes, and Host Cells

(59) In one aspect, provided herein are nucleic acids, expression vectors, and host cells which express one or more enzymes useful for the production of vanillin and/or glucovanillin. In another aspect, provided herein are host cells comprising one or more deletions in genes wherein the one or more deletions are useful for the production of vanillin and/or glucovanillin. In a further aspect, provided herein are host cells that comprise one or more of the deletions and further comprise one or more of the enzymes. The enzymes and deletions are described in detail herein. In certain embodiments, the host cells can produce vanillin and/or glucovanillin from a carbon source in a culture medium. In certain embodiments, the host cells provide improved yield and/or productivity compared to a parent strain. In certain embodiments, the host cells provide byproducts, intermediates, and/or side products, e.g. vanillic acid, compared to a parent strain. Exemplary byproducts, intermediates, and/or side products include vanillic acid, vanillyl alcohol, glucovanillic acid, glucovanillyl alcohol, and protocatechuic aldehyde.

(60) In certain embodiments, host cells according to the embodiments herein produce at least 5%, at least 10%, at least 15%, at least 20%, or at least 25% more total vanillin or glucovanillin compared to a parent strain. In certain embodiments, host cells according to the embodiments herein produce at least 5%, at least 10%, at least 15%, at least 20%, at least 25% more total vanillin compared to a parent strain. In certain embodiments, host cells according to the embodiments herein produce at least 5%, at least 10%, at least 15%, at least 20%, at least 25% more total glucovanillin compared to a parent strain. In certain embodiments, host cells according to the embodiments herein produce 2-fold, 3-fold, 4-fold, 5-fold, or 10-fold less vanillic acid compared to a parent strain. In certain embodiments, the percent increases are with respect to vanillin or glucovanillin titer (g/L). In certain embodiments, the percent increases are with respect to vanillin or glucovanillin yield (weight %). In certain embodiments, the percent increases are with respect to vanillin or glucovanillin productivity (g/L/h). In certain embodiments, the percent increases are with respect to vanillin or glucovanillin total mass produced (g). Those of skill will recognize that the total vanillin and/or glucovanillin produced can be measured as a sum of the actual compounds produced and any downstream compounds produced from the vanillin and/or glucovanillin, as shown in the Examples and Figures herein. In certain embodiments, host cells according to the embodiments herein produce increased vanillin and/or glucovanillin, and produce less vanillic acid, compared to a parent strain.

(61) In advantageous embodiments, the host cell comprises one or more enzymatic pathways capable of making vanillin and/or glucovanillin, said pathways taken individually or together.

(62) In one aspect, provided herein are genetically modified host cell capable of producing vanillin or glucovanillin, and/or one or more derivatives thereof, comprising one, two, three, or four of: (a) one or more nucleic acids capable of overexpressing one or more genes selected from SAM1, SAM2, SAH1, and MET6; (b) one or more nucleic acids expressing OMT, for instance according to Table 2, for example either Hordeum vulgare OMT or Brassica napus OMT, or both Hordeum vulgare OMT and Brassica napus OMT; (c) one or more nucleic acids expressing Rhodococcus jostii EAO; and (d) one or more nucleic acids expressing chimeric MET13. The cells can comprise any of (a) through (d) in any combination. In certain embodiments, the cells comprise (a) and (b). In certain embodiments, the cells comprise (a) and (c). In certain embodiments, the cells comprise (a) and (d). In certain embodiments, the cells comprise (b) and (c). In certain embodiments, the cells comprise (b) and (d). In certain embodiments, the cells comprise (c) and (d). In certain embodiments, the cells comprise (a), (b), and (c). In certain embodiments, the cells comprise (a), (b), and (d). In certain embodiments, the cells comprise (a), (c), and (d). In certain embodiments, the cells comprise (b), (c), and (d). In certain embodiments, the cells comprise (a), (b), (c), and (d).

(63) In another aspect, provided herein are host cells that overexpress one or more genes selected from SAM1, SAM2, SAH1, and MET6. As shown in FIG. 1, protocatechuic acid (PCA) is methylated by an O-methyltransferase with co-substrate S-adenosylmethionine (SAM) to form vanillic acid and S-adenosylhomocysteine (SAH). In the cell, SAH is regenerated to SAM in the SAM regeneration pathway. As demonstrated in the examples below, overexpression of the SAM regeneration pathway enhanced yield and productivity of vanillin and/or glucovanillin. Accordingly, provided herein are host cells that overexpress one or more of SAM1, SAM2, SAH1, and MET6. In certain embodiments, one gene is overexpressed. In certain embodiments, two genes are overexpressed. In certain embodiments, three genes are overexpressed. In certain embodiments, four genes are overexpressed. In particular embodiments, the host cells are S. cerevisiae, and the overexpressed proteins are native. In other host cells, homologs of SAM1, SAM2, SAH1, and/or MET6 can be overexpressed. In certain embodiments, the overexpressed genes are native or codon optimized S. cerevisiae genes.

(64) In another aspect, provided herein are host cells that overexpress one or more genes selected from SHM2, MET12, MET13, and MET6. As shown in FIG. 2, in the SAM regeneration pathway, Met6 catalyzes the conversion of homocysteine to methionine. Methionine is then converted to SAM. In the Met6 reaction, a methyl group is provided by cosubstrate methyl-tetrahydrofolate (CH.sub.3-THF). THE is then regenerated to methyl tetrahydrofolate by SHM1, SHM2, MET12, and MET13. Accordingly, provided herein are host cells that overexpress one or more of SHM2, MET12, MET13, and MET6. In certain embodiments, one gene is overexpressed. In certain embodiments, two genes are overexpressed. In certain embodiments, three genes are overexpressed. In certain embodiments, four genes are overexpressed. In particular embodiments, the host cells are S. cerevisiae, and the overexpressed genes are S. cerevisiae genes or optimized S. cerevisiae genes. In other host cells, homologs of SHM2, MET12, MET13, and MET6 can be overexpressed. In certain embodiments, the overexpressed genes are native or codon optimized S. cerevisiae genes.

(65) In another aspect, provided herein are host cells that express one or more heterologous O-methyltransferases (OMTs). As shown in FIGS. 1 and 2, OMT catalyzes the conversion of protocatechuic acid (PCA) to vanillic acid. The OMT can be any OMT deemed useful by those of skill. In advantageous embodiments, the OMT has specificity for the correct-OH group of protocatechuic acid. In other words, in advantageous embodiments, the OMT forms more vanillic acid and less vanillic acid in this reaction. In certain embodiments, OMT is Hordeum vulgare OMT. In certain embodiments, the OMT is Brassica napus OMT. As described herein, these OMTs provide excellent specificity for the correct-OH group and minimize formation of vanillic acid. In certain embodiments, provided herein are host cells that express Hordeum vulgare OMT. In certain embodiments, provided herein are host cells that express Brassica napus OMT. In certain embodiments, provided herein are host cells that overexpress Hordeum vulgare OMT. In certain embodiments, provided herein are host cells that overexpress Brassica napus OMT. In certain embodiments, provided herein are host cells that express both Hordeum vulgare OMT and Brassica napus OMT. In certain embodiments, provided herein are host cells that overexpress both Hordeum vulgare OMT and Brassica napus OMT. In certain embodiments, the host cells express one or more OMTs from Table 2, below.

(66) In certain embodiments, provided herein are genetically modified host cells capable of producing vanillin or glucovanillin where the host cell expresses a MET13 chimera. In certain embodiments, the MET13 chimera comprises a yeast N-terminal domain and an Arabidopsis MTHFR C-terminal domain. The Arabidopsis MTHFR enzyme typically has little or no sensitivity to SAM inhibition. Accordingly, in certain embodiments, the chimera provided herein is not sensitive to SAM inhibition. In certain embodiments, the N-terminal domain is a catalytic domain. In certain embodiments, the C-terminal domain is a regulatory domain. Details are provided in Roje et al., J. Biol. Chem., 2002; 277 (6): 4056-4061, incorporated by reference in its entirety. In certain embodiments, the two domains are linked by a bridge domain. In certain embodiments, the yeast N-terminal domain is from S. cerevisiae and the MTHFR C-terminal domain is from A. thaliana. In particular embodiments, the genetically modified host cell expresses further enzymes sufficient to produce vanillin or glucovanillin. Useful enzymes are described herein.

(67) In particular embodiments, the above aspects are combined. In other words, provided herein are host cells that express or overexpress one or more of SAM1, SAM2, SAH1, MET6, SHM2, MET12, MET13, MET13 chimera, and OMT(s). In certain embodiments, two copies of MET6 are overexpressed. In certain embodiments, at least one gene is overexpressed. In certain embodiments, at least two genes are overexpressed. In certain embodiments, at least three genes are overexpressed. In certain embodiments, at least four genes are overexpressed. In certain embodiments, at least five genes are overexpressed. In certain embodiments, at least five genes are overexpressed, including two copies of MET6. In particular embodiments, the host cells are S. cerevisiae, and the overexpressed S. cerevisiae genes are native or optimized. In other host cells, homologs of SAM1, SAM2, SAH1, MET6, SHM2, MET12, MET13, MET13 chimera, and/or OMT(s) can be overexpressed.

(68) In further embodiments, the above host cells further comprise one or more deletions and/or one or more expressed genes useful for the production of vanillin and/or glucovanillin.

(69) In certain embodiments, the host cells further comprise deletion of ADH6. In host cells other than S. cerevisiae, a homolog of ADH6 is deleted. Preferably, all copies of ADH6 are deleted. For instance, in haploid cells with one copy of ADH6, that copy is deleted. In diploid cells with two copies of ADH6, both copies are deleted. In any cells with multiple copies of ADH6, each copy is preferably deleted. The ADH6 gene(s) can be deleted by any technique apparent to those of skill in the art. Useful techniques include those based on homologous recombination and polymerase chain reaction (PCR).

(70) In certain embodiments, the host cells further comprise deletion of GRE2. In host cells other than S. cerevisiae, a homolog of GRE2 is deleted. Preferably, all copies of GRE2 are deleted. For instance, in haploid cells with one copy of GRE2, that copy is deleted. In diploid cells with two copies of GRE2, both copies are deleted. In any cells with multiple copies of GRE2, each copy is preferably deleted. The GRE2 gene(s) can be deleted by any technique apparent to those of skill in the art. Useful techniques include those based on homologous recombination and polymerase chain reaction (PCR).

(71) In certain embodiments, the host cells further comprise deletion of YGL039W. In host cells other than S. cerevisiae, a homolog of YGL039W is deleted. Preferably, all copies of YGL039W are deleted. For instance, in haploid cells with one copy of YGL039W, that copy is deleted. In diploid cells with two copies of YGL039W, both copies are deleted. In any cells with multiple copies of YGL039W, each copy is preferably deleted. The YGL039W gene(s) can be deleted by any technique apparent to those of skill in the art. Useful techniques include those based on homologous recombination and polymerase chain reaction (PCR).

(72) In particular embodiments, the host cells further comprise enzymes of a pathway useful for the production of vanillin or glucovanillin. Such pathway enzymes have been described previously, including those described in Hansen et al., Appl. Environ. Microbiol. (2009) 75 (9): 2765-2774; U.S. Pat. No. 6,372,461 B1; U.S. Pat. No. 10,066,252 B1; U.S. Pat. No. 10,208,293 B2; each of which are incorporated by reference in their entireties.

(73) In certain embodiments, the host cells further comprise a 3-dehydroquinate synthase, or AroB. Useful AroB genes and enzymes are known. Useful AroB polypeptides are also known. Useful AroB genes and enzymes include those of E. coli. Examples can be found at UniProtKB P07639. In preferred embodiments, the host cells further express or overexpress E. coli AroB.

(74) In certain embodiments, the host cells further comprise a 3-dehydroquinate dehydratase, or AroD. Useful AroD genes and enzymes are known. Useful AroD polypeptides are also known. Useful AroD genes and enzymes include those of E. coli. Examples can be found at UniProtKB P05194. In preferred embodiments, the host cells further express or overexpress E. coli AroD.

(75) In certain embodiments, the host cells further comprise a phospho-2-dehydro-3-deoxyheptonate aldolase, Tyr-sensitive, or AroF. Useful AroF genes and enzymes are known. Useful AroB polypeptides are also known. Useful AroF genes and enzymes include those of E. coli. Examples can be found at UniProtKB P00888. In preferred embodiments, the host cells further express or overexpress E. coli AroF. In certain embodiments, the AroF is feedback resistant (J. Bacteriol. November 1990 172:6581-6584, incorporated by reference in its entirety).

(76) In certain embodiments, the host cells further comprise a 3-dehydroshikimate dehydratase, or AroZ. Useful AroZ genes and enzymes are known. Useful 3DSD polypeptides are also known. Useful AroZ genes and enzymes include those of Podospora pauciseta, Ustilago maydis, Rhodoicoccus jostii, Acinetobacter sp., Aspergillus niger and Neurospora crassa. Examples can be found at GenBank Accession Nos. CAD60599, XP_001905369.1, XP_761560.1, ABG93191.1, AAC37159.1, and XM_001392464. In preferred embodiments, the host cells further express or overexpress Podospora pauciseta AroZ.

(77) In certain embodiments, the host cells further comprise an ACAR. Useful ACAR genes and enzymes are known. Useful ACAR polypeptides are also known. Useful ACAR genes and enzymes include those of Nocardia sp. Examples can be found at GenBank Accession No. AY495697. In preferred embodiments, the host cells further express or overexpress Nocardia iowensis ACAR. In certain embodiments, the host cells express one or more ACAR enzyme in Table 3 below.

(78) In certain embodiments, the host cells further comprise an PPTASE. Useful PPTASE genes and enzymes are known. Useful PPTASE polypeptides are also known. Useful PPTASE genes and enzymes include those of E. coli, Corynebacterium glutamicum, and Nocardia farcinica. Examples can be found at GenBank Accession Nos. NP_601186, BAA35224, and YP_120266. In preferred embodiments, the host cells further express or overexpress Cornybacterium glutamicum PPTASE.

(79) In certain embodiments, the host cells are capable of converting vanillyl alcohol to vanillin. This reduces the amount of the side product vanillyl alcohol and increases the amount of vanillin. Useful oxidase genes and enzymes are known. Suitable oxidase polypeptides are known. Useful oxidase genes and enzymes include those of Penicillium simplicissimum and Rhodococcus jostii. In preferred embodiments, the host cells further express or overexpress Rhodococcus jostii eugenal alcohol oxidase (EAO).

(80) In certain embodiments, the host cells are capable of glucosylating vanillin to form glucovanillin. Glucovanillin is a storage form of vanillin found in the vanilla pod. It is non-toxic to most organisms, including yeast, and has a higher solubility in water, as compared to vanillin. In addition, the formation of vanillin--D-glucoside most likely directs biosynthesis toward vanillin production. Useful UGT genes and enzymes for this conversion are known. Useful UGT enzymes according to the invention are classified under EC 2.4.1. Suitable UGT polypeptides include the UGT71C2, UGT72B1, UGT72E2, UGT84A2, UGT89B1, UGT85B1, and arbutin synthase polypeptides, at, for example, GenBank Accession Nos. AC0005496, NM_116337, and NM_126067. In certain embodiments, the host cells further express or overexpress one or more of UGT71C2, UGT72B1, UGT72E2, UGT84A2, UGT89B1, UGT85B1, and arbutin synthase. In preferred embodiments, the host cells further express or overexpress A. thaliana UGT72E2.

(81) Overexpression can be according to any technique apparent to those of skill in the art. In certain embodiments, the genes are overexpressed from a promoter useful in the host cell. In certain embodiments, the genes are overexpressed from a S. cerevisiae promoter. In certain embodiments, the promoter is selected from the group consisting of pPGK1, pTDH3, pENO2, pADH1, pTPI1, pTEF1, pTEF2, pTEF3, pGAL1, pGAL2, pGAL7, pGAL10, GALI, pRPL3, pRPL15A, pRPL4, pRPL8B, pSSA1, pSSB1, pCUP1, pTPS1, pHXT7, pADH2, pCYC1, and pPDA1. In certain embodiments, the genes are overexpressed from a GAL promoter. In certain embodiments, the genes are overexpressed from a promoter selected from the group consisting of pGAL1, pGAL2, pGAL7, pGAL10, and variants thereof.

(82) In certain embodiments, one, some, or all of the heterologous promoters in the host cells are inducible. The inducible promoter system can be any recognized by those of skill in the art. In particular embodiments, the promoters are inducible by maltose. In an advantageous embodiment, the host cells comprise a GAL regulon that is inducible by maltose. Examples of the Gal regulon which are further repressed or induced by a maltose are described in PCT Application Publications WO2015/020649, WO2016/210343, and WO2016210350, each of which is incorporated by reference in its entirety. In certain embodiment, a maltose switchable strain is built on top of a non-switchable strain by chromosomally integrating a copy of GAL80 under the control of a maltose-responsive promoter such as pMAL32. In certain embodiments, the GAL80 gene product is mutated for temperature sensitivity, e.g. to facilitate further control. In certain embodiments, the GAL80 gene product is fused to a temperature-sensitive polypeptide. In certain embodiments, the GAL80 gene product is fused to a temperature-sensitive DHFR polypeptide or fragment. Additional description of switchable farnesene producing switchable strains are described in U.S. Patent Application Publication No. US 2016/0177341 and PCT Application Publication No. WO 2016/210350, each of which is incorporated herein by reference in its entirety.

(83) For each of the polypeptides and nucleic acids described above, the host cells can comprise variants thereof. In certain embodiments, the variant can comprise up to 15, 10, 9, 8, 7, 6, 5, 4, 3, 2, or 1 amino acid substitutions relative to the relevant polypeptide. In certain embodiments, the variant can comprise up to 15, 10, 9, 8, 7, 6, 5, 4, 3, 2, or 1 conservative amino acid substitutions relative to the reference polypeptide. In certain embodiments, any of the nucleic acids described herein can be optimized for the host cell, for instance codon optimized. Variants and optimization are described in detail below.

(84) In certain embodiments, the additional enzymes are native, unless specified otherwise above. Native enzymes can be expressed from codon optimized nucleic acids. In advantageous embodiments, the additional enzymes are heterologous. In certain embodiments, two or more enzymes can be combined in one polypeptide.

(85) Cell Strains

(86) Host cells useful compositions and methods provided herein include archae, prokaryotic, or eukaryotic cells.

(87) Suitable prokaryotic hosts include, but are not limited, to any of a variety of gram-positive, gram-negative, or gram-variable bacteria. Examples include, but are not limited to, cells belonging to the genera: Agrobacterium, Alicyclobacillus, Anabaena, Anacystis, Arthrobacter, Azobacter, Bacillus, Brevibacterium, Chromatium, Clostridium, Corynebacterium, Enterobacter, Erwinia, Escherichia, Lactobacillus, Lactococcus, Mesorhizobium, Methylobacterium, Microbacterium, Phormidium, Pseudomonas, Rhodobacter, Rhodopseudomonas, Rhodospirillum, Rhodococcus, Salmonella, Scenedesmun, Serratia, Shigella, Staphylococcus, Strepromyces, Synnecoccus, and Zymomonas. Examples of prokaryotic strains include, but are not limited to: Bacillus subtilis, Bacillus amyloliquefacines, Brevibacterium ammoniagenes, Brevibacterium immariophilum, Clostridium beigerinckii, Enterobacter sakazakii, Escherichia coli, Lactococcus lactis, Mesorhizobium loti, Pseudomonas aeruginosa, Pseudomonas mevalonii, Pseudomonas pudica, Rhodobacter capsulatus, Rhodobacter sphaeroides, Rhodospirillum rubrum, Salmonella enterica, Salmonella typhi, Salmonella typhimurium, Shigella dysenteriae, Shigella flexneri, Shigella sonnei, and Staphylococcus aureus. In a particular embodiment, the host cell is an Escherichia coli cell.

(88) Suitable archae hosts include, but are not limited to, cells belonging to the genera: Aeropyrum, Archaeglobus, Halobacterium, Methanococcus, Methanobacterium, Pyrococcus, Sulfolobus, and Thermoplasma. Examples of archae strains include, but are not limited to: Archaeoglobus fulgidus, Halobacterium sp., Methanococcus jannaschii, Methanobacterium thermoautotrophicum, Thermoplasma acidophilum, Thermoplasma volcanium, Pyrococcus horikoshii, Pyrococcus abyssi, and Aeropyrum pernix.

(89) Suitable eukaryotic hosts include, but are not limited to, fungal cells, algal cells, insect cells, and plant cells. In some embodiments, yeasts useful in the present methods include yeasts that have been deposited with microorganism depositories (e.g. IFO, ATCC, etc.) and belong to the genera Aciculoconidium, Ambrosiozyma, Arthroascus, Arxiozyma, Ashbya, Babjevia, Bensingtonia, Botryoascus, Botryozyma, Brettanomyces, Bullera, Bulleromyces, Candida, Citeromyces, Clavispora, Cryptococcus, Cystofilobasidium, Debaryomyces, Dekkara, Dipodascopsis, Dipodascus, Eeniella, Endomycopsella, Eremascus, Eremothecium, Erythrobasidium, Fellomyces, Filobasidium, Galactomyces, Geotrichum, Guilliermondella, Hanseniaspora, Hansenula, Hasegawaea, Holtermannia, Hormoascus, Hyphopichia, Issatchenkia, Kloeckera, Kloeckeraspora, Kluyveromyces, Kondoa, Kuraishia, Kurtzmanomyces, Leucosporidium, Lipomyces, Lodderomyces, Malassezia, Metschnikowia, Mrakia, Myxozyma, Nadsonia, Nakazawaea, Nematospora, Ogataea, Oosporidium, Pachysolen, Phachytichospora, Phaffia, Pichia, Rhodosporidium, Rhodotorula, Saccharomyces, Saccharomycodes, Saccharomycopsis, Saitoella, Sakaguchia, Saturnospora, Schizoblastosporion, Schizosaccharomyces, Schwanniomyces, Sporidiobolus, Sporobolomyces, Sporopachydermia, Stephanoascus, Sterigmatomyces, Sterigmatosporidium, Symbiotaphrina, Sympodiomyces, Sympodiomycopsis, Torulaspora, Trichosporiella, Trichosporon, Trigonopsis, Tsuchiyaea, Udeniomyces, Waltomyces, Wickerhamia, Wickerhamiella, Williopsis, Yamadazyma, Yarrowia, Zygoascus, Zygosaccharomyces, Zygowilliopsis, and Zygozyma, among others.

(90) In some embodiments, the host microbe is Saccharomyces cerevisiae, Pichia pastoris, Schizosaccharomyces pombe, Dekkera bruxellensis, Kluyveromyces lactis (previously called Saccharomyces lactis), Kluveromyces marxianus, Arxula adeninivorans, or Hansenula polymorpha (now known as Pichia angusta). In some embodiments, the host microbe is a strain of the genus Candida, such as Candida lipolytica, Candida guilliermondii, Candida krusei, Candida pseudotropicalis, or Candida utilis.

(91) In a particular embodiment, the host microbe is Saccharomyces cerevisiae. In some embodiments, the host is a strain of Saccharomyces cerevisiae selected from the group consisting of Baker's yeast, CEN.PK, CBS 7959, CBS 7960, CBS 7961, CBS 7962, CBS 7963, CBS 7964, IZ-1904, TA, BG-1, CR-1, SA-1, M-26, Y-904, PE-2, PE-5, VR-1, BR-1, BR-2, ME-2, VR-2, MA-3, MA-4, CAT-1, CB-1, NR-1, BT-1, and AL-1. In some embodiments, the host microbe is a strain of Saccharomyces cerevisiae selected from the group consisting of PE-2, CAT-1, VR-1, BG-1, CR-1, and SA-1. In a particular embodiment, the strain of Saccharomyces cerevisiae is PE-2. In another particular embodiment, the strain of Saccharomyces cerevisiae is CAT-1. In another particular embodiment, the strain of Saccharomyces cerevisiae is BG-1.

(92) In some embodiments, the host microbe is a microbe that is suitable for industrial fermentation. In particular embodiments, the microbe is conditioned to subsist under high solvent concentration, high temperature, high pressure, expanded substrate utilization, nutrient limitation, osmotic stress due to sugar and salts, acidity, sulfite and bacterial contamination, or combinations thereof, which are recognized stress conditions of the industrial fermentation environment.

(93) Methods of Producing Vanillin or Glucovanillin

(94) In another aspect, provided herein is a method for the production of a vanillin or glucovanillin, the method comprising the steps of: (a) culturing a population of any of the genetically modified host cells described herein that are capable of producing a vanillin or glucovanillin in a medium with a carbon source under conditions suitable for making the vanillin or glucovanillin compound; and (b) recovering said vanillin or glucovanillin compound from the medium. Those of skill will recognize that the amount of a compound produced can be evaluated by measuring the amount of the compound itself, or more preferably the amount of the compound and derivatives of the compound. For instance, the amount of vanillin produced can be evaluated from the total amount of vanillin, vanillyl alcohol, glucovanillin, and glucovanillyl alcohol produced.

(95) In some embodiments, the genetically modified host cell produces an increased amount of the vanillin or glucovanillin, or derivative thereof such as vanillyl alcohol or glucovanillyl alcohol, compared to a parent cell not comprising the one or more modifications, or a parent cell comprising only a subset of the one or more modifications of the genetically modified host cell, but is otherwise genetically identical. In some embodiments, the increased amount is at least 1%, 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 100% or greater than 100%, as measured, for example, in yield, production, and/or productivity, in grams per liter of cell culture, milligrams per gram of dry cell weight, on a per unit volume of cell culture basis, on a per unit dry cell weight basis, on a per unit volume of cell culture per unit time basis, or on a per unit dry cell weight per unit time basis.

(96) In some embodiments, the host cell produces an elevated level of a vanillin or glucovanillin, or derivative thereof such as vanillyl alcohol or glucovanillyl alcohol, that is greater than about 0.25 grams per liter of fermentation medium. In some embodiments, the host cell produces an elevated level of a vanillin or glucovanillin, or derivative thereof such as vanillyl alcohol or glucovanillyl alcohol, that is greater than about 0.5 grams per liter of fermentation medium. In some embodiments, the host cell produces an elevated level of a vanillin or glucovanillin, or derivative thereof such as vanillyl alcohol or glucovanillyl alcohol, that is greater than about 0.75 grams per liter of fermentation medium. In some embodiments, the host cell produces an elevated level of a vanillin or glucovanillin, or derivative thereof such as vanillyl alcohol or glucovanillyl alcohol, that is greater than about 1 grams per liter of fermentation medium. In some embodiments, the host cell produces an elevated level of a vanillin or glucovanillin, or derivative thereof such as vanillyl alcohol or glucovanillyl alcohol, that is greater than about 5 grams per liter of fermentation medium. In some embodiments, the host cell produces an elevated level of a vanillin or glucovanillin, or derivative thereof such as vanillyl alcohol or glucovanillyl alcohol, that is greater than about 10 grams per liter of fermentation medium. In some embodiments, the vanillin or glucovanillin, or derivative thereof such as vanillyl alcohol or glucovanillyl alcohol, is produced in an amount from about 10 to about 50 grams, from about 10 to about 15 grams, more than about 15 grams, more than about 20 grams, more than about 25 grams, or more than about 30 grams per liter of cell culture.

(97) In some embodiments, the host cell produces an elevated level of a vanillin or glucovanillin, or derivative thereof such as vanillyl alcohol or glucovanillyl alcohol, that is greater than about 50 milligrams per gram of dry cell weight. In some such embodiments, the vanillin or glucovanillin, or derivative thereof such as vanillyl alcohol or glucovanillyl alcohol, is produced in an amount from about 50 to about 1500 milligrams, more than about 100 milligrams, more than about 150 milligrams, more than about 200 milligrams, more than about 250 milligrams, more than about 500 milligrams, more than about 750 milligrams, or more than about 1000 milligrams per gram of dry cell weight.

(98) In some embodiments, the host cell produces an elevated level of a vanillin or glucovanillin, or derivative thereof such as vanillyl alcohol or glucovanillyl alcohol, that is at least about 10%, at least about 15%, at least about 20%, at least about 25%, at least about 30%, at least about 35%, at least about 40%, at least about 45%, at least about 50%, at least about 60%, at least about 70%, at least about 80%, at least about 90%, at least about 2-fold, at least about 2.5-fold, at least about 5-fold, at least about 10-fold, at least about 20-fold, at least about 30-fold, at least about 40-fold, at least about 50-fold, at least about 75-fold, at least about 100-fold, at least about 200-fold, at least about 300-fold, at least about 400-fold, at least about 500-fold, or at least about 1,000-fold, or more, higher than the level of vanillin or glucovanillin, or derivative thereof such as vanillyl alcohol or glucovanillyl alcohol, produced by a parent cell, on a per unit volume of cell culture basis.

(99) In some embodiments, the host cell produces an elevated level of a vanillin or glucovanillin, or derivative thereof such as vanillyl alcohol or glucovanillyl alcohol, that is at least about 10%, at least about 15%, at least about 20%, at least about 25%, at least about 30%, at least about 35%, at least about 40%, at least about 45%, at least about 50%, at least about 60%, at least about 70%, at least about 80%, at least about 90%, at least about 2-fold, at least about 2.5-fold, at least about 5-fold, at least about 10-fold, at least about 20-fold, at least about 30-fold, at least about 40-fold, at least about 50-fold, at least about 75-fold, at least about 100-fold, at least about 200-fold, at least about 300-fold, at least about 400-fold, at least about 500-fold, or at least about 1,000-fold, or more, higher than the level of vanillin or glucovanillin, or derivative thereof such as vanillyl alcohol or glucovanillyl alcohol, produced by the parent cell, on a per unit dry cell weight basis.

(100) In some embodiments, the host cell produces an elevated level of a vanillin or glucovanillin, or derivative thereof such as vanillyl alcohol or glucovanillyl alcohol, that is at least about 10%, at least about 15%, at least about 20%, at least about 25%, at least about 30%, at least about 35%, at least about 40%, at least about 45%, at least about 50%, at least about 60%, at least about 70%, at least about 80%, at least about 90%, at least about 2-fold, at least about 2.5-fold, at least about 5-fold, at least about 10-fold, at least about 20-fold, at least about 30-fold, at least about 40-fold, at least about 50-fold, at least about 75-fold, at least about 100-fold, at least about 200-fold, at least about 300-fold, at least about 400-fold, at least about 500-fold, or at least about 1,000-fold, or more, higher than the level of vanillin or glucovanillin, or derivative thereof such as vanillyl alcohol or glucovanillyl alcohol, produced by the parent cell, on a per unit volume of cell culture per unit time basis.

(101) In some embodiments, the host cell produces an elevated level of a vanillin or glucovanillin, or derivative thereof such as vanillyl alcohol or glucovanillyl alcohol, that is at least about 10%, at least about 15%, at least about 20%, at least about 25%, at least about 30%, at least about 35%, at least about 40%, at least about 45%, at least about 50%, at least about 60%, at least about 70%, at least about 80%, at least about 90%, at least about 2-fold, at least about 2.5-fold, at least about 5-fold, at least about 10-fold, at least about 20-fold, at least about 30-fold, at least about 40-fold, at least about 50-fold, at least about 75-fold, at least about 100-fold, at least about 200-fold, at least about 300-fold, at least about 400-fold, at least about 500-fold, or at least about 1,000-fold, or more, higher than the level of vanillin or glucovanillin, or derivative thereof such as vanillyl alcohol or glucovanillyl alcohol, produced by the parent cell, on a per unit dry cell weight per unit time basis.

(102) In most embodiments, the production of the elevated level of vanillin or glucovanillin by the host cell is inducible by the presence of an inducing compound or the absence of a repressing compound. Such a host cell can be manipulated with ease in the absence of the inducing compound or the presence of the repressing compound. The inducing compound is then added, or the repressing compound is diminished, to induce the production of the elevated level of vanillin or glucovanillin by the host cell. In other embodiments, production of the elevated level of vanillin or glucovanillin by the host cell is inducible by changing culture conditions, such as, for example, the growth temperature, media constituents, and the like. In certain embodiments, the vanillin-producing enzymes are repressed by maltose during a growth phase of the cells, and the vanillin-producing enzymes are expressed during an expression phase of the fermentation. Useful promoters and techniques are described in US 2018/0171341 A1, incorporated by reference in its entirety.

(103) Culture Media and Conditions

(104) Materials and methods for the maintenance and growth of microbial cultures are well known to those skilled in the art of microbiology or fermentation science (see, for example, Bailey et al., Biochemical Engineering Fundamentals, second edition, McGraw Hill, New York, 1986). Consideration must be given to appropriate culture medium, pH, temperature, and requirements for aerobic, microaerobic, or anaerobic conditions, depending on the specific requirements of the host cell, the fermentation, and the process.

(105) The methods of producing vanillin and/or glucovanillin provided herein may be performed in a suitable culture medium in a suitable container, including but not limited to a cell culture plate, a microtiter plate, a flask, or a fermentor. Further, the methods can be performed at any scale of fermentation known in the art to support industrial production of microbial products. Any suitable fermentor may be used including a stirred tank fermentor, an airlift fermentor, a bubble fermentor, or any combination thereof. In particular embodiments utilizing Saccharomyces cerevisiae as the host cell, strains can be grown in a fermentor as described in detail by Kosaric, et al, in Ullmann's Encyclopedia of Industrial Chemistry, Sixth Edition, Volume 12, pages 398-473, Wiley-VCH Verlag GmbH & Co. KDaA, Weinheim, Germany.

(106) In some embodiments, the culture medium is any culture medium in which a genetically modified microorganism capable of producing vanillin or glucovanillin can subsist, i.e., maintain growth and viability. In some embodiments, the culture medium is an aqueous medium comprising assimilable carbon, nitrogen and phosphate sources. Such a medium can also include appropriate salts, minerals, metals and other nutrients. In some embodiments, the carbon source and some or all of the essential cell nutrients are added incrementally or continuously to the fermentation media. In certain embodiments, a subset of the essential nutrients are maintained in excess while a few, e.g. one or two, required nutrients are maintained at about the minimum levels needed for efficient assimilation by growing cells, for example, in accordance with a predetermined cell growth curve based on the metabolic or respiratory function of the cells which convert the carbon source to a biomass.

(107) Suitable conditions and suitable media for culturing microorganisms are well known in the art. In some embodiments, the suitable medium is supplemented with one or more additional agents, such as, for example, an inducer (e.g., when one or more nucleotide sequences encoding a gene product are under the control of an inducible promoter), a repressor (e.g., when one or more nucleotide sequences encoding a gene product are under the control of a repressible promoter), or a selection agent (e.g., an antibiotic to select for microorganisms comprising the genetic modifications).

(108) In some embodiments, the carbon source is a monosaccharide (simple sugar), a disaccharide, a polysaccharide, a non-fermentable carbon source, or one or more combinations thereof. Non-limiting examples of suitable monosaccharides include glucose, galactose, mannose, fructose, xylose, ribose, and combinations thereof. Non-limiting examples of suitable disaccharides include sucrose, lactose, maltose, trehalose, cellobiose, and combinations thereof. Non-limiting examples of suitable polysaccharides include starch, glycogen, cellulose, chitin, and combinations thereof. Non-limiting examples of suitable non-fermentable carbon sources include acetate, ethanol, and glycerol.

(109) The concentration of a carbon source, such as glucose, in the culture medium is sufficient to promote cell growth, but is not so high as to repress growth of the microorganism used. Typically, cultures are run with a carbon source, such as glucose, being added at levels to achieve the desired level of growth and biomass. In other embodiments, the concentration of a carbon source, such as glucose, in the culture medium is greater than about 1 g/L, preferably greater than about 2 g/L, and more preferably greater than about 5 g/L. In addition, the concentration of a carbon source, such as glucose, in the culture medium is typically less than about 100 g/L, preferably less than about 50 g/L, and more preferably less than about 20 g/L. It should be noted that references to culture component concentrations can refer to both initial and/or ongoing component concentrations. In some cases, it may be desirable to allow the culture medium to become depleted of a carbon source during culture.

(110) Sources of assimilable nitrogen that can be used in a suitable culture medium include, but are not limited to, simple nitrogen sources, organic nitrogen sources and complex nitrogen sources. Such nitrogen sources include anhydrous ammonia, ammonium salts and substances of animal, vegetable and/or microbial origin. Suitable nitrogen sources include, but are not limited to, protein hydrolysates, microbial biomass hydrolysates, peptone, yeast extract, ammonium sulfate, urea, and amino acids. Typically, the concentration of the nitrogen sources, in the culture medium is greater than about 0.1 g/L, preferably greater than about 0.25 g/L, and more preferably greater than about 1.0 g/L. Beyond certain concentrations, however, the addition of a nitrogen source to the culture medium is not advantageous for the growth of the microorganisms. As a result, the concentration of the nitrogen sources, in the culture medium is less than about 20 g/L, preferably less than about 10 g/L and more preferably less than about 5 g/L. Further, in some instances it may be desirable to allow the culture medium to become depleted of the nitrogen sources during culture.

(111) The effective culture medium can contain other compounds such as inorganic salts, vitamins, trace metals or growth promoters. Such other compounds can also be present in carbon, nitrogen or mineral sources in the effective medium or can be added specifically to the medium.

(112) The culture medium can also contain a suitable phosphate source. Such phosphate sources include both inorganic and organic phosphate sources. Preferred phosphate sources include, but are not limited to, phosphate salts such as mono or dibasic sodium and potassium phosphates, ammonium phosphate and mixtures thereof. Typically, the concentration of phosphate in the culture medium is greater than about 1.0 g/L, preferably greater than about 2.0 g/L and more preferably greater than about 5.0 g/L. Beyond certain concentrations, however, the addition of phosphate to the culture medium is not advantageous for the growth of the microorganisms. Accordingly, the concentration of phosphate in the culture medium is typically less than about 20 g/L, preferably less than about 15 g/L and more preferably less than about 10 g/L.

(113) The culture medium can also contain a suitable sulfur source. Preferred sulfur sources include, but are not limited to, sulfate salts such as ammonium sulfate ((NH.sub.4).sub.2SO.sub.4), magnesium sulfate (MgSO.sub.4), potassium sulfate (K.sub.2SO.sub.4), and sodium sulfate (Na.sub.2SO.sub.4) and mixtures thereof. Typically, the concentration of sulfate in the culture medium is greater than about 1.0 g/L, preferably greater than about 3.0 g/L and more preferably greater than about 10.0 g/L. Beyond certain concentrations, however, the addition of sulfate to the culture medium is not advantageous for the growth of the microorganisms. Accordingly, the concentration of sulfate in the culture medium is typically less than about 50 g/L, preferably less than about 30 g/L and more preferably less than about 20 g/L.

(114) A suitable culture medium can also include a source of magnesium, preferably in the form of a physiologically acceptable salt, such as magnesium sulfate heptahydrate, although other magnesium sources in concentrations that contribute similar amounts of magnesium can be used. Typically, the concentration of magnesium in the culture medium is greater than about 0.5 g/L, preferably greater than about 1.0 g/L, and more preferably greater than about 2.0 g/L. Beyond certain concentrations, however, the addition of magnesium to the culture medium is not advantageous for the growth of the microorganisms. Accordingly, the concentration of magnesium in the culture medium is typically less than about 10 g/L, preferably less than about 5 g/L, and more preferably less than about 3 g/L. Further, in some instances it may be desirable to allow the culture medium to become depleted of a magnesium source during culture.

(115) In some embodiments, the culture medium can also include a biologically acceptable chelating agent, such as the dihydrate of trisodium citrate. In such instance, the concentration of a chelating agent in the culture medium is greater than about 0.2 g/L, preferably greater than about 0.5 g/L, and more preferably greater than about 1 g/L. Beyond certain concentrations, however, the addition of a chelating agent to the culture medium is not advantageous for the growth of the microorganisms. Accordingly, the concentration of a chelating agent in the culture medium is typically less than about 10 g/L, preferably less than about 5 g/L, and more preferably less than about 2 g/L.

(116) The culture medium can also initially include a biologically acceptable acid or base to maintain the desired pH of the culture medium. Biologically acceptable acids include, but are not limited to, hydrochloric acid, sulfuric acid, nitric acid, phosphoric acid and mixtures thereof. Biologically acceptable bases include, but are not limited to, ammonium hydroxide, sodium hydroxide, potassium hydroxide and mixtures thereof. In some embodiments, the base used is ammonium hydroxide.

(117) The culture medium can also include a biologically acceptable calcium source, including, but not limited to, calcium chloride. Typically, the concentration of the calcium source, such as calcium chloride, dihydrate, in the culture medium is within the range of from about 5 mg/L to about 2000 mg/L, preferably within the range of from about 20 mg/L to about 1000 mg/L, and more preferably in the range of from about 50 mg/L to about 500 mg/L.

(118) The culture medium can also include sodium chloride. Typically, the concentration of sodium chloride in the culture medium is within the range of from about 0.1 g/L to about 5 g/L, preferably within the range of from about 1 g/L to about 4 g/L, and more preferably in the range of from about 2 g/L to about 4 g/L.

(119) In some embodiments, the culture medium can also include trace metals. Such trace metals can be added to the culture medium as a stock solution that, for convenience, can be prepared separately from the rest of the culture medium. Typically, the amount of such a trace metals solution added to the culture medium is greater than about 1 ml/L, preferably greater than about 5 mL/L, and more preferably greater than about 10 mL/L. Beyond certain concentrations, however, the addition of a trace metals to the culture medium is not advantageous for the growth of the microorganisms. Accordingly, the amount of such a trace metals solution added to the culture medium is typically less than about 100 mL/L, preferably less than about 50 mL/L, and more preferably less than about 30 mL/L. It should be noted that, in addition to adding trace metals in a stock solution, the individual components can be added separately, each within ranges corresponding independently to the amounts of the components dictated by the above ranges of the trace metals solution.

(120) The culture media can include other vitamins, such as pantothenate, biotin, calcium, pantothenate, inositol, pyridoxine-HCl, and thiamine-HCl. Such vitamins can be added to the culture medium as a stock solution that, for convenience, can be prepared separately from the rest of the culture medium. Beyond certain concentrations, however, the addition of vitamins to the culture medium is not advantageous for the growth of the microorganisms.

(121) The fermentation methods described herein can be performed in conventional culture modes, which include, but are not limited to, batch, fed-batch, cell recycle, continuous and semi-continuous. In some embodiments, the fermentation is carried out in fed-batch mode. In such a case, some of the components of the medium are depleted during culture during the production stage of the fermentation. In some embodiments, the culture may be supplemented with relatively high concentrations of such components at the outset, for example, of the production stage, so that growth and/or vanillin or glucovanillin production is supported for a period of time before additions are required. The preferred ranges of these components are maintained throughout the culture by making additions as levels are depleted by culture. Levels of components in the culture medium can be monitored by, for example, sampling the culture medium periodically and assaying for concentrations. Alternatively, once a standard culture procedure is developed, additions can be made at timed intervals corresponding to known levels at particular times throughout the culture. As will be recognized by those in the art, the rate of consumption of nutrient increases during culture as the cell density of the medium increases. Moreover, to avoid introduction of foreign microorganisms into the culture medium, addition is performed using aseptic addition methods, as are known in the art. In addition, a small amount of anti-foaming agent may be added during the culture.

(122) The temperature of the culture medium can be any temperature suitable for growth of the genetically modified cells and/or production of vanillin or glucovanillin. For example, prior to inoculation of the culture medium with an inoculum, the culture medium can be brought to and maintained at a temperature in the range of from about 20 C. to about 45 C., preferably to a temperature in the range of from about 25 C. to about 40 C. In certain embodiments, the cells are eukaryotic, e.g. yeast, and the temperature is in the range of from about 28 C. to about 34 C. In certain embodiments, the cells are prokaryotic, e.g. bacteria, and the temperature is in the range of from about 35 C. to about 40 C., for instance 37 C.

(123) The pH of the culture medium can be controlled by the addition of acid or base to the culture medium. In such cases when ammonia is used to control pH, it also conveniently serves as a nitrogen source in the culture medium. Preferably, the pH is maintained from about 3.0 to about 8.0, more preferably from about 3.5 to about 7.0. In certain embodiments, the cells are eukaryotic, e.g. yeast, and the pH is preferably from about 4.0 to about 6.5. In certain embodiments, the cells are prokaryotic, e.g. bacteria, and the pH is from about 6.5 to about 7.5, e.g. about 7.0.

(124) In some embodiments, the carbon source concentration, such as the glucose, fructose or sucrose, concentration, of the culture medium is monitored during culture. Carbon source concentration of the culture medium can be monitored using known techniques, such as, for example, use of the glucose oxidase enzyme test or high pressure liquid chromatography, which can be used to monitor glucose concentration in the supernatant, e.g., a cell-free component of the culture medium. The carbon source concentration is typically maintained below the level at which cell growth inhibition occurs. Although such concentration may vary from organism to organism, for glucose as a carbon source, cell growth inhibition occurs at glucose concentrations greater than at about 60 g/L, and can be determined readily by trial. Accordingly, when glucose, fructose, or sucrose is used as a carbon source the glucose, fructose, or sucrose is preferably fed to the fermentor and maintained below detection limits. Alternatively, the glucose concentration in the culture medium is maintained in the range of from about 1 g/L to about 100 g/L, more preferably in the range of from about 2 g/L to about 50 g/L, and yet more preferably in the range of from about 5 g/L to about 20 g/L. Although the carbon source concentration can be maintained within desired levels by addition of, for example, a carbon source solution, it is acceptable, and may be preferred, to maintain the carbon source concentration of the culture medium by addition of aliquots of the original culture medium. The use of aliquots of the original culture medium may be desirable because the concentrations of other nutrients in the medium (e.g. the nitrogen and phosphate sources) can be maintained simultaneously. Likewise, the trace metals concentrations can be maintained in the culture medium by addition of aliquots of the trace metals solution.

(125) Other suitable fermentation medium and methods are described in, e.g., WO 2016/196321.

(126) Fermentation Compositions

(127) In another aspect, provided herein are fermentation compositions comprising a genetically modified host cell described herein and vanillin and/or glucovanillin produced from the genetically modified host cell. The fermentation compositions may further comprise a medium. In certain embodiments, the fermentation compositions comprise a genetically modified host cell, and further comprise vanillin or glucovanillin. In certain embodiments, the fermentation compositions provided herein comprise vanillin as a major component of the vanillin and/or glucovanillin produced from the genetically modified host cell. In certain embodiments, the fermentation compositions provided herein comprise glucovanillin as a major component of the vanillin and/or glucovanillin produced from the genetically modified host cell.

(128) Recovery of Vanillin and/or Glucovanillin

(129) Once the vanillin or glucovanillin is produced by the host cell, it may be recovered or isolated for subsequent use using any suitable separation and purification methods known in the art. In some embodiments, a clarified aqueous phase comprising the vanillin or glucovanillin is separated from the fermentation by centrifugation or filtration. In certain embodiments, flocculants and coagulants are added to the clarified aqueous phase, for instance, to the clarified aqueous phase.

(130) The vanillin or glucovanillin produced in these cells may be present in the culture supernatant and/or associated with the host cells. In embodiments where some of the vanillin or glucovanillin is associated with the host cell, the recovery of the vanillin or glucovanillin may comprise a method of improving the release of the vanillin and/or glucovanillin from the cells. In some embodiments, this could take the form of washing the cells with hot water or buffer treatment, with or without a surfactant, and with or without added buffers or salts. In some embodiments, the temperature is any temperature deemed suitable for releasing the vanillin and/or glucovanillin. In some embodiments, the temperature is in a range from 40 to 95 C.; or from 60 to 90 C.; or from 75 to 85 C. In some embodiments, the temperature is 40, 45, 50, 55, 65, 70, 75, 80, 85, 90, or 95 C. In some embodiments physical or chemical cell disruption is used to enhance the release of vanillin and/or glucovanillin from the host cell. Alternatively and/or subsequently, the vanillin or glucovanillin in the culture medium can be recovered using an isolation unit operations including, but not limited to solvent extraction, membrane clarification, membrane concentration, adsorption, chromatography, evaporation, chemical derivatization, crystallization, and drying.

(131) Methods of Making Genetically Modified Cells

(132) Also provided herein are methods for producing a host cell that is genetically engineered to comprise one or more of the modifications described above, e.g., one or more nucleic heterologous nucleic acids and/or biosynthetic pathway enzymes, e.g., for a vanillin or glucovanillin compound. Expression of a heterologous enzyme in a host cell can be accomplished by introducing into the host cells a nucleic acid comprising a nucleotide sequence encoding the enzyme under the control of regulatory elements that permit expression in the host cell. In some embodiments, the nucleic acid is an extrachromosomal plasmid. In other embodiments, the nucleic acid is a chromosomal integration vector that can integrate the nucleotide sequence into the chromosome of the host cell. In other embodiments, the nucleic acid is a linear piece of double stranded DNA that can integrate via homology the nucleotide sequence into the chromosome of the host cell.

(133) Nucleic acids encoding these proteins can be introduced into the host cell by any method known to one of skill in the art without limitation (see, for example, Hinnen et al. (1978) Proc. Natl. Acad. Sci. USA 75:1292-3; Cregg et al. (1985) Mol. Cell. Biol. 5:3376-3385; Goeddel et al. eds, 1990, Methods in Enzymology, vol. 185, Academic Press, Inc., CA; Krieger, 1990, Gene Transfer and ExpressionA Laboratory Manual, Stockton Press, NY; Sambrook et al., 1989, Molecular CloningA Laboratory Manual, Cold Spring Harbor Laboratory, NY; and Ausubel et al., eds., Current Edition, Current Protocols in Molecular Biology, Greene Publishing Associates and Wiley Interscience, NY). Exemplary techniques include, but are not limited to, spheroplasting, electroporation, PEG 1000 mediated transformation, and lithium acetate or lithium chloride mediated transformation.

(134) The amount of an enzyme in a host cell may be altered by modifying the transcription of the gene that encodes the enzyme. This can be achieved for example by modifying the copy number of the nucleotide sequence encoding the enzyme (e.g., by using a higher or lower copy number expression vector comprising the nucleotide sequence, or by introducing additional copies of the nucleotide sequence into the genome of the host cell or by deleting or disrupting the nucleotide sequence in the genome of the host cell), by changing the order of coding sequences on a polycistronic mRNA of an operon or breaking up an operon into individual genes each with its own control elements, or by increasing the strength of the promoter or operator to which the nucleotide sequence is operably linked. Alternatively or in addition, the copy number of an enzyme in a host cell may be altered by modifying the level of translation of an mRNA that encodes the enzyme. This can be achieved for example by modifying the stability of the mRNA, modifying the sequence of the ribosome binding site, modifying the distance or sequence between the ribosome binding site and the start codon of the enzyme coding sequence, modifying the entire intercistronic region located upstream of or adjacent to the 5 side of the start codon of the enzyme coding region, stabilizing the 3-end of the mRNA transcript using hairpins and specialized sequences, modifying the codon usage of enzyme, altering expression of rare codon tRNAs used in the biosynthesis of the enzyme, and/or increasing the stability of the enzyme, as, for example, via mutation of its coding sequence.

(135) The activity of an enzyme in a host cell can be altered in a number of ways, including, but not limited to, expressing a modified form of the enzyme that exhibits increased or decreased solubility in the host cell, expressing an altered form of the enzyme that lacks a domain through which the activity of the enzyme is inhibited, expressing a modified form of the enzyme that has a higher or lower Keat or a lower or higher Km for the substrate, or expressing an altered form of the enzyme that is more or less affected by feed-back or feed-forward regulation by another molecule in the pathway.

(136) In some embodiments, a nucleic acid used to genetically modify a host cell comprises one or more selectable markers useful for the selection of transformed host cells and for placing selective pressure on the host cell to maintain the foreign DNA.

(137) In some embodiments, the selectable marker is an antibiotic resistance marker. Illustrative examples of antibiotic resistance markers include, but are not limited to, the BLA, NAT1, PAT, AUR1-C, PDR4, SMR1, CAT, mouse dhfr, HPH, DSDA, KAN.sup.R, and SH BLE gene products. The BLA gene product from E. coli confers resistance to beta-lactam antibiotics (e.g., narrow-spectrum cephalosporins, cephamycins, and carbapenems (ertapenem), cefamandole, and cefoperazone) and to all the anti-gram-negative-bacterium penicillins except temocillin; the NAT1 gene product from S. noursei confers resistance to nourseothricin; the PAT gene product from S. viridochromogenes Tu94 confers resistance to bialophos; the AUR1-C gene product from Saccharomyces cerevisiae confers resistance to Auerobasidin A (AbA); the PDR4 gene product confers resistance to cerulenin; the SMR1 gene product confers resistance to sulfometuron methyl; the CAT gene product from Tn9 transposon confers resistance to chloramphenicol; the mouse dhfr gene product confers resistance to methotrexate; the HPH gene product of Klebsiella pneumonia confers resistance to Hygromycin B; the DSDA gene product of E. coli allows cells to grow on plates with D-serine as the sole nitrogen source; the KAN.sup.R gene of the Tn903 transposon confers resistance to G418; and the SH BLE gene product from Streptoalloteichus hindustanus confers resistance to Zeocin (bleomycin). In some embodiments, the antibiotic resistance marker is deleted after the genetically modified host cell disclosed herein is isolated.

(138) In some embodiments, the selectable marker rescues an auxotrophy (e.g., a nutritional auxotrophy) in the genetically modified microorganism. In such embodiments, a parent microorganism comprises a functional disruption in one or more gene products that function in an amino acid or nucleotide biosynthetic pathway and that when non-functional renders a parent cell incapable of growing in media without supplementation with one or more nutrients. Such gene products include, but are not limited to, the HIS3, LEU2, LYS1, LYS2, MET15, TRP1, ADE2, and URA3 gene products in yeast. The auxotrophic phenotype can then be rescued by transforming the parent cell with an expression vector or chromosomal integration construct encoding a functional copy of the disrupted gene product, and the genetically modified host cell generated can be selected for based on the loss of the auxotrophic phenotype of the parent cell. Utilization of the URA3, TRP1, and LYS2 genes as selectable markers has a marked advantage because both positive and negative selections are possible. Positive selection is carried out by auxotrophic complementation of the URA3, TRP1, and LYS2 mutations, whereas negative selection is based on specific inhibitors, i.e., 5-fluoro-orotic acid (FOA), 5-fluoroanthranilic acid, and aminoadipic acid (aAA), respectively, that prevent growth of the prototrophic strains but allows growth of the URA3, TRP1, and LYS2 mutants, respectively. In other embodiments, the selectable marker rescues other non-lethal deficiencies or phenotypes that can be identified by a known selection method.

(139) Described herein are specific genes and proteins useful in the methods, compositions and organisms of the disclosure; however it will be recognized that absolute identity to such genes is not necessary. For example, changes in a particular gene or polynucleotide comprising a sequence encoding a polypeptide or enzyme can be performed and screened for activity. Typically such changes comprise conservative mutations and silent mutations. Such modified or mutated polynucleotides and polypeptides can be screened for expression of a functional enzyme using methods known in the art.

(140) Due to the inherent degeneracy of the genetic code, other polynucleotides which encode substantially the same or functionally equivalent polypeptides can also be used to clone and express the polynucleotides encoding such enzymes.

(141) As will be understood by those of skill in the art, it can be advantageous to modify a coding sequence to enhance its expression in a particular host. The genetic code is redundant with 64 possible codons, but most organisms typically use a subset of these codons. The codons that are utilized most often in a species are called optimal codons, and those not utilized very often are classified as rare or low-usage codons. Codons can be substituted to reflect the preferred codon usage of the host, in a process sometimes called codon optimization or controlling for species codon bias. Codon optimization for other host cells can be readily determined using codon usage tables or can be performed using commercially available software, such as CodonOp (www.idtdna.com/CodonOptfrom) from Integrated DNA Technologies.

(142) Optimized coding sequences containing codons preferred by a particular prokaryotic or eukaryotic host (Murray et al., 1989, Nucl Acids Res. 17:477-508) can be prepared, for example, to increase the rate of translation or to produce recombinant RNA transcripts having desirable properties, such as a longer half-life, as compared with transcripts produced from a non-optimized sequence. Translation stop codons can also be modified to reflect host preference. For example, typical stop codons for S. cerevisiae and mammals are UAA and UGA, respectively. The typical stop codon for monocotyledonous plants is UGA, whereas insects and E. coli commonly use UAA as the stop codon (Dalphin et al., 1996, Nucl Acids Res. 24:216-8).

(143) Those of skill in the art will recognize that, due to the degenerate nature of the genetic code, a variety of DNA molecules differing in their nucleotide sequences can be used to encode a given enzyme of the disclosure. The native DNA sequence encoding the biosynthetic enzymes described above are referenced herein merely to illustrate an embodiment of the disclosure, and the disclosure includes DNA molecules of any sequence that encode the amino acid sequences of the polypeptides and proteins of the enzymes utilized in the methods of the disclosure. In similar fashion, a polypeptide can typically tolerate one or more amino acid substitutions, deletions, and insertions in its amino acid sequence without loss or significant loss of a desired activity. The disclosure includes such polypeptides with different amino acid sequences than the specific proteins described herein so long as the modified or variant polypeptides have the enzymatic anabolic or catabolic activity of the reference polypeptide. Furthermore, the amino acid sequences encoded by the DNA sequences shown herein merely illustrate embodiments of the disclosure.

(144) In addition, homologs of enzymes useful for the compositions and methods provided herein are encompassed by the disclosure. In some embodiments, two proteins (or a region of the proteins) are substantially homologous when the amino acid sequences have at least about 30%, 40%, 50%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, or 99% identity. To determine the percent identity of two amino acid sequences, or of two nucleic acid sequences, the sequences are aligned for optimal comparison purposes (e.g., gaps can be introduced in one or both of a first and a second amino acid or nucleic acid sequence for optimal alignment and non-homologous sequences can be disregarded for comparison purposes). In one embodiment, the length of a reference sequence aligned for comparison purposes is at least 30%, typically at least 40%, more typically at least 50%, even more typically at least 60%, and even more typically at least 70%, 80%, 90%, 100% of the length of the reference sequence. The amino acid residues or nucleotides at corresponding amino acid positions or nucleotide positions are then compared. When a position in the first sequence is occupied by the same amino acid residue or nucleotide as the corresponding position in the second sequence, then the molecules are identical at that position (as used herein amino acid or nucleic acid identity is equivalent to amino acid or nucleic acid homology). The percent identity between the two sequences is a function of the number of identical positions shared by the sequences, taking into account the number of gaps, and the length of each gap, which need to be introduced for optimal alignment of the two sequences.

(145) When homologous is used in reference to proteins or peptides, it is recognized that residue positions that are not identical often differ by conservative amino acid substitutions. A conservative amino acid substitution is one in which an amino acid residue is substituted by another amino acid residue having a side chain (R group) with similar chemical properties (e.g., charge or hydrophobicity). In general, a conservative amino acid substitution will not substantially change the functional properties of a protein. In cases where two or more amino acid sequences differ from each other by conservative substitutions, the percent sequence identity or degree of homology may be adjusted upwards to correct for the conservative nature of the substitution. Means for making this adjustment are well known to those of skill in the art (See, e.g., Pearson W. R., 1994, Methods in Mol Biol 25:365-89).

(146) The following six groups each contain amino acids that are conservative substitutions for one another: 1) Serine(S), Threonine (T); 2) Aspartic Acid (D), Glutamic Acid (E); 3) Asparagine (N), Glutamine (Q); 4) Arginine (R), Lysine (K); 5) Isoleucine (I), Leucine (L), Alanine (A), Valine (V), and 6) Phenylalanine (F), Tyrosine (Y), Tryptophan (W).

(147) Sequence homology for polypeptides, which is also referred to as percent sequence identity, is typically measured using sequence analysis software. A typical algorithm used comparing a molecule sequence to a database containing a large number of sequences from different organisms is the computer program BLAST. When searching a database containing sequences from a large number of different organisms, it is typical to compare amino acid sequences.

(148) Furthermore, any of the genes encoding the foregoing enzymes (or any others mentioned herein (or any of the regulatory elements that control or modulate expression thereof)) may be optimized by genetic/protein engineering techniques, such as directed evolution or rational mutagenesis, which are known to those of ordinary skill in the art. Such action allows those of ordinary skill in the art to optimize the enzymes for expression and activity in yeast.

(149) In addition, genes encoding these enzymes can be identified from other fungal and bacterial species and can be expressed for the modulation of this pathway. A variety of organisms could serve as sources for these enzymes, including, but not limited to, Saccharomyces spp., including S. cerevisiae and S. uvarum, Kluyveromyces spp., including K. thermotolerans, K. lactis, and K. marxianus, Pichia spp., Hansenula spp., including H. polymorpha, Candida spp., Trichosporon spp., Yamadazyma spp., including Y. spp. stipitis, Torulaspora pretoriensis, Issatchenkia orientalis, Schizosaccharomyces spp., including S. pombe, Cryptococcus spp., Aspergillus spp., Neurospora spp., or Ustilago spp. Sources of genes from anaerobic fungi include, but are not limited to, Piromyces spp., Orpinomyces spp., or Neocallimastix spp. Sources of prokaryotic enzymes that are useful include, but are not limited to, Escherichia. coli, Zymomonas mobilis, Staphylococcus aureus, Bacillus spp., Clostridium spp., Corynebacterium spp., Pseudomonas spp., Lactococcus spp., Enterobacter spp., and Salmonella spp.

(150) Techniques known to those skilled in the art may be suitable to identify additional homologous genes and homologous enzymes. Generally, analogous genes and/or analogous enzymes can be identified by functional analysis and will have functional similarities. Techniques known to those skilled in the art may be suitable to identify analogous genes and analogous enzymes. For example, to identify homologous or analogous UDP glycosyltransferases, or any biosynthetic pathway genes, proteins, or enzymes, techniques may include, but are not limited to, cloning a gene by PCR using primers based on a published sequence of a gene/enzyme of interest, or by degenerate PCR using degenerate primers designed to amplify a conserved region among a gene of interest. Further, one skilled in the art can use techniques to identify homologous or analogous genes, proteins, or enzymes with functional homology or similarity. Techniques include examining a cell or cell culture for the catalytic activity of an enzyme through in vitro enzyme assays for said activity (e.g. as described herein or in Kiritani, K., Branched-Chain Amino Acids Methods Enzymology, 1970), then isolating the enzyme with said activity through purification, determining the protein sequence of the enzyme through techniques such as Edman degradation, design of PCR primers to the likely nucleic acid sequence, amplification of said DNA sequence through PCR, and cloning of said nucleic acid sequence. To identify homologous or similar genes and/or homologous or similar enzymes, analogous genes and/or analogous enzymes or proteins, techniques also include comparison of data concerning a candidate gene or enzyme with databases such as BRENDA, KEGG, or MetaCYC. The candidate gene or enzyme may be identified within the above mentioned databases in accordance with the teachings herein.

EXAMPLES

Example 1. Yeast Transformation Methods

(151) Each DNA construct is integrated into Saccharomyces cerevisiae (CEN.PK2) with standard molecular biology techniques in an optimized lithium acetate (LiAc) transformation. Briefly, cells are grown overnight in yeast extract peptone dextrose (YPD) media at 30 C. with shaking (200 rpm), diluted to an OD.sub.600 of 0.1 in 100 mL YPD, and grown to an OD.sub.600 of 0.6-0.8. For each transformation, 5 mL of culture is harvested by centrifugation, washed in 5 mL of sterile water, spun down again, resuspended in 1 mL of 100 mM LiAc, and transferred to a microcentrifuge tube. Cells are spun down (13,000g) for 30 seconds, the supernatant is removed, and the cells are resuspended in a transformation mix consisting of 240 L 50% PEG, 36 L 1 M LiAc, 10 L boiled salmon sperm DNA, and 74 L of donor DNA. Following a heat shock at 42 C. for 40 minutes, cells are recovered overnight in YPD media before plating on selective media. DNA integration is confirmed by colony PCR with primers specific to the integrations.

Example 2: Improvement in the Production of Vanillin by Metabolic Engineering of the SAM Regeneration Pathway for Improved Flux Through the O-Methyltransferase Reaction

(152) To achieve methylation of protocatechuic acid into vanillic acid by the O-methyltransferase enzyme, a donor for the methyl group is required. S-adenosylmethionine is the major cosubstrate utilized for methyl transfer reactions. Here the O-methyltransferase enzyme converts one molecule of protocatechuic acid and one molecule of S-adenosylmethionine (SAM) into one molecule of vanillic acid and one molecule of S-adenosylhomocysteine (SAH). SAH can be converted back into SAM by the action of three enzymes, S-adenosyl-L-homocysteine hydrolase, methionine synthase, and SAM synthetase. In yeast these are encoded by SAH1, MET6 and homologs SAM1 and SAM2, respectively. See FIG. 1. In order to increase the amount of vanillic acid and subsequently the amount of vanillin produced it is advantageous to increase the availability of SAM and decrease the concentration of SAH produced, which is inhibitory to most methyltransferase enzymes. In order to increase the regeneration of SAH back to SAM to drive the O-methyltransferase enzyme reaction, a second copy of each of the native yeast genes SAM1, SAM2, SAH1, and MET6 has been integrated into the genome of a vanillin producing strain Y41906 under the control of an inducible promoter that enables these genes to be overexpressed highly during the production phase of fermentation. The resulting strain is Y42688.

(153) The performance of Y41906 (the parent strain) and Y42688 (the child strain) was tested in a 500 mL fermentor as described below. Samples were taken every 24 hours and concentration of vanillin, and vanillyl alcohol were measured. Here the sum of vanillin plus vanillyl alcohol production was used to calculate the cumulative yield and productivity of the strain. Y42688 achieved a 30% increase in cumulative yield and 75% increase in productivity (0-5 day) compared to parent strain Y41906. See FIG. 3.

(154) Strain Construction to Generate Y41906/Y42688

(155) Y17025

(156) All strains described here are derived from Y17025. Y17025 is a wildtype prototrophic Saccharomyces cerevisiae strain Cen.PK113-7d. All DNA-mediated transformation into S. cerevisiae was conducted using the standard lithium acetate procedure as described by Gietz R W and Woods R A, Guide to Yeast Genetics and Molecular and Cell Biology. Part B. San Diego, Calif.: Academic Press Inc. pp. 87-96 (2002), and in all cases integration of the constructs were confirmed by PCR amplification of genomic DNA.

(157) Y33651

(158) Y33651 was generated from Y17025 from four genomic integrations. First, the native GAL80 locus was replaced with an integration MS106908 (SEQ ID NO: 1) consisting of the GAL80 gene with a temperature sensitive allele fused to the DHFR protein from Mus musculus which reduced protein stability. The expression of this GAL80 variant is controlled by a pMAL32 promoter which induces expression when maltose is present. This construct also contains a copy of constitutively driven GAL4 annotated pGAL4oc-GAL4. A non-functional gene fragment derived from the part of the FixA flavoprotein is used as a spacer between these two genes as shown in the diagram below. US and DS refer to the region immediately upstream (US) and immediately downstream (DS) of the coding region.

(159) TABLE-US-00001 US_GAL80pMAL32D_GAL80ts1FIXA custom character DS_GAL80

(160) Next, three reductases, ADH6, GRE2, and YGL039W were deleted by integrating constructs containing homology to the upstream and downstream region of these genes, deleting the ORF (SEQ ID NO: 2, 3 and 4).

(161) TABLE-US-00002 US_ADH6DS_ADH6 US_GRE2DS_GRE2 US_YGL039WDS_YGL039W
Y41906

(162) Y41906 was generated from Y33651 by one evolution and isolation step and three integrations. Y33651 was evolved for increased tolerance to vanillin by serial propagation in media containing concentration of vanillin which reduced the growth rate of Y33651. Following this serial propagation, Y35127 was identified which had an improved growth rate in media containing vanillin.

(163) This strain was subsequently integrated with three genetic constructs containing the vanillin pathway to produce Y41906 (SEQ ID NO: 5, 6, and 7). MS133489 (SEQ ID NO: 5) is flanked with upstream and downstream homology regions targeting an intergenic region downstream of MGA1. This construct contains four genes which catalyze the conversion of central carbon metabolites erythrose-4-phosphate and phosphoenolpyruvate into protocatechuic acid (PCA). These are a feedback resistant version of E. coli Ec.AroF(FBR) (J. Bacteriol. November 1990 172:6581-6584) driven by pGAL2 and followed by a HUG1 terminator, E. coli Ec.AroB driven by pGAL2 and followed by a TIPI terminator, E. coli Ec.AroD driven by pGAL7 and followed by a PGK 1 terminator, and Podospora pauciseta Pp.AroZ driven by pGAL7 and followed by a CYC1 terminator. A non-functional gene fragment derived from part of the CaiB gene, a carnitine CoA transferase, is used as a spacer between the first two genes and second two genes. A diagram is shown below.

(164) TABLE-US-00003 US_dsMGA1pGAL7Pp.AroZtCYC1 custom character CAIBpGAL2Ec.AroBtTIP1

(165) MS134781 (SEQ ID NO: 6) is integrated at the intergenic region downstream of the ALG1 gene. This integration is flanked by homology regions targeting downstream of the ALG1 gene and contains a phosphopantetheinyl transferase (PPTASE) from Corynebacterium glutamicum driven by pGAL10 and followed by VAM5 terminator, followed by PGK 1 terminator, an aromatic carboxylic acid reductase (ACAR) from Nocardia iowensis driven by pGAL1 and followed by TIPI terminator, a spacer non-functional gene fragment derived from the part of the FixA flavoprotein, an O-methyl transferase from Hordeum vulgare (Hv.OMT) driven by pGAL10 and followed by the CYC1 terminator and O-methyltransferase from Setaria italic followed by HUG1 terminator. A diagram is shown below.

(166) TABLE-US-00004 US_dsALG1 custom character pGAL10_1NLACARtTIP1FIXA pGAL10_1SLOMTtHUG1DS_dSALG1

(167) MS130477 (SEQ ID NO: 7) contains upstream and downstream homology to integrate into an intergenic region downstream of YCT1. This flanks two copies of O-methyltransferase from Brassica napus followed by either CYC1 terminator or HUG1 terminator as shown in the diagram below.

(168) TABLE-US-00005 US_dsYCT1 custom character pGAL10_1Bn.OmttHUG1DS_dsYCT1
Y42688

(169) Y42686 was generated from Y41906 by one integration. MS129629 (SEQ ID NO: 8). This integration is flanked by homology upstream and downstream of the HO locus resulting in replacement of the HO open reading frame. The integration contains a copy of SAH1 (gene and native terminator) and MET6 (gene and native terminator) driven by a divergent pGAL1_10 promoter, and a copy of SAM1 (gene and native terminator) and mSAM2 (gene and native terminator) driven by a pGAL1_10 promoter. These are separated by a non-coding fragment of E. coli K12 designated ECO1. A diagram is shown below.

(170) TABLE-US-00006 US_HO custom character pGAL10_1mMET6ECO1 pGAL10_1mSAM2DS_HO
Fermentation Media and Conditions for Y41906/Y42688

(171) Yeast colonies grown on an agar plate were used to inoculate a 500 mL baffled seed flask containing 60 mL of BSM 2.0 containing 4% sucrose, 2% maltose, 5 g/L lysine and grown in a shaker at 28 C., 200 RPM for 21 hours. 60 mL of the seed flask culture was then inoculated into a 0.5-L manufacturing fermentor (MFA) containing 240 mL of MF media described above. The nutrient feed to the fermentor was a 100 g/L pure sucrose feedstock. The initial pulse was 2 g TRS/L at a rate of 5 g/L/h. The fermentor feed rate was then adjusted using an algorithm based on the culture demand for carbon, as indicated by rises in dissolved oxygen. The fermentation was run aerobically at a constant temperature of 30 C. and constant pH of 5.0 (controlled by ammonium hydroxide additions) until the dissolved oxygen reached 0%. The agitation was then controlled in order to maintain an oxygen utilization rate of 15 mmol O.sub.2/L/h for the remainder of the fermentation. Culture was removed as needed to prevent overflow. Salts, trace metals and vitamins were also added daily. 0.1 mL L-61 antifoam was added to the fermentation media at the beginning and subsequently added as needed. The amount of vanillin produced and the total sugar consumed by the cells was monitored daily and the ratio of these two values (i.e., the product yield off of sugar) was determined for each 24 hour period. The fermentor was run for 5 days. Cumulative yield indicates the total yield from time 0 to the indicated time point. Similarly, cumulative productivity indicates the total productivity from time 0 to the indicated time point.

(172) Quantification of Vanillin Y41906/Y42688

(173) To quantify the amount of vanillin and vanillyl alcohol produced, the samples were analyzed on a Agilent Vanquish Flex Binary UHPLC System with a diode array detector with the following program: Mobile phase (A): 1.4% sulfuric acid v/v in water Mobile phase (B): 100% acetonitrile Gradient is as follows [gradient time, (min) mobile phase A, (%)]: [(0.00, 88), (0.05, 88), (1.25, 85), (2.25, 83), (3.0, 82), (3.5, 88), (4.0, 88)]. Flow rate was 1 mL/min.

Example 3: Further Improvement in the Production of Vanillin by Metabolic Engineering of the SAM Regeneration Pathway for Improved Flux Through the O-Methyltransferase Reaction

(174) In order to further improve the regeneration of SAH back to SAM and thereby improve the production of vanillin, additional genes SHM2, MET12, MET13, and a third copy of MET6 were integrated into the genome of a glucovanillin producing strain under the control of an inducible promoter that enables these genes to be overexpressed highly during the production phase of fermentation. These modifications were tested in a strain that produces glucovanillin as a fermentation product. The parent strain Y48967 contains genes required to produce glucovanillin. In addition to the glucovanillin core genes, the cassette to overexpress a second copy of SAM1, SAM2, SAH1, and MET6 has already been integrated (as was done to make Y42688 from Y41906). To this strain was integrated into the genome a cassette overexpressing an additional copy of SHM2, MET12, MET13, and MET6 to generate Y48969. SHM2 and MET12/MET13 catalyze the transfer of a C1 unit to tetrahydrofolate (THF) and subsequent reduction to 5-methyltetrahydrofolate which is required to drive the MET6 reaction to recycle homocysteine back to methionine as shown in FIG. 2.

(175) These strains were both tested in a 0.5 L fermentor as described below. In order to measure the concentration of vanillin produced, samples of the fermentation broth were centrifuged, and the supernatant was treated with a -glucosidase enzyme to cleave the glucose from the glucovanillin and generate vanillin. The resulting concentration of vanillin was measured by UPLC as described below. This vanillin titer was used to calculate the cumulative yield and productivity of each strain shown in FIG. 4. Y48969 had a 7% increase in 0-5 day cumulative vanillin yield and 17% increase in 0-5 day cumulative vanillin productivity compared to Y48967.

(176) Strain Construction to Generate Y48967/Y48969

(177) Y33653

(178) Y33653 was generated from Y33651 by deletion of the ARI1 gene by integration of MS120569 (SEQ ID NO 10). Diagram is shown below.

(179) TABLE-US-00007 US_ARI1DS_ARI1
Y44814

(180) Y44814 was constructed from Y33653 with four integrations. MS133973 (SEQ ID NO: 9) was integrated at the BUD9 locus replacing the BUD9 open reading frame. The integration contains a eugenol alcohol oxidase from Rhodococcus jostii, Rj.EAO followed by a HUG1 terminator, and mCTT1 containing the native Saccharomyces cerevisiae CTT1 gene followed by its native terminator driven by the pGAL1_10 divergent promoter as shown below.

(181) TABLE-US-00008 US_BUDS custom character pGAL1_10RJ.EAOtHUG1DS_BUDS

(182) MS137150 (SEQ ID NO: 10) was integrated at the EXG1 locus replacing the native EXG1 gene. This integration contains two copies of Arabidopsis thaliana UDP-glycosyltransferase, At.UGT, driven by a divergent pGAL10_1 promoter and followed by either a HUG1 terminator or CYC1 terminator as shown below.

(183) TABLE-US-00009 US_EXG1 custom character pGAL10_1At.UGTtHUG1DS_EXG1

(184) MS129629 (SEQ ID NO: 8) was integrated as described above.

(185) Y48967

(186) Y48967 was created from Y44814 with three integrations. MS146176 (SEQ ID NO: 11) was integrated downstream of the MGA1 gene. This integration contains Pp.AroZ driven by pGAL2 promoter and followed by tGAS1 terminator, Ec.AroB driven by pGAL7 promoter and followed by tGRS1 terminator, a CAIB spacer as described above, a Ec.AroD gene driven by pGAL7 promoter and followed by CYS4 terminator and a feedback resistant allele of Ec.AroF (described above) driven by pGAL2 promoter and followed by ECM33 terminator as shown in the diagram below.

(187) TABLE-US-00010 US_dsMGA1pGAL2Pp.AroZtGAS1pGAL7Ec.AroBtGRS1CAIB custom character DS_dsMGA1

(188) MS146277 (SEQ ID NO: 12) was integrated downstream of the YCT1 gene. This integration contains two copies of Bn.OMT with DIT1 terminator and two copies of Hv.OMT with VMA8 terminator each driven by divergent pGAL1_10 promoters as described below and with a spacer derived from an E. coli sequence of a non-functional gene fragment derived from the part of the MurD synthetase gene.

(189) TABLE-US-00011 US_dSYCT1 custom character pGAL10_1Hv.OMTtVMA8MURD pGAL10_1Bn.OMTtDIT1DS_dsYCT1

(190) MS146176 (SEQ ID NO: 13) was integrated downstream of the ALG1 gene. This integration contains an ACAR driven by pGAL7 promoter and followed by an EFB1 terminator separated by a FIXA spacer and followed by a PPTase from Nocardia iowensis driven by pGAL7 promoter and followed by tSYN8 terminator as shown below.

(191) TABLE-US-00012 US_dsALG1pGAL2Mx.ACARtEFB1FIXA custom character DS_dsALG1
Y48969

(192) Y48969 was generated from Y48967 by one integration. MS141850 (SEQ ID NO: 14) was integrated at the YGL039w locus. This contains overexpression of additional copies of four native Saccharomyces cerevisiae genes, MET12, MET13, MET6 and SHM2 with their native terminators driven by divergent pGAL1_10 promoters as shown below.

(193) TABLE-US-00013 US_YGL039W custom character pGAL10_1mMET6ECO1 pGAL10_1mSHM2DS_YGL039W
Fermentation Media and Conditions for Y48967/Y48969

(194) A 1 mL vial of frozen cell suspension of a yeast strain containing the desired genetic modifications, was thawed, transferred into a 500-mL baffled flask containing 100 mL of BSM 2.0 containing 4% sucrose, 2% maltose, and 5 g/L lysine and grown in a shaker at 28 C., 200 RPM for 21 hours. 0.5 mL of this culture was then transferred into a second flask containing 100 ml of BSM 2.0 (8 g/L KH.sub.2PO.sub.4, 15 g/L (NH.sub.4).sub.2SO.sub.4, 6.15 g/L MgSO.sub.4*7H.sub.2O, 0.0575 ZnSO.sub.4*7H.sub.2O, 0.0032 g/L CuSO.sub.4, 0.0032 MnCl.sub.2*4H.sub.2O, 0.0047 g/L CoCl.sub.2*6H.sub.2O, 0.0048 g/L NazMoO.sub.4*2H.sub.2O, 0.028 g/L FeSO.sub.4*7H.sub.2O, 0.029 g/L CaCl.sub.2*2H.sub.2O, 0.117 g/L EDTA, 0.0006 g/L Biotin, 0.0024 g/L p-Aminobenzoic acid, 0.012 g/L nicotinic acid, 0.03 g/L myoinositol, 0.012 g/L pyridoxine HCl, 0.012 g/L thiamine HCl 0.012 g/L calcium pantothenate, 6 g/L succinic acid) containing 4% sucrose and 2% maltose, and 5 g/L lysine and grown in a shaker at 28 C., 200 RPM for 21 hours. 0.6 mL of this culture was then inoculated into a 0.5-L initial fermentor (IFA) containing 299.4 mL of IF media (8 g/L KH.sub.2PO.sub.4, 7 g/L (NH.sub.4).sub.2SO.sub.4, 6.15 g/L MgSO.sub.4*7H.sub.2O, 3 mL/L 1 Bird Vitamins 3.5 (0.05 g/L biotin, 0.2 p-aminobenzoic acid, 1 g/L nicotinic acid, 2.5 g/L myoinositol, 1 g/L pyridoxine HCl, 1 g/L thiamine HCl, 1 g/L calcium pantothenate), 5 mL/L 1 Bird (5.75 g/L ZnSO.sub.4*7H.sub.2O, 0.32 g/L CuSO.sub.4, 0.32 MnCl.sub.2*4H.sub.2O, 0.47 g/L CoCl.sub.2*6H.sub.2O, 0.48 g/L Na.sub.2MoO.sub.4*2H.sub.2O, 2.8 g/L FeSO.sub.4*7H.sub.2O, 2.9 CaCl.sub.2*2H.sub.2O, 0.0585 EDTA), 10 g/L Maltose, 20 g/L Lysine). The nutrient feed to the IFA was an undefined Brazilian cane syrup media delivered with an initial pulse equivalent of 20 g TRS/L. The IFA was operated at 28 C. for 24 hours. 50 mL of the IFA culture was then inoculated into a 0.5-L manufacturing fermentor (MFA) containing 200 mL of MF media (8 g/L KH.sub.2PO.sub.4, 7 g/L (NH.sub.4).sub.2SO.sub.4, 6.15 g/L MgSO.sub.4*7H.sub.2O, 3 mL/L 1 Bird Vitamins 3.5 (0.05 g/L biotin, 0.2 p-aminobenzoic acid, 1 g/L nicotinic acid, 2.5 g/L myoinositol, 1 g/L pyridoxine HCl, 1 g/L thiamine HCl, 1 g/L calcium pantothenate), 5 mL/L 1 Bird (, 5.75 g/L ZnSO.sub.4*7H.sub.2O, 0.32 g/L CuSO.sub.4, 0.32 MnCl.sub.2*4H.sub.2O, 0.47 g/L CoCl.sub.2*6H.sub.2O, 0.48 g/L Na.sub.2MoO.sub.4*2H.sub.2O, 2.8 g/L FeSO.sub.4*7H.sub.2O, 2.9 CaCl.sub.2*2H.sub.2O, 0.0585 EDTA), 5 g/L Maltose, 2 g/L Lysine). The nutrient feed to the fermentor was an undefined Brazilian cane syrup media delivered with an initial pulse equivalent to a 10 g TRS/L delivered at rate of 8.5 g TRS/L/h. The fermentor feed rate was then adjusted using an algorithm based on the culture demand for carbon, as indicated by rises in dissolved oxygen. The fermentation was run aerobically at a constant temperature of 30 C. and constant pH of 5.0 (controlled by ammonium hydroxide additions) until the dissolved oxygen reached 0% The agitation was then controlled in order to maintain an oxygen utilization rate of 110 mmol O.sub.2/L/h for the remainder of the fermentation. Culture was removed daily for sampling and to prevent overflow. Salts, trace metals and vitamins were also added daily. 0.2 mL Y-30 antifoam was added to the fermentation media at the beginning and subsequently added as needed. The amount of gluco-vanillin produced and the total sugar consumed by the cells were monitored daily and the ratio of these two values (i.e., the product yield off of sugar) was determined for each 24 hour period. The fermentor was run for 10 days.

(195) Quantification of Vanillin Y48967/Y48969

(196) To quantify the amount of vanillin produced, the samples first treated with a commercially available beta-glucosidase to convert glucovanillin into vanillin for analysis. Samples were then analyzed on a Agilent Vanquish Flex Binary UHPLC System with a diode array detector with the following program: Mobile phase (A): 1.4% sulfuric acid v/v in water Mobile phase (B): 100% acetonitrile Gradient is as follows [gradient time, (min) mobile phase A, (%)]: [(0.00, 88), (0.05, 88), (1.25, 85), (2.25, 83), (3.0, 82), (3.5, 88), (4.0, 88)]. Flow rate was 1 mL/min.

Example 4: Further Improvement in the Production of Vanillin by Replacing the Native Methylenetetrahydrofolate Reductase with a Chimera Insensitive to SAM for Improved Flux Through the O-Methyltransferase Reaction

(197) Methylenetetrahydrofolate reductase (MTHFR) is a useful step in converting SAH back to SAM to drive the OMT reaction. Yeast MTHFR (Met12 and Met13) are reported to be feedback inhibited by high concentrations of SAM. MTHFR enzymes in plants such as Arabadopsis do not have this same feedback inhibition. Roje et al. (Roje et al., J. Biol. Chem., 2002; 277 (6): 4056-4061) constructed a chimeric protein by fusing gene sequence coding for the C-terminal domain of Arabadopsis MTHFR with the sequence coding for the N-terminal domain of yeast Met13. This strain accumulated higher intracellular SAM compared to native yeast. It is believed that this modification may also be advantageous to increase intracellular SAM concentrations in glucovanillin producing strains to drive the OMT reaction. Since these strains already contained an overexpressed copy of MET13, we replaced the C-terminus of both the native copy and overexpressed copy of MET13 in Y57481 with the C-terminus of Arabidopsis MTHFR to generate Y57482 and tested these strains in fermentation.

(198) Both strains were tested in a 0.5 L fermentor as described below. In order to measure the concentration of vanillin produced, samples of the fermentation broth were centrifuged, and the supernatant was treated with a -glucosidase enzyme to cleave the glucose. The resulting concentration of vanillin was measured by UPLC as described below. This vanillin titer was used to calculate the cumulative yield and productivity of each strain shown in FIG. 5. Y57482 had a 9% increase in 0-10 day cumulative vanillin yield and 18% increase in 0-10 day cumulative vanillin productivity compared to Y57481.

(199) Strain Construction to Generate Y57481/Y57482

(200) Y57481

(201) Y57481 was constructed from Y44814 with eight integrations. First, the engineered GAL80 gene with a temperature sensitive allele fused to the DHFR protein from Mus musculus in MS106908 (SEQ ID NO: 1) was replaced with a different engineered GAL80 gene MS150540 (SEQ ID NO: 16) comprised of the native GAL80 gene fused to an engineered maltose binding domain which is destabilized in the absence of maltose. The expression of this GAL80 variant is controlled by a pMAL32 promoter which induces expression when maltose is present. The GAL4oc from MS106908 was left intact. The new integration is described below.

(202) TABLE-US-00014 US_GAL80pMAL32GAL80_MBPLB_v4FIXA

(203) MS159820 (SEQ ID NO: 17) was integrated downstream of the MGA1 gene. This integration contains Pp.AroZ driven by pGAL2 promoter and followed by tGAS1 terminator, Ec.AroB driven by pGAL7 promoter and followed by tGRS1 terminator, a CAIB spacer as described above, a Ec.AroD gene driven by pGAL2 promoter and followed by CYS4 terminator and a feedback resistant allele of Ec.AroF (described above) driven by pGAL7 promoter and followed by ECM33 terminator as shown in the diagram below.

(204) TABLE-US-00015 US_dsMGA1 custom character pGAL7Ec.AroBtGRS1CAIB Ec.AroF(FBR)DS_dsMGAl

(205) MS156217 (SEQ ID NO: 18) was integrated downstream of the YCT1 gene. This integration contains two copies of Bn.OMT with DIT1 terminator and two copies of Hv.OMT with VMA8 terminator each driven by divergent pGAL1_10 promoters as described below and with a spacer derived from an E. coli sequence of a non-functional gene fragment derived from the part of the MurD synthetase gene.

(206) TABLE-US-00016 US_dsYCT1 custom character pGAL10_1Hv.OMTtVMA8MURD pGAL10_1Bn.OMTtDIT1DS_dsYCT1

(207) MS153767 (SEQ ID NO: 19) was integrated downstream of the ALG1 gene. This integration contains an ACAR driven by pGAL7 promoter and followed by a EFB1 terminator separated by a FIXA spacer and followed by a PPTase from Nocardia iowensis driven by pGAL7 promoter and followed by tSYN8 terminator as shown below.

(208) TABLE-US-00017 US_dsALG1pGAL7Mx.ACARtEFB1FIXA custom character DS_dsALG1

(209) MS141850 (SEQ ID NO: 14) was integrated at the YGL039w locus as described above.

(210) MS172561 (SEQ ID NO: 20) was integrated downstream of the GAT4 locus. This integration contains Pp.AroZ driven by pGAL1 promoter and followed by tGAS1 terminator as described below.

(211) TABLE-US-00018 US_dsGAT4pGAL1Pp.AroZtGAS1DS_dsGAT4

(212) MS167660 (SEQ ID NO: 21) was integrated downstream of the YCT1 locus. This integration contains two copies of Bn. OMT with DIT1 terminator and two copies of Ca.OMT with tHUG terminator each driven by divergent pGAL2_7 promoters as described below and with a spacer derived from an E. coli sequence of a non-functional gene fragment derived from the part of the MurD synthetase gene.

(213) TABLE-US-00019 US_dsYCT1 custom character pGAL2_7Ca.OMTtHUG1MURD pGAL2_7Bn.OMTtDIT1DS_dsYCT1
Y57482

(214) Y57482 was generated from Y57481 by two integrations. MS 188586 (SEQ ID NO: 22) was integrated at the MET13 locus and replaces the C-terminal domain of native yeast MET13 with the Arabidopsis domain.

(215) TABLE-US-00020 N-termMET13C-termAt.MHTFRDS_MET13

(216) MS 173680 (SEQ ID NO: 23) was integrated at the overexpressed MET13 at the YGL039w locus (MS141850 (SEQ ID NO: 14) described below.

(217) TABLE-US-00021 US_YGL039W custom character pGAL10_1mMET6ECO1 pGAL10_1mSHM2DS_YGL039W
Fermentation Media and Conditions for Y57481/Y57482

(218) A 0.5 ml of frozen cell suspension of a yeast strain containing the desired genetic modifications, was thawed, transferred into a 500-ml baffled flask containing 100 ml of BSM 3.5 (8 g/L KH.sub.2PO.sub.4, 7 g/L (NH.sub.4).sub.2SO.sub.4, 6.15 g/L MgSO.sub.4*7H.sub.2O, 3 mL/L 1 Bird Vitamins 3.5 (0.05 g/L biotin, 0.2 p-aminobenzoic acid, 1 g/L nicotinic acid, 2.5 g/L myoinositol, 1 g/L pyridozine HCl, 1 g/L thiamine HCl, 1 g/L calcium pantothenate), 5 mL/L 1 Bird (5.75 g/L ZnSO.sub.4*7H.sub.2O, 0.32 g/L CuSO.sub.4, 0.32 MnCl.sub.2*4H.sub.2O, 0.47 g/L CoCl.sub.2*6H.sub.2O, 0.48 g/L Na.sub.2MoO.sub.4*2H.sub.2O, 2.8 g/L FeSO.sub.4*7H.sub.2O, 2.9 CaCl.sub.2*2H.sub.2O, 0.0585 EDTA) with 0.5M succinate buffer containing 2% sucrose, 4% maltose, and 5 g/L lysine was grown in a shaker at 28 C., 200 RPM for 21 hours. 0.25 mL of this culture was then transferred into a second flask containing 100 ml of BSM 3.5 containing 2% sucrose, 4% maltose, and 5 g/L lysine and grown in a shaker at 28 C., 200 RPM for 21 hours. 0.6 mL of this culture was then inoculated into a 0.5-L initial fermentor (IFA) containing 299.4 mL of IF media (8 g/L KH.sub.2PO.sub.4, 7 g/L (NH.sub.4)2SO.sub.4, 6.15 g/L MgSO.sub.4*7H.sub.2O, 6 mL/L 4 Bird Vitamins 3.5 (0.2 g/L Biotin, 0.8 p-Aminobenzoic acid, 4 g/L nicotinic acid, 10 g/L myoinositol, 4 g/L pyridoxine HCl, 4 g/L thiamine HCl 4 g/L calcium pantothenate), 10 mL/L 2 Bird (, 11.5 g/L ZnSO.sub.4*7H.sub.2O, 0.64 g/L CuSO.sub.4, 0.64 MnCl.sub.2*4H.sub.2O, 0.94 g/L CoCl2*6H.sub.2O, 0.96 g/L Na.sub.2MoO.sub.4*2H.sub.2O, 5.6 g/L FeSO.sub.4*7H.sub.2O, 5.8 CaCl.sub.2*2H.sub.2O, 0.117 EDTA), 40 g/L Maltose, 5 g/L Lysine). The nutrient feed to the IFA was concentrated pure sucrose delivered with an initial pulse equivalent to a 20 g TRS/L sugar. The IFA was operated at 28 C. for 24 hours. 60 mL of the IF A culture was then inoculated into a 0.5 L manufacturing fermentor (MFA) containing 240 mL of MF media (8 g/L KH.sub.2PO.sub.4, 7 g/L (NH.sub.4)2SO.sub.4, 6.15 g/L MgSO.sub.4*7H.sub.2O, 6 mL/L 4 Bird Vitamins 3.5 (0.2 g/L Biotin, 0.8 p-Aminobenzoic acid, 4 g/L nicotinic acid, 10 g/L myoinositol, 4 g/L pyridoxine HCl, 4 g/L thiamine HCl 4 g/L calcium pantothenate), 10 mL/L 2 Bird (11.5 g/L ZnSO.sub.4*7H.sub.2O, 0.64 g/L CuSO.sub.4, 0.64 MnCl.sub.2*4H.sub.2O, 0.94 g/L CoCl2*6H.sub.2O, 0.96 g/L Na.sub.2MoO.sub.4*2H.sub.2O, 5.6 g/L FeSO.sub.4*7H.sub.2O, 5.8 CaCl.sub.2*2H.sub.2O, 0.117 EDTA), 5 g/L Maltose, 2 g/L Lysine). The nutrient feed to the fermentor was a defined sucrose feed delivered with an initial pulse of 10 g TRS/L sugar delivered at 1 g/L/h. The fermentor feed rate was then adjusted based on the culture demand for carbon, as indicated by rises in dissolved oxygen. The fermentation was run aerobically at a constant temperature of 30 C. and constant pH of 5.0 (controlled by ammonium hydroxide additions) until the dissolved oxygen reached 0%. The agitation was then controlled in order to maintain an oxygen utilization rate of 110 mmol O.sub.2/L/h for the remainder of the fermentation. Culture was removed daily for sampling and to prevent overflow. Salts, trace metals, and vitamins were also added daily. 0.1 mL L-61 antifoam was added to the fermentation media at the beginning and subsequently added as needed. The amount of gluco-vanillin produced and the total sugar consumed by the cells was monitored daily and the ratio of these two values (i.e., the product yield off of sugar) was determined for each 24 hour period. The fermentor was run for 10 days.

(219) Quantification of Vanillin Y57481/Y57482

(220) To quantify the amount of vanillin produced, the samples first treated with a commercially available beta-glucosidase to convert glucovanillin into vanillin for analysis. Samples were then analyzed on a Agilent Vanquish Flex Binary UHPLC System with a diode array detector with the following program: Mobile phase (A): 1.4% sulfuric acid v/v in water Mobile phase (B): 100% acetonitrile Gradient is as follows [gradient time, (min) mobile phase A, (%)]: [(0.00, 88), (0.05, 88), (1.25, 85), (2.25, 83), (3.0, 82), (3.5, 88), (4.0, 88)]. Flow rate was 1 mL/min.

Example 5. Screening O-Methyltransferase (OMT) Enzymes for Conversion of PCA to Vanillic Acid with High Specificity and Efficiency

(221) To generate a strain for screening for OMT enzymes with high efficiency and specificity Y17025 was transformed with MS106908 (SEQ ID NO: 1) as described previously. Additionally this strain was transformed with a landing pad containing only the GALI promoter and terminator, with an F-CphI restriction sequence in between the promoter and terminator (SEQ ID NO: 24) as shown below to generate Y33462.

(222) TABLE-US-00022 US_BUD9pGAL1F-CphIcutesiteterminatorDS_BUD9

(223) Over 1,000 OMT enzymes obtained from public databases were codon optimized for optimal expression in S. cerevisiae. These OMT genes were then synthesized with the addition of terminal flanking sequences corresponding to the same pGAL1 and yeast terminator that flank the F-CphI sequences in the landing pad described above, to enable integration by homologous recombination into the landing pad. Yeast were transformed with OMT donor DNA, that was PCR amplified from the synthesized DNA described above, using PCR primers that bind to the pGAL1 promoter and yeast terminator, and co-transformed with a plasmid containing the gene for the endonuclease F-Cphl to cut the DNA within the landing pad. Individual yeast colonies were then tested for their ability to convert PCA to vanillic acid by culturing the resulting strains in medium containing PCA. In the primary screen, enzymes were analyzed for ability to convert PCA to vanillic acid. For the secondary screen, enzymes were analyzed for specificity of methylating the 3-hydroxyl group (to create the desired vanillic acid) and not methylating the 4-hydroxyl group (to create the undesired isovanillic acid). For each screen, strains were inoculated into the pre-culture (400 ul of Bird Seed Media (BSM) 2.0+4% raffinose+2% maltose) and incubated at 30 C. and 1,000 rpm for 24 hours, and then subcultured at a 1:25 dilution ratio into the production culture (400 ul BSM 2.0+6% raffinose+10 mM PCA) and incubated at 30 C. and 1,000 rpm for 24 hours). Cultures were then centrifuged at 3,200 rpm for 3 minutes to collect the supernatant and analyzed for total PCA converted to vanillic acid or isovanillic acid. Of these, 241 unique OMTs were able to convert 10% or more of the 10 mM PCA to an isomer of vanillic acid. These 241 strains were retested in a higher resolution assay to determine their specificity for vanillic acid over isovanillic acid. Data from this screen in shown in FIG. 9.

(224) From this data a set of OMTs was identified which have specificity for the 4-hydroxyl group of over 98% and conversion of PCA to vanillic acid over 15% in the conditions tested. These OMTs are identified from the organisms listed in Table 2.

(225) TABLE-US-00023 TABLE 2 Organism sources of OMT enzymes identified with favorable specificity and activity Organism source for OMT enzyme candidates meeting selection criteria Brachypodium distachyon Brassica napus Chelonia mydas Cicer arietinum Ciona intestinalis Coccidioides posadasii Cucumis sativus Danio rerio Dicentrarchus labrax Esox lucius Hordeum vulgare Ictalurus punctatus Medicago truncatula Oryzias latipes Osmerus mordax Phoenix dactylifera Setaria italica Solanum tuberosum Sorghum bicolor Streptomyces sp. Root431 Tuber melanosporum

Example 6. Screening Aromatic Carboxylic Acid Reductase (ACAR) Enzymes for Conversion of Vanillic Acid to Vanillin with High Efficiency

(226) To generate a strain for screening for ACAR enzymes with high efficiency, Y33462 described in the previous example was transformed with a DNA construct for the expression of a phosphopantothionyl transferase (PPTase) such as a PPTase from N. iowensis described in SEQ ID NO: 19.

(227) Over 500 ACAR enzymes obtained from public databases were codon optimized for optimal expression in S. cerevisiae. These ACAR genes were then synthesized with the addition of terminal flanking sequences corresponding to the same pGAL1 and yeast terminator that flank the F-CphI sequences in the landing pad described above, to enable integration by homologous recombination into the landing pad. Yeast were transformed with ACAR donor DNA that was PCR amplified from the synthesized DNA described above using primers that bind to the pGAL1 promoter and yeast terminator, and co-transformed with a plasmid containing the endonuclease F-Cphl to cut the DNA in the landing pad. Individual yeast colonies were then tested for their ability to convert vanillic acid to vanillin by culturing the resulting strains in medium containing vanillic acid. Single colonies were cultivated in a preculture (400 ul of Bird Seed Media (BSM) 2.0+4% raffinose+2% maltose) and incubated at 30 C. and 1,000 rpm for 48 hours, and then subcultured at a 1:25 dilution ratio into the production culture (400 l BSM 2.0+6% raffinose+20 mM vanillic acid) and incubated at 30 C. and 1,000 rpm for 24 hours. OD.sub.600 values of the production cultures were measured. Cultures were then centrifuged at 3,200 rpm for 3 minutes to collect the supernatant. Vanillic acid, vanillin and vanillyl alcohol titers were quantified. Of these, a subset of those tested had very good conversion of vanillic acid as seen in FIG. 10. Thirty of these active ACAR variants are given in Table 3.

(228) TABLE-US-00024 TABLE 3 Organism sources for ACAR enzymes identified with favorable activity Organism source for ACD1:D22 candidates meeting selection criteria Actinokineospora spheciospongiae Aspergillus terreus Coccomyxa subellipsoidea Gordonia effusa Hypocrea jecorina Kibdelosporangium sp. MJ126-NF4 Lichtheimia corymbifera Metarhizium brunneum Mycobacterium abscessus Mycobacterium avium Mycobacterium cosmeticum Mycobacterium lepromatosis Mycobacterium nebraskense Mycobacterium obuense Mycobacterium sp. MOTT36Y Mycobacterium sp. URHB0044 Mycobacterium vaccae Mycobacterium xenopi Neurospora crassa Nocardia brasiliensis Nocardia gamkensis Nocardia lowensis Nocardia otitidiscaviarum Nocardia seriolae Nocardia terpenica Nocardia vulneris Purpureocillium lilacinum Rhodococcus sp. Leaf258 Streptomyces sp. NRRL S-31 Talaromyces marneffei

(229) All publications, patents and patent applications cited in this specification are herein incorporated by reference as if each individual publication or patent application were specifically and individually indicated to be incorporated by reference. Although the foregoing invention has been described in some detail by way of illustration and example for purposes of clarity of understanding, it will be readily apparent to those of ordinary skill in the art in light of the teachings of this invention that certain changes and modifications may be made thereto without departing from the spirit or scope of the appended claims. SEQ ID NO: 1 Length: 8262 Type: Organism: artificial sequence Other information: MS106908 sequence

(230) TABLE-US-00025 GACGGCACGGCCACGCGTTTAAACCGCCCCATGGCAAAGAATGCTTTCCATGACGATCATCGTAGTGCCCAATTG GGTGCCTCTATGATGGGTATGGCTTGGGCAAGTGTCTTTTTATGTATCGTGGAATTTATCCTGCTGGTCTTCTGG TCTGTTAGGGCAAGGTTGGCCTCTACTTACTCCATCGACAATTCAAGATACAGAACCTCCTCCAGATGGAATCCC TTCCATAGAGAGAAGGAGCAAGCAACTGACCCAATATTGACTGCCACTGGACCTGAAGACATGCAACAAAGTGCA AGCATAGTGGGGCCTTCTTCCAATGCTAATCCGGTCACTGCCACTGCTGCTACGGAAAACCAACCTAAAGGTATT AACTTCTTCACTATAAGAAAATCACACGAGCGCCCGGACGATGTCTCTGTTTAAATGGCGCAAGTTTTCCGCTTT GTAATATATATTTATACCCCTTTCTTCTCTCCCCTGCAATATAATAGTTTCGCTCGTCCAACGCCGGCGGACCTA GTTAATTAATAGTCTTGGATGTAATTCTTATTGTTATACTGAATACGCTAAAACCACTCACAACAAGTATGGAGT ATATTGTGTCTCTTTATATACTGAGTACTTATGCAATATGCGCTCACTCAGGATGAAATGTACACAGCCGAAAGT ATATTGAAAGCTGCCTCTGTGGAAACTTCTATCTAATGTTGTCTCCAGATGTAGACTATGAGGCCTGAAGAAGTC TTTAAACACCTGTTGGAGAGTATAAGGAGACTGCTACAACAACGTCTTCCCCACAAAAATTATGTGGAGGCCGGT ATGATACCTGCACAAACGTTAAGTTACACATGAAAAAGAGACTGACATAACTTTGATCTCTGAAAATATGTTTTC CCCTGAGTAGCTTCACTGCTTGGATACCAATACGAATAGACCTTGGCTATAGTAAGTTGCATCTGTACCGTAGAG ATTCTTGCAACCTCGCTTAAACTCTCGCTTTTATATAATATTTCTCCTTATTGCGCGCTTCGTTGAAAATTTCGC TAAACACGGGGTTTAAGTTTAAGTTTACAGGATTTATCCGGAAGTTTTCGCGGACCCCACACAATTAAGAATTGG CTCGAAGAGTGATAACGCATACTTTTCTTTTCTTTTTTCAGTTCCTAGCGTACCTAACGTAGGTAACATGATTTG GATCGTGGGATGATACAAACAACGTAAGATGAGTAGTTCCTTCCTCAATTCTTCTTTCAGCATCATTTTCTTGAG GCGCTCTGGGCAAGGTATAAAAAGTTCCATTAATACGTCTCTAAAAAATTAAACCATCTATCTCTTAAGCAGTTT TTTTGATAATCTCAAATGTACATCAACCTCCCGCGACCTCCAAAATCGAACTACCTTCACAATGCAGATTTTCGT CAAGACTTTGACCGGTAAAACCATAACATTGGAAGTTGAATCTTCCGATACCATCGACAACGTTAAGTCGAAAAT TCAAGACAAGGAAGGTATCCCTCCAGATCAACAAAGATTGATCTTTGCCGGTAAGCAGCTAGAAGACGGTAGAAC GCTGTCTGATTACAACATTCAGAAGGAGTCCACCTTACATCTTGTGCTAAGGCTAAGAGGTGGTAGGCACGGATC CGGCATCATGGTTCGACCATTGAACTGCATCGTCGCCGTGTCCCAAAATATGGGGATTGGCAAGAACGGAGACCT ACCCTGGCCTCCGCTCAGGAACGAGTTCAAGTACTTCCAAAGAATGACCACAACCTCTTCAGTGGAAGGTAAACA GAATCTGGTGATTATGGGTAGGAAAACCTGGTTCTCCATTCCTGAGAAGAATCGACTTTTAAAGGACAGAATTAA TATAGTTCTCAGTAGAGAACTCAAAGAACCACCACGAGGAGCTCATTTTCTTGCCAAAAGTTTGGATGATGCCTT AAGACTTATTGAACAACCGGAATTGGCAAGTAAAGTAGACATGGTTTGGATAGTCGGAGGCAGTTCTGTTTACCA GGAAGCCATGAATCAACCAGGCCACCTCAGACTCTTTGTGACAAGGATCATGCAGGAATTTGAAAGTGACACGTT TTTCCCAGAAATTGATTTGGGGAAATATAAACTTCTCCCAGAATACCCAGGCGTCCTCTCTGAGGTCCAGGAGGA AAAAGGCATCAAGTATAAGTTTGAAGTCTACGAGAAGAAAGACGGTACCGAACAAAAGCTTATTTCTGAAGAAGA CTTGGGAGCTGGTGCAGGCGCTGGAGCGGGTGCCATGGACTACAACAAGAGATCTTCGGTCTCAACCGTGCCTAA TGCAGCTCCCATAAGAGTCGGATTCGTCGGTCTCAACGCAGCCAAAGGATGGGCAATCAAGACACATTACCCCGC CATACTGCAACTATCGTCACAATTTCAAATCACTGCCTTATACAGTCCAAAAATTGAGACTTCTATTGCCACCAT CCAGCGTCTAAAATTGAGTAGTGCCACTGCTTTTCCCACTTTAGAGTCATTTGCATCATCTTCCACTATAGATAT GATAGTGCTAGCTATCCAAGTGGCCAGTCATTATGACGTTGTTATGCCTCTCTTGGAATTCTCCAAAAATAATCC GAACCTCAAGTATCTTTTCGTAGAATGGGCCCTTGCATGTTCACTAGATCAAGCCGAATCCATTTATAAGGCTGC TGCTGAACGTGGGGTTCAAACCATCATCTCTTTACAAGGTCGTAAATCACCATATATTTTGAGAGCAAAAGAATT AATATCTCAAGGCTATATCGGCGACATTAATTCTATCGAGATTGCTGGAAATGGCGGTTGGTACGGCTACGAAAG GCCTGTTAAATCACCAAAATACATCTATGAAATCGGGAACGGTGTAGATCTGGTAACCACAACATTTGGTCACAC AATCGATATTTTACAATACATGACAAGTTCGTACTTTTCCAGGATAAATGCAACGGTTTTCAATAATATTCCAGA GCAAGAGCTGATAGATGAGCGTGGTAACCGATTGGGCCAGCGAGTCCCAAAGACAGTACCGGATCATCTTTTATA CCAAGGCACATTGTTAAATGGCAATGTTCCAGTGTCATGCAGTTTCAAAGGTGGCAAACCTACCAAAAAATTTAC CAAAAATTTGGTCATTGATATTCACGGTACCAAGGGAGATTTGAAACTTGAAGGCGACGCCGGATTCGCAGAAAT TTCAAATCTGGTCCTTTACTACAGTGGAACTAGAGCAAACGACTTCCCGCTAGCTAATGGACAACAAGCTCCTTT AGACCCGGGGTATGATGCAGGTAAAGAAATCATGAAAGTATATCATTTACGAAATTATAATGCCATTGTCGGTAA TATTCATCGACTGTATCAATCTATCTCTGACTTCCACTTCAATACAAAGAAAATTCCTGAATTACCCTCACAATT TGTAATGCAAGGTTTCGATTTCGAAGGCTTTCCCACCTTGATGGATGCTCTGATATTACACAGGTTAATCGAGAG CGTTTATAAAAGTAACATGATGGGCTCCACATTAAACGTTAGCAATATCTCGCATTATAGTTTATAAAAGCATCT TGCCCTGTGCTTGGCCCCCAGTGCAGCGAACGTTATAAAAACGAATACTGAGTATATATCTATGTAAAACAACCA TATCATTTCTTGTTCTGAACTTTGTTTACCTAACTAGTTTTAAATTTCCCTTTTTCGTGCATGCGGGTGTTCTTA TTTATTAGCATACTACATTTGAAATATCAAATTTCCTTAGTAGAAAAGTGAGAGAAGGTGCACTGACACAAAAAA TAAAATCCCCGCGTGCTTGGCCGGCCGTAAGATTATTACTTGCTATAAGTGCGTGCCTGATGAACAGGATATTGC GGTCAATAATGCTGATGGTTCATTAGACTTCAGCAAAGCCGATGCCAAAATAAGCCAATACGATCTCAACGCTAT TGAAGCGGCTTGCCAGCTAAAGCAACAGGCAGCAGAGGCGCAGGTGACAGCCTTAAGTGTGGGGGGTAAAGCCCT GACCAACGCCAAAGGGCGTAAAGATGTGCTATCGCGCGGCCCGGATGAACTGATTGTGGTGATTGATGACCAGTT CGAGCAGGCACTGCCGCAACAAACGGCGAGCGCACTGGCTGCAGCCGCCCAGAAAGCAGGCTTTGATCTGATCCT CTGTGGCGATGGTTCTTCCGACCTTTATGCCCAGCAGGTTGGTCTGCTGGTGGGCGAAATCCTCAATATTCCGGC AGTTAACGGCGTCAGCAAAATTATCTCCCTGACGGCAGATACCCTCACCGTTGAGCGCGAACTGGAAGATGAAAC CGAAACCTTAAGCATTCCGCTGCCTGCGGTTGTTGCTGTTTCCACTGATATCAACTCCCCACAAATTCCTTCGAT GAAAGCCATTCTCGGCGCGGCGAAAAAGCCCGTCCAGGTATGGTCGGCGGCGGATATTGGTTTTAACGCAGAGGC AGCCTGGTCAGAACAACAGGTTGCCGCGCCGAAACAGCGCGAACGTCAGCGCAACGGCCGGCCAAGCACGCGGGG ATTGAGCGAAGCTTCTGAATAAGCCCTCGTAATATATTTTCATGAAGAATTTAGGTCCAAAAAAAAGATGGGCAT TAATTCTAGTCATTTAAAAAATTCTATAGATCAGAGGTTACATGGCCAAGATTGAAACTTAGAGGAGTATAGTTA CATAAAAGAAGGCAAAACGATGTATAAATGAAAGAAATTGAGATGGTGCACGATGCACAGTTGAAGTGAACTTGC GGGGTTTTTCAGTATCTACGATTCATTTTACTCTTTTTTTGGGTTTGGTGGGGTATCTTCATCATCGAATAGATA GTTATATACATCATCCATTGTAGTGGTATTAAACATCCCTGTAGTGATTCCAAACGCGTTATACGCAGTTTGGTC CGTCCAACCAGGTGACAGTGGTTTTGAATTATTACCATCATCAATTTTACTAGCCGTGATTTCATTATTCATGAA GTTATCATGAACGTTAGAGGAGGCAATTGGTTGTGAAAGCGCTTGAGAATTTGTTTGAGTTGTTATGAGGTTCGG ACCGTTGCTACTGTTAGTGAAAGTGAAGGACAATGAGCTATCAGCAATATTCCCACTTTGATTAAAATTGGCGCC ACCAAACAAAGCAGACGGGGTCAGTGGCACTAATGATTGCAGCTGTTGCTGTTGCCCTAGAAAAGGCGTGACTGA GCGATGCGAAGGTGTGCTTCTTGGTATTGTCACTGGAGAGTTACGAGAGGGTGGACGGTTAGATAACAGCTTGAC TAGATCACTGAAACTTGCTCCTGATTTCAATGGCACAGGTGAAGGCCCTACTGAGCCAGGAGAAACATATTTAAC ACTGATATTGTTGACATTTTCCTCCGGAAGAGTAGGGTATTGGGCGATAGTTGCAGAACCGACAATATTTTTAAT GGCGCTACCATTACTATTGTTATAACTGATATGCGGTAATGGGATTGCACACTGTGATAACAGAAACGGCGCACA TACCTCTTCCAGTACTTGAATGTATTTTTCACAAGTCTGGATTTTAAAAGTGGCCAGTTTTTTTAATAGCATCAG AACAGTGTTAATTTGTTGTAATAATTGTGCGGTCTCGTTATTCTCAGCATTCGATTTTGAGTTTGAGAGTAGAGT CTTTATGGGTACTAGGACTGCATTGAACAAGTAATAAGAACAATTCCAGGCAAAATATGGGGTGACATTATGATT GTCCATATAGCTACTTACAGACATAACAGTTCTTTGTGCTGCATCGCTTAACATGATGGAGCATCGTTTAACTTC ATAACTTTGATGATCATTTTGATCCTGTTCTAGTTGTGACTTTTTCTGGGTAAAATTAGTGAAAAAATCTCTTAA TACATAAATGATAAGAGACAACTGTTTCCACTTCAGTTCGAATCTTGTAAAGGATAGCCAAGGGTGTTCCTTCAA CAAATTGGTTAGAGCGGTGGTGGAAATATCCATTTGTAAAAACTTTGGTGCCTGTCTCGAAACCTCCTCAATCTC ATTACAAATCATCAAGCATTTTTTTGCACATATAGGACTTTTTTCTGCAGTTACTGTTTTGTCTAGTTCATAGAT TTTTGTGAAAACTTGTAAGAGCCTTGCTGTTTCAATGATGCCATGATATATGGTGGGACCTGTTGTGGTACGCTG CACATCGTCGACAGAAGAAGGGAAGGAGATTGTATTCTGAGAAAGCTGGATGGATCGACCATAAAGCAGGGACAA TTGGATCTCCCAAGAGTAGACAGACCACCAAATTCGGCGTCTTTGTTCCAGAATGCTGCTATCACTGAAGGACGA GGGGAGGTCCCTATTCAAGCCCAATGATATGGCCATTCTTATGGAAAAGCTGTGAAAATTATAGCTAGTATTTGT TTTCTGCCTCCACTGTGTATATCGCGACAGAAGATGTAGGGCTGTCACCAAAATTATGGAACCTGACTCGAAGAC CTTGCTCGTCAAATGAGATTTAGCATTTTGATAGTAAAAAACATCTATATCAGTAGATTCCCCCTCTATACACCA GGCTCCAATGGCTAATATGCAGTTAAAAAGGATTTGCCATTGATCCTTCGACGCGATTTCAATCTGGTTATTATA CAACATCATTAGCGTCGGTGAGTGCACGATAGGGCAGTAGGGGTGAAAATTATTGAGATAACTTTGAAGTAAACG GGATGTTGTGGATCTAGAAGCCAACGTGTATCTATCCGTAATCATGGTCGGGAGCCTGTTAACGTTAGAGTTCGT GTAATTTTCCGGTTTAAAGCCAATAGATCGAAGAATACATAAGAGAGAACCGTCGCCAAAGAACCCATTATTGTT GGGGTCCGTTTTCAGGAAGGGCAAGCCATCCGACATGTCATCCTCTTCAGACCAATCAAATCCATGAAGAGCATC CCTGGGCATAAAATCCAACGGAATTGTGGAGTTATCATGATGAGCTGCCGAGTCAATCGATACAGTCAACTGTCT TTGACCTTTGTTACTACTCTCTTCCGATGATGATGTCGCACTTATTCTATGCTGTCTCAATGTTAGAGGCATATC AGTCTCCACTGAAGCCAATCTATCTGTGACGGCATCTTTATTCACATTATCTTGTACAAATAATCCTGTTAACAA TGCTTTTATATCCTGTAAAGAATCCATTTTCAAAATCATGTCAAGGTCTTCTCGAGGAAAAATCAGTAGAAATAG CTGTTCCAGTCTTTCTAGCCTTGATTCCACTTCTGTCAGATGTGCCCTAGTCAGCGGAGACCTTTTGGTTTTGGG AGAGTAGCGACACTCCCAGTTGTTCTTCAGACACTTGGCGCACTTCGGTTTTTCTTTGGAGCACTTGAGCTTTTT AAGTCGGCAAATATCGCATGCTTGTTCGATAGAAGACAGTAGCTTCATCTTTCAGGAGGCTTGCTTCTCTGTCCT CTCTTAAAATGATGGCGTGCATTACGTAGACACAATCTGGAGATGAAGCTGAAAATCTGGATCCGGAAGGATGAC GGAAAAAATAGCTCATAAAACAGAAAAAGGCCCGAAGTAACAATAGGAAAAATTAATTGCACTAAACAAAGAAAA CGATATTATGGTGATTAAACTGATACAGAATTATGTAAATACTTTGAAATTATAGAAGGTTTGTAGAATAAAAAA AATACTGGGCGAATGCTGAGGTCCGCCGGCGTTGGACGAGCGGCTACGTATAACTGTCAAAACTTTGCAGCAGCG GGCATCCTTCCATCATAGCTTCAAACATATTAGCGTTCCTGATCTTCATACCCGTGCTCAAAATGATCAAACAAA CTGTTATTGCCAAGAAATAAACGCAAGGCTGCCTTCAAAAACTGATCCATTAGATCCTCATATCAAGCTTCCTCA TAGAACGCCCAATTACAATAAGCATGTTTTGCTGTTATCACCGGGTGATAGGTTTGCTCAACCATGGAAGGTAGC ATGGAATCATAATTTGGATACTAATACAAATCGGCCATATAATGCCATTAGTAAATTGCGCTCCCATTTAGGTGG TTCTCCAGGAATACTAATAAATGCGGTGCATTTGCAAAATGAATTTATTCCAAGGCCAAAACAACACGATGAATG GCTTTATTTTTTTGTTATTCCTGACATGAAGCTTTATGTAATTAAGGAAACGGACATCGGGCGGTTTAAACGCGT GGCCGTGCCGTC SEQ ID NO: 2 Length: 920 Type: Organism: Saccharomyces cerevisiae Other information: MS73609 sequence

(231) TABLE-US-00026 GACGGCACGGCCACGCGTTTAAACCGCCCTGTGACACAATTTGTGTCTCTACTGTGTGAACTTCCATTGCTGACT AAAGATTCCCCGCTCCGCTTATATGTCCGGTCCGTCCTTGACCGAAGATCACATTGCCAATTTTTCACATCTGGA AGCGATACGACAATATAGGAGAAAAAGAAAAGTGAAAGGCAAAAAAGCACCAACAGTTCTCGAGGTGAAGTGCCG TCAATCTTCTGTATAAATTCGGCCAATTCAATCTAATTTAATAGATTTGCGACAGACTTTCACATCCACATTCGA GGAAGAAATTCAACACAACAACAAGAAAAGCCAAAATCCGCTCGTCCAACGCCGGCGGACCTGTTGTCAAGCTCT TGATAAATGTAGCTCCTTTCTTTTTAACTGCTCCATGTTTTGGGTCTGTATATAGGAGTGCTGTTTTAATCGATA TAGGTTACATTTGAAACTTTTTTTTATGATTATAAGGTACTATTTAAATATTTACAACTCGTACAGTTCTCTTTT GTTTTTTCTCTTTTTCTCCTTGCTAAGCACCTTTAAGGTGAAAAGAAACACATATCAATACACTAACAAAAAAGG TGCACGTTCATAGGGTATCGGACAATAACTATATTACTAAGCTACCAAAGCAATAGCGCCAATAACAAAAGCTTT CATGTTAATGTTCAGGGATGCACCGGTATTTTCTTTTGCCGTGCTGACAGTATATGTTGTGCTTTGTTTAGCGGA TGAGGATGTTCCATGAATCGCTGCCGTAGGTTTGGTGGTAGATCTGTTTACCTTTTCAGTGGATGAACTTAGTTG TGATGTTAATAGCGACTTTTGGCTCGAGACAATTATCGTTTCAAGGGTAGTTTCACCCCTCCCGATCCGGTGTTT AAACCCCAGCGCCTGGCGGG SEQ ID NO: 3 Length: 1069 Type: Organism: Saccharomyces cerevisiae Other information: MS120584 sequence

(232) TABLE-US-00027 GACGGCACGGCCACGCGTTTAAACCGCCATTACCGCGTGAACTATGTCATATTTGCGATTTTAGGTACAATAAAT ATTATCATTATTATATTATGTTTGCATGTAGGTTCTACAAATACATTGTTGTACGCTATAGTTTCCTTTCAAAAC TAGAAAGAATTCGTAACAAAATAATCTCCAATATTTTATAGCACCTTATTAATATCAATGCTGCAATACCTTCTC ATTTCAACAATTGGCCCTCACCTCTTTTGTACAAAAAACGTCGCCATTGATAAAATAAGTAAGAAGCATATAATT GGAATGTCCATTACGTAAAAGAAAAAAAATCATGTGTACATATTACGTAATAGAATACGGAATTTTCTCGCGGAA GTAGATCTTCCGTGGAAAAAAAGGAAAAAGTCCGATCAATATTGAAAAAGGGATCCTTAGTTTCCCAACTATATA AGGAGGAAAAGTCTATCTCTGTAGCGTTGATATAACGTGTACGATTTTCAAACAAACAGATAGCAGTATCACACG CCCGTAAATACTTTAAATGAAAATAGATAATATTTATATATATTAACGTTATTACAATTATTTTTTATCATCTGG TACATCTCTGCGTATTTTTCTCTTCTATATACAGCTTAATATGTCGAAAACGCGAAGCAAGAAAGAAAAGAAAAT TGACGAAAAAACAATAGAGAAACGTTCAGATAAGCATTTATCTTTGCAACACATCACAAGAAAAGCTGTGCACAA TGACCGGAGCAGCAACTGCAGCAGAAAACTCTGCCACACAGTTAGAATTCTATAGAAAAGCTTTGAATTTCAACG TTATTGGGAGATACGATCCAAAAATAAAGCAACTGCTTTTTCACACACCACATGCGTCACTGTATAAATGGGACT TCAAGAAGGACGAATGGAATAAACTAGAATATCAAGGTGTTTTGGCCATATATTTGAGAGACGTCTCGCAAAATA CAAATCTTCTACCCGTCTCCCCACAAGAAGTAGATATTTTTGATTCGCAAAATGGTAGTAATAACACGGTGTTTA AACCCCAGCGCCTGGCGGG SEQ ID NO: 4 Length: 1048. Type: Organism: Saccharomyces cerevisiae Other information: MS120568 sequence

(233) TABLE-US-00028 GACGGCACGGCCACGCGTTTAAACCGCCCAAGACTCGTTGGGTCAATATACACCACAAAAAAAGGTACACACGAA TGGTTTAACCCTTTCGGTTCCTTCTGTAAATCGAAAAATGCCCTTTATACAGCGGGTTGGTCTCCCATCAAAGTT GAGAAGCGATTAGAAATTAGGTTACCTAATGAATCCATAAATAAATGGAAAACGCTATTTTGTTCGAACGATGGA ATAAAAATATGAACGGGTGTCATTGAAATTCGGTGTATTTTTTGATCGGGCCTGATCTGGCTCGGGTTTGGCACA ATTTGGCTTGGTTAGTTCGGCAAAGCTTATTTAAAGAACCTTTTTGGATAGCCAATTGAGAGACTTGAAATAGAA AGATCGTAAGTATTTTTATGAACGCAAAATCAATCTTGGTAGCCCAGTTAGTTTCTCTTCACTAATTCCGGAGAA CAAAAACATATCATACGATTGTGTGAGATTCAACAAAAATCGATCAGAAATTTTTTTTGAACAGAATAGTCAATT AAGCTTTCGAGAAAAACTTTCTTTTAACCCCTCTAATCTAAATATAAACATATAGCTTATAGAAATGAATGAATA TTTTAAATAGTTACGGATACAAAGAGTTCATTATAGTGCGGGCAGTTAGTACGGTATCGATTTATCATTGGAGAT CTGCAGTGTTACAGAAGCACTGCTCACCAGTTGTCTACGGAAGGACGTTGAGATAGTTTTACCACGTTTGAGCTA AAAGTTTCTACCACAAGAGCCTTTATTTGCACATGGCAGTGAATGCATGATTAAGGATATGAAGAAGAAAGGAAT AACTAGGAATAAATTTTATTTAGAGAGGGTATGATGAAAGGAGAGCCTCGTTATTTATGACCTGCATTTTTATCA GCATCTTCTTTCCAGCTCCCGCTAAACATGTGCTTTACAAAAGCCATTTTGTCGTCACTAGACTGGGCGCCCATC TGCCCCACATCTGGTGAAAAACTTGTTATTGGTAGAACCATCACACGGTGTTTAAACCCCAGCGCCTGGCGGG SEQ ID NO: 5 Length: 9085 Type: Organism: Artificial sequence Other information: MS133489 sequence

(234) TABLE-US-00029 GACGGCACGGCCACGCGTTTAAACCGCCCGAACAAGCTTATCCCTATTACAGAATTCCAAGGAGGAAATCATTCA ACTTGAAAGTAAATGGATGTCTATGCAATCTGTTAAAACAACTGCCCTACCCCTTCAAGAGACTACGAATACATC ATCGACCTTAACTTCTCTGACGTCCAGCATAATTCCCAAGAGTATACCTATAATCACGAAAGGTGAAGTCGCCAC TAAACCAGCATCTTACTGAATTATTTTCAACAGAACACATCGCATCCAACTGAACAAACTGTTACCGCTGTTGAT ACCAAGGAACATTCAGTGAACGTAGGGAAGAACGAACATTCTCCATATTTTTGCATACTAGATACAAGGGGGAAG AATGCAATTATTTCACAAACCGAAAGAAAAAGAATCACAAGCTATGTTTGCTATTATCAATTTTTCTTATGATTA ATTTAACATAAATTATGGCCTTTTTCATTCCGGCTGCGCTTGTTCTCCAATTTTTTTTTTTTTTTTGAGAAAACT TTCGCTCGTCCAACGCCGGCGGACCTTCACATGTAGGGACCGAATTGTTTACAAGTTCTCTGTACCACCATGGAG ACATCAAAGATTGAAAATCTATGGAAAGATATGGACGGTAGCAACAAGAATATAGCACGAGCCGCGAAGTTCATT TCGTTACTTTTGATATCGCTCACAACTATTGCGAAGCGCTTCAGTGAAAAAATCATAAGGAAAAGTTGTAAATAT TATTGGTAGTATTCGTTTGGTAAAGTAGAGGGGGTAATTTTTCCCCTTTATTTTGTTCATACATTCTTAAATTGC TTTGCCTCTCCTTTTGGAAAGCTATACTTCGGAGCACTGTTGAGCGAAGGCTCATTAGATATATTTTCTGTCATT TTCCTTAACCCAAAAATAAGGGAAAGGGTCCAAAAAGCGCTCGGACAACTGTTGACCGTGATCCGAAGGACTGGC TATACAGTGTTCACAAAATAGCCAAGCTGAAAATAATGTGTAGCTATGTTCAGTTAGTTTGGCTAGCAAAGATAT AAAAGCAGGTCGGAAATATTTATGGGCATTATTATGCAGAGCATCAACATGATAAAAAAAAACAGTTGAATATTC CCTCAAAAATGCCCAGTAAATTGGCTATAACTTCCATGTCCTTGGGCAGGTGTTATGCAGGCCATTCTTTCACAA CTAAGTTAGACATGGCTAGGAAATATGGTTACCAGGGTTTGGAGTTGTTTCATGAGGACTTAGCCGATGTCGCAT ACAGGTTGTCAGGTGAAACACCTAGTCCATGCGGTCCCAGTCCAGCTGCTCAATTATCAGCCGCTAGACAGATAT TGAGGATGTGCCAGGTTAGAAACATCGAAATAGTGTGCTTGCAACCCTTTTCACAATATGATGGTTTATTGGATA GAGAGGAGCACGAGAGGAGGTTGGAGCAATTAGAGTTTTGGATTGAATTGGCCCACGAGTTGGATACTGACATCA TTCAAATTCCAGCCAATTTCTTGCCCGCCGAAGAAGTCACAGAAGATATTTCATTAATTGTGAGTGACTTACAGG AAGTTGCCGATATGGGTTTACAGGCAAACCCTCCAATAAGGTTTGTATATGAGGCATTATGCTGGTCCACTAGAG TTGACACTTGGGAGAGGTCTTGGGAAGTTGTCCAAAGAGTAAATAGACCTAACTTTGGCGTTTGCTTAGACACTT TTAACATCGCAGGTAGAGTTTATGCTGACCCCACAGTTGCCTCAGGCAGAACACCAAACGCTGAAGAAGCAATTA GAAAGTCAATTGCCAGGTTGGTCGAAAGGGTCGATGTATCTAAAGTCTTCTACGTTCAAGTAGTGGACGCCGAAA AGTTAAAGAAACCATTAGTTCCCGGTCATAGATTCTATGACCCTGAGCAACCAGCCAGAATGTCATGGTCAAGAA ATTGTAGGTTGTTCTACGGCGAAAAAGACAGAGGCGCTTACTTACCTGTTAAAGAAATCGCTTGGGCTTTTTTCA ATGGATTGGGCTTCGAAGGTTGGGTGTCCTTGGAATTATTTAACAGAAGAATGTCAGATACTGGATTTGGAGTTC CAGAGGAGTTAGCTAGGAGAGGCGCCGTATCATGGGCCAAATTAGTTAGAGATATGAAAATCACAGTGGATTCTC CAACTCAACAACAAGCTACACAGCAGCCTATTAGAATGTTGTCCTTATCTGCAGCCTTATAAAAGGCGGCCGCTG GCGAGGGAGATGATCCGCTCTAACCGAAAAGGAAGGAGTTAGACAACCTGAAGTCTAGGTCCCTATTTATTTTTT TATAGTTATGTTAGTATTAAGAACGTTATTTATATTTCAAATTTTTCTTTTTTTTCTGTACAGACGCGTGTACGC ATGTAACATTATACTGAAAACCTTGCTTGAGAAGGTTTTGGGACGCTCGAAGCAACCTGCAGGCCGCGAGCGCCG ATCGGGTAGTGGAGCCCGTTTGGGCTCAGCGCGAGGTAACAAAAAAAAATTTCAAATGTTGGCCAAAAAAAACGT CAATTATTCCTATGTACGAGGTCTAAATATAAAAACATATCTATTATATTCTGACGTATTTATATTCTATTGTTC TTTCCTATCACTGGCCTACAAAAAAAAAGAGAAGCATACTCAACGCGATCGCCGACGCCGCCGATTTAGGCCACT CTTGCTGTCAATTGGCCATTCAAATCCTGATGAATTTCTCTCAACAATGCGTCGGTCATTTCCCATGAAATACAT GCGTCTGTAACAGACACGCCATACTTCATTTCTGATCTTGGCTGTTCGGATGATTGGTTACCCTCATGAATATTT GATTCGATCATCAAACCGATGATAGATCTGTTTCCATCTTTTATCTGTGCAACTACAGATTCAGCGACGGCGGGT TGTCTCCTGTAATCCTTATTAGAGTTACCGTGAGAACAGTCGACCATCAAGGAAGGTCTTAAACCTGCTTGTTCC ATTTCCTTTTCGCACTGTGCCACGTCGGCAGGTGAATAGTTTGGGGCCTTACCACCCCTCAATATTACATGACCA TCTGGGTTACCCTGAGTTTGTAATAATGCGACCTGACCAGCTTGATTGATACCGACAAATCTATGTGGTTGAGCT GCGGCCCTCATGGCATTTATGGCAGTTGCCAATGAACCGTCTGTGCCGTTTTTGAAGCCAACTGGCATACTCAAA CCAGATGCCATTTCTCTGTGAGTTTGTGATTCGGTGGTTCTAGCACCTATTGCAGACCAGGAGAATAAATCGCCC AAATATTGAGGACTGTTTAAATCCAAGGCTTCGGTAGCTAAAGGCAAACCCATATTTACTAATTCCAACAACAAT TTCCTTGCGATTTGCAAACCAGCTTCCACATCAAAAGATCCATCCATATGTGGGTCGTTAATCAATCCCTTCCAA CCTACAGTGGTCCTTGGCTTTTCAAAATAAACCCTCATAACCAAATACAAGGAGTCGGAGACTTCAGCTGCCAAG GCCTTAAATCTTCTTGCGTATTCCAATGCTGTTTCAGGATCGTGGATACTACATGGGCCACATACAACCAATAAC CTTGGATCTCTACCGGCTATAATATCAGAAATACTCTTTCTTGAATCGGCTATCTGAGCCTCTTGTTGCAAAGAT AAGGGAAAGGCAGCTTTTAATTGCTCAGGTGTCATCAAAACCTGTTCATCTGTTATATGTACGTTATTTAAGGCA TCTTTCTGCATTGTAAAGTTAGTTGGTTGCGCGACTTCGGGTGGGGTATGTTAATCTTGTGTTTACTTAACTATT GCTATTCTTGATGATAATTGAATAAGGTGCATAATGAAGAGCAATTCACAACACCAAATTTTCAATCCAATTACT GATTGTTTATATATGTCTACAAAACTAATCCTATCTCCACATTTTAGCCTGCGAAATGTTTGTTTTTTAAACAAT AGCTCTCCAGAACATTGTATAATTTAAGAATATGTGCACAGTTAACTTTCTAGCAGGAGTATAATGCCATTTGCT CCCCATCTTGAGATGGGAAGGGCTTAACTAATCTCGGTTCGGAGTGATCCGCCCCGATACTGCCTTCTGCCTTAA TATCGTCCAAGGCACATGGACCCCTGAACGGCGCAGATATCTCCGCACGGACGAAAGACCGCCGGTGCCTTCCTG AGGCAACCGCCCCTTTCGAATATAGATCACGTGACCCATTTTTAGCTACTAATAGAAAAAGAAATTGCAACCTAC TTAAGCCATTCCGGAAGGAAGCTTTCCGAATCCCCGCGTGCTTGGCCGGCCGTGATCATCTACCCATGCCGAAAT TCGGGCCGTTGGCCGGATTGCGCGTTGTCTTCTCCGGTATCGAAATCGCCGGACCGTTTGCCGGGCAAATGTTCG CAGAATGGGGCGCGGAAGTTATCTGGATCGAGAACGTCGCCTGGGCCGACACCATTCGCGTTCAACCGAACTACC CGCAACTCTCCCGCCGCAATTTGCACGCGCTGTCGTTAAATATTTTCAAAGATGAAGGCCGCGAAGCGTTTCTGA AATTAATGGAAACCACCGATATCTTCATCGAAGCCAGTAAAGGTCCGGCCTTTGCCCGTCGTGGCATTACCGATG AAGTACTGTGGCAGCACAACCCGAAACTGGTTATCGCTCACCTGTCCGGTTTTGGTCAGTACGGCACCGAGGAGT ACACCAATCTTCCGGCCTATAACACTATCGCCCAGGCCTTTAGTGGTTACCTGATTCAGAACGGTGATGTTGACC AGCCAATGCCTGCCTTCCCGTATACCGCCGATTACTTTTCTGGCCTGACCGCCACCACGGCGGCGCTGGCAGCAC TGCATAAAGTGCGTGAAACCGGTAAAGGCGAAAGTATCGACATCGCCATGTATGAAGTGATGCTGCGTATGGGCC AGTACTTCATGATGGATTACTTCAACGGCGGCGAAATGTGCCCGCGCATGAGCAAAGGTAAAGATCCCTACTACG CCGACGGCCGGCCAAGCACGCGGGGATTCGGAAAGCTTCCTTCCGGAATGGCTTAAGTAGGTTGCAATTTCTTTT TCTATTAGTAGCTAAAAATGGGTCACGTGATCTATATTCGAAAGGGGGCGTTGCCTCAGGAAGGCACCGGCGGTC TTTCGTCCGTGCGGAGATATCTGCGCCGTTCAGGGGTCCATGTGCCTTGGACGATATTAAGGCAGAAGGCAGTAT CGGGGCGGATCACTCCGAACCGAGATTAGTTAAGCCCTTCCCATCTCAAGATGGGGAGCAAATGGCATTATACTC CTGCTAGAAAGTTAACTGTGCACATATTCTTAAATTATACAATGTTCTGGAGAGCTATTGTTTAAAAAACAAACA TTTCGCAGGCTAAAATGTGGAGATAGGATTAGTTTTGTAGACATATATAAACAATCAGTAATTGGATTGAAAATT TGGTGTTGTGAATTGCTCTTCATTATGCACCTTATTCAATTATCATCAAGAATAGCAATAGTTAAGTAAACACAA GATTAACATACCCCACCCGAAGTCGCGCAACCAACTAACTTTACAATGGAAAGAATTGTTGTAACATTGGGTGAA AGGTCTTATCCAATCACTATTGCATCTGGTTTATTTAACGAACCAGCCAGTTTTTTACCATTGAAATCCGGTGAG CAAGTGATGTTAGTCACTAACGAAACATTAGCTCCCTTGTATTTAGACAAGGTAAGGGGTGTTTTGGAACAAGCA GGCGTAAACGTCGATTCTGTGATATTACCAGACGGTGAACAATACAAAAGTTTGGCAGTTTTAGATACTGTATTC ACTGCCTTATTACAGAAACCACATGGTAGAGATACTACATTGGTTGCCTTAGGAGGCGGAGTTGTCGGCGATTTA ACAGGTTTCGCTGCCGCATCATATCAGAGAGGTGTTAGATTCATTCAGGTCCCAACTACTTTGTTATCCCAAGTA GACTCATCAGTTGGAGGAAAGACTGCTGTCAATCATCCTTTAGGAAAGAACATGATTGGTGCCTTCTACCAGCCA GCATCAGTCGTTGTTGATTTAGATTGTTTGAAGACATTACCTCCAAGAGAGTTGGCAAGTGGTTTGGCAGAAGTA ATAAAATATGGTATCATATTGGATGGTGCATTTTTTAATTGGTTGGAAGAAAATTTAGATGCATTATTGAGGTTA GACGGTCCTGCTATGGCTTATTGTATTAGAAGGTGTTGTGAATTAAAGGCTGAGGTTGTAGCAGCCGACGAGAGA GAAACTGGTTTAAGAGCTTTGTTGAACTTAGGTCATACATTTGGTCATGCTATCGAAGCTGAAATGGGTTACGGT AATTGGTTGCATGGTGAAGCCGTTGCAGCCGGTATGGTTATGGCTGCCAGGACATCTGAAAGATTGGGTCAATTC AGTTCTGCAGAAACACAAAGGATAATAACCTTATTGAAAAGGGCAGGTTTACCTGTGAATGGTCCTAGAGAGATG AGTGCTCAAGCTTATTTGCCCCACATGTTGAGAGATAAGAAGGTTTTAGCAGGTGAAATGAGGTTAATTTTGCCC TTAGCAATTGGAAAAAGTGAAGTCAGATCCGGTGTTTCACATGAATTAGTATTGAACGCCATAGCTGATTGCCAA TCAGCCTAAATCGGCGGCGTCGGCGATCGCGTTAAGGGAACCTTTTACAACAAATATTTGAAAAATTACCTCCAT TATTATACCTTCTCTTTATGTAATTGTTAGTTCGAAAATTTTTTCTTCATTAATATAATCAACTTCTAAAACTTT CTAAAAACGTTCTCTTTTTCGAGATTAGTGCTTCTTCCCAATCCGTAAGAAATGTTTCCTTTCTTGACAAATCGG CGCTCGCGGCCTGCAGGTTAAACTTAAAATACGCTGAACCCGAACATAGAAATATCGAATGGGAAAAAAAAACTG CATAAAGGCATTAAAAGAGGAGCGAATTTTTTTTTAATAAAAATCTTAATAATCATTAAAAGATAAATAATAGTC TATATATACGTATATAAATAAAAAATATTCAAAAAATAAAATAAACTATTATTTTAGCGTAAAGGATGGGGAAAG AGAAAAGAAAAAAATTGATCTATCGATTTCAATTCAATTCAATATCTCCCTCGCCAGCGGCCGCCTTTTATGCTT GGTGTAATATGGTCAAAACTGTTCTCAAATCATTTACTGAGATCTGTCCTGGAGCAGAAGCTTTTTTGACAGCAC CAAATGTAGCAGCAGATCCGAACACTTCACCAGCTAATCTAGAAATCACACCGGTTTTTGCCATAGACATAGTTA TGATAGGTCTATCAGCGTATTGTTCTTGCATTTCCAATGTGGCAGCTAACAATGTTAAGACATCAGAGGTAGACT GTGGCATTAAAGCAATTTTGGGTATATCAGCATCAAAGGATTGCATTTTTCTTAATCTGGCTATGATTTCCTCTG CTTCTGGGGTCTTGTGGAAATCATGATTAGACATAACTACCTTAACATCGTGAGCGTGAGCGTAAGCTACAGTTT CCTTAACCTGGTCATCACCAGTAAACAACTCCAAATCTATCATATCCACTAAACCACTATCAATAGCAGCTCTGT TCAAAGCAATGTAGGCTTCGGTACTAATTGCTTGTTCACCACCTTCCTTAGCTGATCTGAAAGTGAACAATAATG GTTTTTCAGGCATAGTCTCTCTTAATATCTTTGCTGCAGCCATTACTGATTCGACATTTGACAAGTCTGCATAGT GATCCACTCTCCATTCTAATATGTCAAAATCTGCTTCTCTATAAGCTAAGGCCTCACTCTTTACAGAGGCTATGT CTTTAGCCATTAAACTAACAATTATTTTAGGGGCTCCTGTTCCAATAACCAAATCTTTCACTGTAACTGTCTTCA TTTTTGAGGGAATATTCAACTGTTTTTTTTTATCATGTTGATGCTCTGCATAATAATGCCCATAAATATTTCCGA CCTGCTTTTATATCTTTGCTAGCCAAACTAACTGAACATAGCTACACATTATTTTCAGCTTGGCTATTTTGTGAA CACTGTATAGCCAGTCCTTCGGATCACGGTCAACAGTTGTCCGAGCGCTTTTTGGACCCTTTCCCTTATTTTTGG GTTAAGGAAAATGACAGAAAATATATCTAATGAGCCTTCGCTCAACAGTGCTCCGAAGTATAGCTTTCCAAAAGG AGAGGCAAAGCAATTTAAGAATGTATGAACAAAATAAAGGGGAAAAATTACCCCCTCTACTTTACCAAACGAATA CTACCAATAATATTTACAACTTTTCCTTATGATTTTTTCACTGAAGCGCTTCGCAATAGTTGTGAGCGATATCAA AAGTAACGAAATGAACTTCGCGGCTCGTGCTATATTCTTGTTGCTACCGTCCATATCTTTCCATAGATTTTCAAT CTTTGATGTCTCCATGGTGGTACAGAGAACTTGTAAACAATTCGGTCCCTACATGTGAAGGTCCGCCGGCGTTGG ACGAGCGGCATAGTAAAAAAATAGATGCAGAATTTACTCACCTCAAGGAGGGGCAAAGTAATAAGAAAAGTTACC ATAGGCTAGTTGAATGTCCAAGATCGTAAAGAATGAAGAAAAAAGGAGTAAAAAGTATGAATAAGATAAATGAAA ATATAAAAATAAAAACCAACTAATACATGAAGAAAAAAAAGCAGACAAAAACATTTTATGGACCTGATGCAATCT AGTAGTCCATAGAATAATCACCACTAGAAAATTCTTCCTCTTCATTACTACCGTTTGCCATTATAGGAATATGAT TTGCTGCAGGATTCTGCGGAGGTATTATATAGGGCACTGGCGGCACCTGTGGAATAAACCCAAATGATGGGAACA TTGGCATCATCCAGTTAGCGTTATTTTGGTTTGCACTTATTAAGTTGTAACTGTTCACGGGCTTTGTGTTGGTAT TAGGGTACTGCAGTGGTATGAAATAATTTTCCCTCGAGACTTGCTGTTGCGATTGGTGGCGGTTTAAACGCGTGG CCGTGCCGTC SEQ ID NO: 6 Length: 10078 Type: Organism: artificial sequence Other information: MS134781 sequence

(235) TABLE-US-00030 GACGGCACGGCCACGCGTTTAAACCGCCTGCATACTTCAAGTTCAGGGTTGGACCTGCCAATGAAAATTTTAGAT ATGTTTGGCTCAGGTCTTCCTGTTATTGCAATGAACTATCCAGTGCTTGACGAATTAGTACAACACAATGTAAAT GGGTTAAAATTTGTTGATAGAAGGGAGCTTCATGAATCTCTGATTTTTGCTATGAAAGATGCTGATTTATACCAA AAATTGAAGAAAAATGTAACGCAGGAAGCTGAGAACAGATGGCAATCAAATTGGGAACGAACAATGAGAGATTTG AAGCTAATTCATTGAGTCAATGGTAACTCAGCCTTTCTTTTTTGAAAATTACTATTTTCGACTCTTTTTTTATAC AGTTACATAGTACTACCTCTAATACACATTCATGATTAACAATGTTTCAAACAATATAAAGTCCCGATAACGACC TTTTGAAGTGGTGACGTTACCGCTCTTCGTTGACAAGATTCAAGAGGGCTGTCAGAATAACAGCTATCATGGTGG AACGCTCGTCCAACGCCGGCGGACCTAAACTTAAAATACGCTGAACCCGAACATAGAAATATCGAATGGGAAAAA AAAACTGCATAAAGGCATTAAAAGAGGAGCGAATTTTTTTTTAATAAAAATCTTAATAATCATTAAAAGATAAAT AATAGTCTATATATACGTATATAAATAAAAAATATTCAAAAAATAAAATAAACTATTATTTTAGCGTAAAGGATG GGGAAAGAGAAAAGAAAAAAATTGATCTATCGATTTCAATTCAATTCAATATCCCCGCGTGCTTGGCCGGCCGTT ACAAGATGGTCCTCGGAGGTCACAATTATCACCTCTCCGCATTCACAATCACAGTGTATTATCTCTATGAATAAA AAAGTTGAAAATTCTAAAAAAAAAACAGAAATATATATTAATCTAAGTTAGTATTATAAATCGATTAAGTGACGG CGGTAGCAGCGATAACGTAACCATCTCTTAAAACCCACTTACCGGAGATAAATGGAACTGGAGTTGGTCTAACCA ATAAGTAGGAGACGAAGGTACCATCGTCTCTTAAATCAATCTCGGCTTGTTCGAAACCCAACCAACGATGGGTCA AAGGAAACCAGGCTTTGTAAGTGGCTTCTTTAGCACAAAACAACAATCTGTCAGCACAGTGAACACCTTGTTCCT CTAAACGTTTCAATTGTGGGATTTCACCAACTCTAGCGATAGAACCCAAGACATCCTTTGGCAATGGTTCAGCTG GTTCGGCGTCCAAACCCATAGATCTGACTAATAATCTTGGAGCGACAACAGCAGCTCTGAAACCATCGGTGTGGG TCAAAGAACCAGAAACGGAAGAAGGCCATAAAGGCATACCTCTTTCACCTCTCAAAATTGGATCACCAGAGTCTC TACCCAAGGCTTGCAAGGCTTGGTGGGCACACCATCTAGCGTCACCAAATTCGGCCTTTCTGATGTCGACGGAAT GAGCGACCAAGGCTTTTTCCAATGGATGCAATTGGTGGAAGTGGTCCAAGTTGACAGCGTCACCAGTTTTGATAA AAGAAAACTTAGCGGAGTTTGGAAACAAAGATTCGTCCAACATTGTAAAGTTAGTTGGTTGCGCGACTTCGGGTG GGGTTACTTTTTTTTTGGATGGACGCAAAGAAGTTTAATAATCATATTACATGGCAATACCACCATATACATATC CATATCTAATCTTACTTATATGTTGTGGAAATGTAAAGAGCCCCATTATCTTAGCCTAAAAAAACCTTCTCTTTG GAACTTTCAGTAATACGCTTAACTGCTCATTGCTATATTGAAGTACGGATTAGAAGCCGCCGAGCGGGCGACAGC CCTCCGACGGAAGACTCTCCTCCGTGCGTCCTGGTCTTCACCGGTCGCGTTCCTGAAACGCAGATGTGCCTCGCG CCGCACTGCTCCGAACAATAAAGATTCTACAATACTAGCTTTTATGGTTATGAAGAGGAAAAATTGGCAGTAACC TGGCCCCACAAACCTTCAAATCAACGAATCAAATTAACAACCATAGGATAATAATGCGATTAGTTTTTTAGCCTT ATTTCTGGGGTAATTAATCAGCGAAGCGATGATTTTTGATCTATTAACAGATATATAAATGCAAAAGCTGCATAA CCACTTTAACTAATACTTTCAACATTTTCGGTTTGTATTACTTCTTATTCAAATGTCATAAAAGTATCAACAAAA AATTGTTAATATACCTCTATACTTACCTCCCGCGACCTCCAAAATCGAACTACCTTCACAATGGCTGTTGACTCT CCAGACGAAAGATTGCAAAGAAGAATTGCTCAATTATTCGCTGAGGACGAACAAGTCAAGGCCGCTAGACCATTG GAAGCTGTTTCTGCTGCCGTTTCTGCTCCAGGTATGAGATTAGCCCAAATCGCTGCCACTGTCATGGCTGGTTAT GCTGATAGACCAGCTGCTGGTCAAAGAGCTTTCGAATTAAACACCGACGACGCTACCGGTAGAACCTCTTTACGT TTGTTACCTAGATTCGAAACTATTACCTACCGTGAATTATGGCAAAGAGTCGGTGAAGTTGCTGCTGCTTGGCAC CATGATCCAGAAAACCCATTGCGTGCCGGTGACTTCGTTGCTTTGTTAGGTTTCACCTCTATTGACTACGCCACT TTGGACTTGGCCGATATCCATTTGGGTGCCGTTACTGTCCCATTACAAGCTTCCGCTGCTGTTTCCCAATTAATT GCTATTTTGACTGAGACCTCTCCACGTTTATTAGCTTCTACTCCAGAACACTTAGATGCTGCTGTTGAATGCTTA TTGGCCGGTACCACCCCAGAAAGATTGGTCGTTTTCGATTATCATCCAGAAGATGATGATCAAAGAGCTGCTTTC GAATCTGCTAGAAGAAGATTAGCTGATGCTGGTTCTTTGGTTATCGTTGAAACCTTGGACGCTGTCAGAGCCAGA GGTAGAGATTTGCCAGCCGCCCCATTGTTCGTTCCAGACACTGATGACGACCCATTAGCTTTGTTAATTTACACT TCTGGTTCTACCGGTACTCCAAAGGGTGCTATGTACACCAACAGATTAGCTGCTACCATGTGGCAAGGTAACTCC ATGTTACAAGGTAATTCTCAAAGAGTCGGTATTAACTTGAATTACATGCCAATGTCCCACATTGCTGGTAGAATT TCTTTGTTTGGTGTCTTAGCCAGAGGTGGTACTGCTTATTTCGCCGCCAAGTCCGATATGTCTACCTTGTTCGAA GATATTGGTTTGGTTAGACCTACTGAAATTTTCTTCGTCCCAAGAGTTTGCGATATGGTCTTCCAAAGATACCAA TCTGAATTAGACAGAAGATCTGTTGCTGGTGCTGACTTAGACACCTTGGATCGTGAGGTTAAAGCTGATTTGAGA CAAAACTACTTGGGTGGTCGTTTCTTGGTTGCTGTTGTCGGTTCTGCTCCATTGGCCGCTGAAATGAAGACTTTC ATGGAATCTGTTTTGGATTTGCCTTTGCATGACGGTTACGGTTCCACCGAAGCTGGTGCTTCCGTCTTGTTGGAC AACCAAATTCAAAGACCACCAGTTTTGGACTACAAGTTGGTTGATGTCCCTGAGTTAGGTTACTTCAGAACTGAC AGACCTCACCCAAGAGGTGAGTTATTGTTGAAGGCCGAAACTACTATCCCTGGTTACTACAAAAGACCTGAAGTT ACCGCCGAAATTTTCGACGAAGATGGTTTTTACAAGACTGGTGATATTGTTGCTGAATTAGAACACGACAGATTG GTTTATGTTGATCGTAGAAACAATGTCTTGAAGTTGTCTCAAGGTGAATTCGTCACTGTTGCTCACTTGGAAGCT GTTTTTGCTTCTTCCCCATTAATCAGACAAATCTTCATCTATGGTTCCTCCGAAAGATCCTACTTGTTGGCTGTT ATTGTCCCAACTGATGATGCTTTGAGAGGTAGAGATACTGCTACTTTGAAGTCTGCTTTAGCTGAATCTATCCAA AGAATTGCTAAGGATGCTAACTTGCAACCTTACGAAATTCCAAGAGATTTCTTGATTGAAACTGAACCATTCACT ATCGCTAACGGTTTATTGTCCGGTATTGCCAAGTTGTTGCGTCCTAACTTGAAGGAAAGATACGGTGCCCAATTG GAACAAATGTACACCGACTTGGCTACTGGTCAAGCTGACGAGTTATTGGCCTTGAGAAGAGAAGCTGCTGATTTA CCAGTTTTGGAAACCGTTTCTAGAGCTGCCAAGGCCATGTTAGGTGTTGCTTCCGCTGACATGAGACCAGACGCC CACTTTACCGACTTGGGTGGTGATTCCTTGTCTGCTTTATCCTTTTCCAACTTGTTGCACGAAATTTTTGGTGTC GAAGTCCCAGTTGGTGTTGTCGTCTCCCCAGCTAACGAATTGAGAGACTTAGCCAATTACATCGAAGCTGAACGT AACTCTGGTGCTAAGAGACCAACCTTCACCTCCGTTCATGGTGGTGGTTCCGAGATTAGAGCTGCCGACTTAACC TTGGATAAGTTCATTGATGCTAGAACTTTAGCTGCCGCTGACTCCATTCCACACGCTCCTGTCCCAGCTCAAACT GTTTTGTTGACCGGTGCTAACGGTTATTTGGGTAGATTCTTATGTTTGGAATGGTTGGAAAGATTGGATAAGACC GGTGGTACCTTGATCTGCGTTGTTCGTGGTTCCGATGCCGCCGCTGCCAGAAAGAGATTGGACTCCGCTTTCGAC TCCGGTGATCCAGGTTTGTTGGAACACTATCAACAATTGGCCGCTCGTACCTTGGAAGTTTTGGCTGGTGACATT GGTGACCCAAACTTGGGTTTGGACGATGCTACTTGGCAACGTTTAGCTGAAACCGTCGATTTGATTGTTCACCCA GCCGCTTTGGTCAACCACGTTTTACCATATACCCAATTATTCGGTCCAAACGTTGTTGGTACTGCTGAAATTGTT CGTTTAGCTATCACTGCTAGAAGAAAGCCAGTTACTTATTTATCCACCGTTGGTGTTGCTGATCAAGTTGACCCA GCTGAATACCAAGAAGACTCTGATGTCAGAGAAATGTCCGCCGTCCGTGTTGTTAGAGAATCCTATGCTAACGGT TATGGTAACTCTAAGTGGGCTGGTGAAGTTTTGTTGAGAGAAGCTCATGATTTGTGCGGTTTGCCAGTCGCTGTC TTCCGTTCTGACATGATCTTGGCTCACTCCAGATACGCTGGTCAATTAAACGTTCAAGATGTTTTCACCCGTTTG ATCTTGTCCTTGGTTGCCACTGGTATCGCTCCATACTCCTTCTACAGAACTGACGCCGACGGTAACAGACAAAGA GCTCATTACGATGGTTTGCCAGCTGACTTCACTGCTGCTGCTATTACCGCTTTGGGTATTCAAGCTACCGAAGGT TTCCGTACTTACGATGTTTTGAACCCATACGACGATGGTATTTCTTTGGATGAATTCGTTGACTGGTTAGTTGAA TCTGGTCATCCAATCCAAAGAATCACCGACTACTCTGATTGGTTCCACAGATTTGAAACTGCCATCAGAGCTTTG CCAGAAAAGCAAAGACAAGCTTCTGTCTTACCATTGTTGGATGCCTACAGAAACCCATGTCCTGCTGTCCGTGGT GCTATCTTGCCAGCTAAGGAATTTCAAGCCGCTGTCCAAACTGCTAAGATCGGTCCAGAACAAGACATCCCACAT TTGTCCGCCCCATTGATTGACAAGTACGTTTCTGATTTGGAATTGTTGCAATTATTGTAAAACCTGCAGGCCGCG AGCGCCGATAAGGGAACCTTTTACAACAAATATTTGAAAAATTACCTCCATTATTATACCTTCTCTTTATGTAAT TGTTAGTTCGAAAATTTTTTCTTCATTAATATAATCAACTTCTAAAACTTTCTAAAAACGTTCTCTTTTTCGAGA TTAGTGCTTCTTCCCAATCCGTAAGAAATGTTTCCTTTCTTGACAAAACGCGATCGCCGACGCCGCCGATAAGAT TATTACTTGCTATAAGTGCGTGCCTGATGAACAGGATATTGCGGTCAATAATGCTGATGGTTCATTAGACTTCAG CAAAGCCGATGCCAAAATAAGCCAATACGATCTCAACGCTATTGAAGCGGCTTGCCAGCTAAAGCAACAGGCAGC AGAGGCGCAGGTGACAGCCTTAAGTGTGGGCGGTAAAGCCCTGACCAACGCCAAAGGGCGTAAAGATGTGCTATC GCGCGGCCCGGATGAACTGATTGTGGTGATTGATGACCAGTTCGAGCAGGCACTGCCGCAACAAACGGCGAGCGC ACTGGCTGCAGCCGCCCAGAAAGCAGGCTTTGATCTGATCCTCTGTGGCGATGGTTCTTCCGACCTTTATGCCCA GCAGGTTGGTCTGCTGGTGGGCGAAATCCTCAATATTCCGGCAGTTAACGGCGTCAGCAAAATTATCTCCCTGAC GGCAGATACCCTCACCGTTGAGCGCGAACTGGAAGATGAAACCGAAACCTTAAGCATTCCGCTGCCTGCGGTTGT TGCTGTTTCCACTGATATCAACTCCCCACAAATTCCTTCGATGAAAGCCATTCTCGGCGCGGCGAAAAAGCCCGT CCAGGTATGGTCGGCGGCGGATATTGGTTTTAACGCAGAGGCAGCCTGGTCAGAACAACAGGTTGCCGCGCCGAA ACAGCGCGAACGTCAGCGCAATCGGCGGCGTCGGCGATCGCGTTGCTTCGAGCGTCCCAAAACCTTCTCAAGCAA GGTTTTCAGTATAATGTTACATGCGTACACGCGTCTGTACAGAAAAAAAAGAAAAATTTGAAATATAAATAACGT TCTTAATACTAACATAACTATAAAAAAATAAATAGGGACCTAGACTTCAGGTTGTCTAACTCCTTCCTTTTCGGT TAGAGCGGATCATCGGCGCTCGCGGCCTGCAGGTTTTAGACGACACGTCTGCACAAGGTAATACCGTCGGCGATT GGTAATTGAACTGGTTCGACTCTGGCGTCGGCAGCAATCATGGCATTGAAACCACGAATGGAGTCTCTCTTCTTT CTGTCTTCTTCGGTCAATGGAGTGTCATCTGGCATGGAGACGGTACCACCCCATAAGGTATTGTCGTAAGCCAAA ACACCACCAACTCTAACCAATCTCAACAATTGTTCGTGGTAGGAACCGTAGTTGTACTTATCGGCATCAACGAAA GCGAAATCAAAAGAACCTTCGTCTTCATCAGCAATCAATTTGTCCAAAATTGGACCAGCAGGACCTTCACGGAAA TCAACCTTATGGGCAACACCGGCCTTCTTAATAACTGGCAAACCCAAGTCAAAGTATTCACGGGAAACGTCAATA GCAATGATTCTACCATCGTCTGGGATAGCTAAGGCAGTAGTCAAGACGGAACAACCAGTGTAGACACCGACTTCG ATGGTTCTCTTAGCACCCATAACCTTTAACAACAAGGACAATAACAAACCTTCATCTGGTGGAGAAGACATGAAA CCGAAGATATGTTCGGAAGTGATTTGTCTCAATTCTCTCATAAATTCGTTCTCTCTTGGATAGACCATAGTCTTC AACATATAATCGTATAAAGCATCGGATTTCAATAAAGTCTTGGTAGTTTCGGAGGAGTGAACTTCTCTAACCTCA CCGGCAGAACCATTACTTGCCATATCCATTGTGAAGGTAGTTCGATTTTGGAGGTCGCGGGAGGTAAGTATAGAG GTATATTAACAATTTTTTGTTGATACTTTTATGACATTTGAATAAGAAGTAATACAAACCGAAAATGTTGAAAGT ATTAGTTAAAGTGGTTATGCAGCTTTTGCATTTATATATCTGTTAATAGATCAAAAATCATCGCTTCGCTGATTA ATTACCCCAGAAATAAGGCTAAAAAACTAATCGCATTATTATCCTATGGTTGTTAATTTGATTCGTTGATTTGAA GGTTTGTGGGGCCAGGTTACTGCCAATTTTTCCTCTTCATAACCATAAAAGCTAGTATTGTAGAATCTTTATTGT TCGGAGCAGTGCGGCGCGAGGCACATCTGCGTTTCAGGAACGCGACCGGTGAAGACCAGGACGCACGGAGGAGAG TCTTCCGTCGGAGGGCTGTCGCCCGCTCGGCGGCTTCTAATCCGTACTTCAATATAGCAATGAGCAGTTAAGCGT ATTACTGAAAGTTCCAAAGAGAAGGTTTTTTTAGGCTAAGATAATGGGGCTCTTTACATTTCCACAACATATAAG TAAGATTAGATATGGATATGTATATGGTGGTATTGCCATGTAATATGATTATTAAACTTCTTTGCGTCCATCCAA AAAAAAAGTAACCCCACCCGAAGTCGCGCAACCAACTAACTTTACAATGGGTGCAGCCACTACTAGAAGACCATT TGATGGTAGAAGACGTAGATCCTCCTGGCGTCCAGAATCCCCAGCCAGAGGTGCCGTCGGTATCCACTCTGCTAG AAAGGTTGCTCAAGGTGCTAGATCCACTGCTATGGCTGCTGATGGTGAAGTTAAGAACATTCATACTAACGACTC TACTAAAACTTTATTAAAAAATGAAGCTTTGTACGAATACATGTTAAACACTATGGTTTATCCAAGAGAAAACGA ACACTTAAGAGAATTAAGACACATTACCGAACAACACGCTTACGGTTTTATGTTGTCTCCTCCAGACGAAGAACA ATTGTTGTCCTTATTGTTAAAGGTTATGGGTGCTCGTAACACTATTGAAGTCGGTGTTTTCACCGGTGGTTCTGT TTTGGCCGCTGCCTTGGCTATTCCAGATGATGGTCGTATTGTCGCTATTGACGTTTCTAGAGAGTATTATGACTT GGGTAGACCAGTCATTGAAAAAGCCGGTGTTGCCCACAAAGTTGACTTCAGAGAAGGTCCAGCTTTGGGTCATTT GGACGCCTTATTGGCTGATGAAGGTAACGCCGGTGCTTTTGATTTTGCTTTCGTCGATGCTGACAAGGGTAACTA TGGTAATTATCACGAACAATTGTTGAGATTGGTTAGAGTCGGTGGTGTTATTGCTTACGATAACACTTTGTGGGG TGGTTCTGTTGCTATGCCAGATGACGCCCCATTAACTGAAAAGGATAGAGAAGTTCGTGAAGCTATTAGAGCCTT TAACGCTAGAATTGCTGCTGATACTAGAGTCGAAGCTGTTCAATTACCAGTCGCTGATGGTATCACCTTGTGTAG AAGAGTCGTCTAAACGGCCGGCCAAGCACGCGGGGATGAGTATGCTTCTCTTTTTTTTTGTAGGCCAGTGATAGG AAAGAACAATAGAATATAAATACGTCAGAATATAATAGATATGTTTTTATATTTAGACCTCGTACATAGGAATAA TTGACGTTTTTTTTGGCCAACATTTGAAATTTTTTTTTGTTACCTCGCGCTGAGCCCAAACGGGCTCCACTACCC GAGGTCCGCCGGCGTTGGACGAGCGAAGATGGCAAATAGCCTTGTCAAATTTCCTACGGAATGTTATTTTCATTA CGTCCTTCTTTTTCAATGTACTTATTCATAAATGGGACACTATCTTGTTGCAAAAGGTACTTTGTATTTTGGTAT TAACATCTCGCCTATTTTTCATACAGAAACACTACTTATCGCTATCTATTTGATGTGGTATTGCTTGGCCATGAG GATACCTTGAGCTACGTTTTGAACACGTGCATCCAACTTGTAGCCTTGTTGATCCAACTTAACCATTTCATCAGG AAACTTGTGCAACTCAACGCTAAAGCATTCGATAAATTCATTATCTTCCAATTGAGTAACTGGTTTTTGGTTTTC AGGTAAACTCATATCAACTTCGACAGTAACCAGACAGAGGTTGGTGTTTGTGAAACCAGGATCGTTAAAAACTGT TGGGCTTTTAGAAATTATTTTACCACTGTAACCAGTCTCTTCTTTTAATTCTCTTAAGGCAGCAGTGTCAATATC GGCGGTTTAAACGCGTGGCCGTGCCGTC SEQ ID NO: 7 Length: 3658 Type: Organism; artificial sequence Other information: MS130477 sequence

(236) TABLE-US-00031 GACGGCACGGCCACGCGTTTAAACCGCCAAAAACTCACAAGAAGTTCGGTGTCCTTATTTGCGATGGGAATTGCT AATATCATATCACCACAAATATGGAGAGAGAAGGACTCTCCTCGCTTTTTACCTGCCTGGATTGTTCAAATCGTT TTATCATTCTCTCTTGCACCAGCCATTTTGTTACTGATCCATTTCATACTAAAAAGAAGGAATAATCAAAGACTA AAAAATTATGACGAAAATTTACAAAATTATTTGGACAGAATTCAACTCATTGAAAGCGAAAATCCTTCTTCCATT GAAGAAGGGAAAGTGGTAACCCACGAGAACAATTTGGCAGTCTTTGATTTGACTGATTTAGAAAACGAAACTTTT ATATATCCTTTGTAAATATTGATGTTTTGTTGTGTAAATGTTCTATCTGACACTTAATAATTAGAAAATTAATTT TTTAAACTTTCCGGCTGCAAGAAAGAGGAACTGTGTCTCTTTGAAAGGCACAATTTCCCAAAGAATCATTTACAA TGAACCTGCAGGCCGCGAGCGCCGATGCTTCGAGCGTCCCAAAACCTTCTCAAGCAAGGTTTTCAGTATAATGTT ACATGCGTACACGCGTCTGTACAGAAAAAAAAGAAAAATTTGAAATATAAATAACGTTCTTAATACTAACATAAC TATAAAAAAATAAATAGGGACCTAGACTTCAGGTTGTCTAACTCCTTCCTTTTCGGTTAGAGCGGATCCGCTCGT CCAACGCCGGCGGACCTTTAGACTAATCTTCTACACAAGGTAACACCATCACCGATGGAAACTTGGGAGATTTCA ATTCTTGGATCGGAAGCCAATCTTTTGTTCAATTCCATCAAAGCCTTACGGTTAACTCTTAAGTGAACTGGGACA GTCTCTTCCTCTTCAGCAACGAAACCGAACCATAAGGTGTTATCGAAAGCAATGATACCACCAACTTTGACCAAC TTCATCAATCTTTCCAAAGCGTGGACGTAATTTGGCTTATCAGCGTCAACGAAAGCGAAGTCAAATTCTGGCTTT GGGTTTTCAGATAACAACTTGTCTAAGGCTTGCAAACCGTCGGATTGGATAAAGTTAATTTTGTGATCGATACCG GCGTTCTTGATGAATTCCAAACCCATTTCGTAAGCTTCTTTATCGATATCAATAGCAGTAATTCTACCGTCTTCA GGCAAAGCCAAGGCGGTGGTTAACAAAGAGTAACCAGTGAAAACACCCAATTCCAAGGTGTTCTTAGCGTTCATC ATCTTCAACAACATGGACAAGAAATGACCTTCGTCAACAGGGACTTCCATCTCGGACAAGTTACCGTACTTATGA ACGGTAGCTTCTCTTAACTTCTTCAATTCTTCGTGTTCTCTTGGGTAAGCGGAAGTTTCAAAGATGTACTTTTTC AATTCTTCGTTCTTCAAGATACCCTTAGATGGTATAAGATTTTCCATGTCTGGTTCCATTGTAAAGTTAGTTGGT TGCGCGACTTCGGGTGGGGTTACTTTTTTTTTGGATGGACGCAAAGAAGTTTAATAATCATATTACATGGCAATA CCACCATATACATATCCATATCTAATCTTACTTATATGTTGTGGAAATGTAAAGAGCCCCATTATCTTAGCCTAA AAAAACCTTCTCTTTGGAACTTTCAGTAATACGCTTAACTGCTCATTGCTATATTGAAGTACGGATTAGAAGCCG CCGAGCGGGCGACAGCCCTCCGACGGAAGACTCTCCTCCGTGCGTCCTGGTCTTCACCGGTCGCGTTCCTGAAAC GCAGATGTGCCTCGCGCCGCACTGCTCCGAACAATAAAGATTCTACAATACTAGCTTTTATGGTTATGAAGAGGA AAAATTGGCAGTAACCTGGCCCCACAAACCTTCAAATCAACGAATCAAATTAACAACCATAGGATAATAATGCGA TTAGTTTTTTAGCCTTATTTCTGGGGTAATTAATCAGCGAAGCGATGATTTTTGATCTATTAACAGATATATAAA TGCAAAAGCTGCATAACCACTTTAACTAATACTTTCAACATTTTCGGTTTGTATTACTTCTTATTCAAATGTCAT AAAAGTATCAACAAAAAATTGTTAATATACCTCTATACTTACCTCCCGCGACCTCCAAAATCGAACTACCTTCAC AATGGAACCAGACATGGAAAATCTTATACCATCTAAGGGTATCTTGAAGAACGAAGAATTGAAAAAGTACATCTT TGAAACTTCCGCTTACCCAAGAGAACACGAAGAATTGAAGAAGTTAAGAGAAGCTACCGTTCATAAGTACGGTAA CTTGTCCGAGATGGAAGTCCCTGTTGACGAAGGTCATTTCTTGTCCATGTTGTTGAAGATGATGAACGCTAAGAA CACCTTGGAATTGGGTGTTTTCACTGGTTACTCTTTGTTAACCACCGCCTTGGCTTTGCCTGAAGACGGTAGAAT TACTGCTATTGATATCGATAAAGAAGCTTACGAAATGGGTTTGGAATTCATCAAGAACGCCGGTATCGATCACAA AATTAACTTTATCCAATCCGACGGTTTGCAAGCCTTAGACAAGTTGTTATCTGAAAACCCAAAGCCAGAATTTGA CTTCGCTTTCGTTGACGCTGATAAGCCAAATTACGTCCACGCTTTGGAAAGATTGATGAAGTTGGTCAAAGTTGG TGGTATCATTGCTTTCGATAACACCTTATGGTTCGGTTTCGTTGCTGAAGAGGAAGAGACTGTCCCAGTTCACTT AAGAGTTAACCGTAAGGCTTTGATGGAATTGAACAAAAGATTGGCTTCCGATCCAAGAATTGAAATCTCCCAAGT TTCCATCGGTGATGGTGTTACCTTGTGTAGAAGATTAGTCTAAATCCCCGCGTGCTTGGCCGGCCGTGAGTATGC TTCTCTTTTTTTTTGTAGGCCAGTGATAGGAAAGAACAATAGAATATAAATACGTCAGAATATAATAGATATGTT TTTATATTTAGACCTCGTACATAGGAATAATTGACGTTTTTTTTGGCCAACATTTGAAATTTTTTTTTGTTACCT CGCGCTGAGCCCAAACGGGCTCCACTACCCGAACGCGATCGCCGACGCCGCCGATAACATATTGATGTTTTTCGT GGGTAACCATAGTTCTTGGAATGTCAACTGAGGGTATTTGCACTTCAAAAAAAAAAATTTATTAAATGAGACTAT ATACAGTGAGCACAACCTGTCTAATACAACGGCAAAAATTATATACATTGGTAGATTTTCAAAATTGAACTCTTT GTGCTAAAGAATTGTCACAACAGTTTAAAAAATAGTTTGAATTCTTCAAATTGACCCCATATTAATAAGACCTGA TGCGATTCCGGTCTCACCCAGATTAGAGAGGGAATTTAATTTTCTTAGGACCGTAGCTACCAAAAATCTTTGTGT GGTATTGATTATATGATCGTGCTTGCGAAAAAAATAGAAGACTAAAAGTAGCATTAGTTTACTAACTTTCTCCTC GTATCTTTCAAATTTGTATTCCCCTCAAAAGTTACTCAGGTTAGGGAAAATTCCAAGTAGCTTATCAAGATCAAT TGCCATTAGTTGATTCAAGGCTTCATTGTCCGGTGTTTAAACCCCAGCGCCTGGCGGG SEQ ID NO: 8 Length: 9995 Type: Organism: artificial sequence Other information: MS129629 sequence

(237) TABLE-US-00032 GACGGCACGGCCACGCGTTTAAACCGCCTCGCAAGTCCTGTTTCTATGCCTTTCTCTTAGTAATTCACGAAATAA ACCTATGGTTTACGAAATGATCCACGAAAATCATGTTATTATTTACATCAACATATCGCGAAAATTCATGTCATG TCCACATTAACATCATTGCAGAGCAACAATTCATTTTCATAGAGAAATTTGCTACTATCACCCACTAGTACTACC ATTGGTACCTACTACTTTGAATTGTACTACCGCTGGGCGTTATTAGGTGTGAAACCACGAAAAGTTCACCATAAC TTCGAATAAAGTCGCGGAAAAAAGTAAACAGCTATTGCTACTCAAATGAGGTTTGCAGAAGCTTGTTGAAGCATG ATGAAGCGTTCTAAACGCACTATTCATCATTAAATATTTAAAGCTCATAAAATTGTATTCAATTCCTATTCTAAA TGGCTTTTATTTCTATTACAACTATTAGCTCTAAATCCATATCCTCATAAGCAGCAATCAATTCTATCTATACTT TAAACGCTCGTCCAACGCCGGCGGACCTGGTATACAGGATCTATCTTTTCGATAACGTAACTTAGTATCACATGT ATTAGTATTAATACTGCGATAGGATTGTTAGCTGTTGTTTTTATATTTGCAATTTATTTATGATCTTTTTTGATG ATCAAACCGTTGAGTTTTTGAACATTAAAAAATAGTGAGAAAGAAGAACTGAAATGGGAATTGAATTGATCAGTA TCTGTAGTGGTCGGCCTTGAATGGACCTTCTTCTGGGATACCCAAGTATTCAGATTGGACTTTACTCAATTTAGT CAATCTAACACCCAAGTTGCCCAAGTGGAACTTAGCGACAGCTTCATCCAAGATCTTTGGCAAAACGTGGACACC AACTTCGAATGGGCCTGTCTTTTGGAATTCAATGTGCTTTTCTCTGAAAGACTTATCGTTAGACTTGAACAAAGC AATTTGAGCTAAGACTTGGTTAGAGAAGGAACAAGACATAACGAAAGATGAGTGACCAGTAGCACAACCCAAGTT AACTAATCTACCGTTAGCCAACAAGATGACGTGTCTACCAGAAGACAACAAGTAACGGTCGACTTGTGGTTTGAT GTTAATACATTCTTTAGCGTTAGCCTTTAACCAGGCGACATCAATTTCGATGTCGAAATGGCCAATGTTACAAAC AATGGCATCTTCTGGCATGTTGATGAAATGTTCACCGTTGATAATATCTCTACAACCAGTGGTGGTAACGAAAAC TTGACCAATGTGGGATGCATCTTCCATGGTAACAACTTGGTAGCCTTCCATGGCAGCTTGTAAAGCGTTGATTGG GTCAATTTCGGTAACCAAGACACGAGCACCCATTCCTCTTAAGGCAGCAGCACAACCCTTACCGACATCACCGTA ACCAGCAACAACGGCAACCTTACCAGCCAACATGACATCAGTGGCTCTCTTAATACCGTCGACTAAGGATTCTCT ACAGCCGTACAAGTTGTCAAACTTGGACTTAGTGACGGAGTCGTTAACGTTAATGGCAGGAACCTTTAACTTGCC TTCTTTGACCATTCTGTATAAGTGGTGAACACCGGTGGTAGTTTCTTCGGAAAGACCAAAGCAGTCTTCCAACAT TTCAGGGTGCTTTTCATGAACTAAAGTGGTTAAATCACCACCATCATCTAAGATCAAGTTCAATTTCTTGTTGTC CTTGAAGGCAAACAATTGTTGTTCAATACACCACAAATACTCTTCTTCAGTTTCACCCTTCCAGGCAAAAACTGG AACACCGGAAGCGGCAATAGCAGCGGCGGCATGATCTTGAGTCGAATAGATGTTACAAGAGGACCAGGTAACTTC GGCACCCAAAGCAACTAAAGTTTCAATTAAAACAGCAGTTTGAATGGTCATGTGCAAACAACCAGCAATACGGGC GCCTTTCAAAGGTTGGACGTCACCGTAAGCCTTTCTGATGGCCATCAAACCTGGCATTTCATGTTCAGCCAATTC GATTTCCTTTCTACCGAAGGCAGCCAAAGAGATATCAGCGATTTTGTAGTTTTGAGCTGGAGCAGACATTGTAAA GTTAGTTGGTTGCGCGACTTCGGGTGGGGTTACTTTTTTTTTGGATGGACGCAAAGAAGTTTAATAATCATATTA CATGGCAATACCACCATATACATATCCATATCTAATCTTACTTATATGTTGTGGAAATGTAAAGAGCCCCATTAT CTTAGCCTAAAAAAACCTTCTCTTTGGAACTTTCAGTAATACGCTTAACTGCTCATTGCTATATTGAAGTACGGA TTAGAAGCCGCCGAGCGGGCGACAGCCCTCCGACGGAAGACTCTCCTCCGTGCGTCCTGGTCTTCACCGGTCGCG TTCCTGAAACGCAGATGTGCCTCGCGCCGCACTGCTCCGAACAATAAAGATTCTACAATACTAGCTTTTATGGTT ATGAAGAGGAAAAATTGGCAGTAACCTGGCCCCACAAACCTTCAAATCAACGAATCAAATTAACAACCATAGGAT AATAATGCGATTAGTTTTTTAGCCTTATTTCTGGGGTAATTAATCAGCGAAGCGATGATTTTTGATCTATTAACA GATATATAAATGCAAAAGCTGCATAACCACTTTAACTAATACTTTCAACATTTTCGGTTTGTATTACTTCTTATT CAAATGTCATAAAAGTATCAACAAAAAATTGTTAATATACCTCTATACTTACCTCCCGCGACCTCCAAAATCGAA CTACCTTCACAATGGTTCAATCTGCTGTCTTAGGGTTCCCAAGAATCGGTCCAAACAGAGAATTAAAGAAGGCCA CTGAAGGTTACTGGAACGGTAAAATCACTGTCGATGAATTATTCAAAGTCGGTAAGGATTTGAGAACTCAAAACT GGAAGTTGCAAAAGGAGGCTGGTGTTGATATCATCCCATCCAATGACTTCTCCTTTTACGACCAAGTTTTGGATT TGTCTTTGTTGTTCAATGTCATTCCAGACCGTTACACTAAGTACGATCTATCTCCAATCGACACTTTGTTTGCTA TGGGTAGAGGTTTACAAAGAAAGGCCACTGAAACTGAAAAGGCTGTCGACGTCACTGCTTTGGAAATGGTTAAAT GGTTCGACTCTAACTACCATTACGTTAGACCAACTTTCTCCAAGACCACTCAATTTAAGTTGAACGGCCAAAAGC CAGTTGACGAATTTTTGGAAGCCAAGGAGTTAGGTATTCACACTAGACCTGTCTTGTTAGGTCCAGTTTCTTACT TATTCTTGGGTAAGGCTGACAAGGATTCTCTAGATTTGGAACCATTGTCCCTATTGGAACAATTGTTGCCTCTAT ACACTGAAATCCTATCTAAATTGGCTTCTGCTGGTGCCACTGAAGTTCAAATTGACGAACCTGTCTTAGTTTTGG ACTTGCCTGCCAACGCCCAAGCCGCCATTAAGAAGGCTTACACTTACTTCGGTGAACAAAGCAATCTACCAAAGA TTACTTTGGCTACTTACTTCGGTACCGTTGTCCCTAACTTAGACGCCATCAAGGGCTTGCCAGTTGCTGCCTTAC ACGTTGACTTTGTTAGAGCTCCAGAACAATTTGATGAAGTCGTTGCCGCCATTGGTAACAAACAAACCTTGTCCG TTGGTATTGTTGATGGTAGAAACATTTGGAAGAATGATTTCAAGAAGTCTTCCGCTATCGTTAACAAGGCTATTG AAAAGTTGGGTGCTGACAGAGTCGTTGTTGCCACTTCTTCTTCTCTATTGCACACACCAGTTGACTTGAACAACG AAACCAAGTTGGACGCTGAAATCAAGGGCTTTTTCTCTTTCGCCACTCAAAAATTGGATGAAGTTGTTGTGATCA CCAAGAACGTTTCCGGTCAAGACGTTGCTGCTGCCCTAGAAGCTAACGCTAAATCTGTTGAATCCAGAGGTAAAT CCAAGTTTATCCACGATGCTGCCGTTAAGGCCAGAGTTGCCTCTATCGACGAAAAAATGTCTACTAGAGCAGCTC CATTTGAACAAAGATTGCCTGAACAACAAAAAGTCTTCAACTTGCCATTGTTCCCAACAACAACTATTGGTTCCT TCCCTCAAACCAAGGACATCAGAATTAACAGAAACAAATTCAACAAGGGTACCATCTCTGCTGAAGAATATGAAA AATTCATCAATTCTGAAATTGAAAAGGTCATCAGATTCCAAGAAGAAATTGGTTTGGATGTCTTAGTCCACGGTG AACCAGAAAGAAACGATATGGTTCAATACTTCGGTGAACAAATCAACGGTTATGCTTTCACTGTTAACGGTTGGG TTCAATCTTACGGTTCCAGATATGTCAGACCACCAATTATTGTTGGTGACTTGTCCAGACCAAAGGCTATGTCCG TCAAGGAATCTGTTTACGCTCAATCCATCACTTCTAAGCCAGTAAAGGGTATGTTGACTGGTCCAATTACCTGTT TGAGATGGTCTTTCCCAAGAGACGATGTCGACCAAAAAACTCAAGCTATGCAATTAGCTTTGGCTTTGAGAGATG AAGTCAATGATTTGGAAGCTGCCGGTATCAAGGTTATCCAAGTTGATGAACCAGCTTTAAGAGAAGGTTTACCAT TGAGAGAAGGTGCTGAGAGATCTGCTTACTACACCTGGGCTGCCGAAGCTTTCAGAGTTGCTACTTCTGGTGTTG CTAACAAGACTCAAATACACTCTCATTTCTGTTACTCTGACTTGGATCCAAACCATATCAAGGCTTTGGATGCTG ATGTTGTTTCCATCGAATTCTCTAAGAAGGACGATGCTAACTACATTGCTGAATTCAAAAACTATCCAAACCACA TTGGTCTGGGTTTATTCGATATTCATTCTCCAAGAATTCCATCAAAGGATGAATTTATCGCCAAGATTTCAACCA TCTTGAAGAGCTACCCAGCTGAAAAGTTCTGGGTTAACCCAGACTGTGGTTTGAAGACTAGAGGCTGGGAAGAAA CTAGATTGTCTTTGACTCATATGGTCGAAGCCGCCAAGTACTTCCGTGAACAATACAAGAATTAAGGTTTTAAAA AGGAAGCAAAGTAATGATATTTTCTGAACTTTTTGTTTTTTATTCTGGGATTCAACATCGGTGATTTAATTTTTG TGTTCACATTTAAAAGTTTATTTGGGTAATTTTTTGATATCAATTTTATTACAAAGCCATAACTCTTGCATTTTT TTTATTATATTTTTATATACACGTACATTCTGTATTATTTATAACGCATTCAATCCCCGCGTGCTTGGCCGGCCG TCGTTGGATCTGCCAAAAGAGCTGGCAGAACGTGCTGATTTACCCTTGCTTTCACATAATCTGCCCGCCGATTTT GCTGCGTTGCGTAAATTGATGATGAATCATCAGTAAAATCTATTCATTATCTCAATCAGGCCGGGTTTGCTTTTA TGCAGCCCGGCTTTTTTATGAAGAAATTATGGAGAAAAATGACAGGGAAAAAGGAGAAATTCTCAATAAATGCGG TAACTTAGAGATTAGGATTGCGGAGAATAACAACCGCCGTTCTCATCGAGTAATCTCCGGATATCGACCCATAAC GGGCAATGATAAAAGGAGTAACCTGTGAAAAAGATGCAATCTATCGTACTCGCACTTTCCCTGGTTCTGGTCGCT CCCATGGCAGCACAGGCTGCGGAAATTACGTTAGTCCCGTCAGTAAAATTACAGATAGGCGATCGTGATAATCGT GGCTATTACTGGGATGGAGGTCACTGGCGCGACCACGGCTGGTGGAAACAACATTATGAATGGCGAGGCAATCGC TGGCACCTACACGGACCGCCGCCACCGCCGCGCCACCATAAGAAAGCTCCTCATGATCATCACGGCGGTCATGGT CCAGGCAAACATCACCGCTAAATGACAAATGCCGGGTAACAATCCGGCATTCAGCGCCTGATGCGACGCTGGCGC GTCTTATCAGGCCTACGTTAATTCTGACGGCCGGCCAAGCACGCGGGGATTAGAAAGGAAAAGGAATCCTGTATA ATGCAAAATGAAATCGATACAAATTTGATTTGAGAAAAATGAGTCTATATCAAGAATATGATGGTATTGCGTCCC TGCATCAAATACGGTATAATGTACATGTTGACTTGTGTTGAGCAAATGAAAACATGGGAGGTTGAAGGCAGAAAA AAGTCCAAAAGGAAAAAAGCTTAGAACTTCAAAGTCTTAGGCTTTTCCCATGGGTATTCTTGGTTTGTGAAATGG CCATAAGAAGCGGTTGGCAAGTAGATTGGTCTAGCTAAGTCCAACTCCTTGACCAATACACCAGGTCTCAAGTCA AAGTTCTTGCTGATAATGTCGATAATTTCTTCGTCAGACTTGGTCGCAGTACCATAGGTGTCAACGTGCAAGGAC AATGGTTCCGCAATACCGATGGCATAAGAAAATTGAACTTGAACTCTCTTACATAAACCAGCGGCAACTAGGGAC TTGGCAACCCATCTAGCGGCATAAGCGGCAGAACGATCAACCTTAGAGTAGTCCTTACCGGAGAAGGCACCACCA CCGACGGATGAGGCACCACCGTAAGCGTCGACGATGATCTTTCTACCGGTCAAACCAGCGTCACCTTGAGGACCA CCGATGACGAATCTACCGGAAGGTTGGATAAAGTATTTGGTGTTTTCGTCCAACATGTCTCTTGGGATGACTTTT TCAATGATCTCGGACTTTAGTTGCGCTCTTAAGTCCTCGGTCGTGATTTCGTCAGCATGTTGAGCGGAGACGACG ACGGTGTCGATTCTTTGTGGAACCCATCTACCGTGGTCATCCTTGTATTCGACGGTGACTTGAGTCTTGGTGTCT GGTCTCAACCACGCTAAAGAGCCATCTCTTCTCGCGTCAGCCATGGCCATGTTTAGTTTATGAGCCAAAAGAATA GTCAAAGGCAAACCCTCTGGAGTTTCATCTGTGGCGTAACCAAACATGATACCTTGGTCACCGGCACCGATGTCT TCCAAATCCTTCTCCTCGTGGACACCTTGGGCGATATCTGGAGATTGTTGCTCAATGGCGACAAGGACGTTACAG GTCTTATAGTCGAAACCCTTGGCGGAATCATCGTAACCAATCTTCTTGATGGTGTCTCTGACGATTTTTTGGTAA TCCAACTGTGCCTTGGTAGTAATTTCACCAAAGACCATAATCATACCAGTCTTTGCCGCGGTTTCACACGCAACT TTGGAGTGAGGGTCCTCGGCTAAACAAGCGTCCAAGATGGCGTCGGAAACTTGGTCACAGATCTTATCTGGGTGA CCTTCACCAACGGATTCAGAAGTGAATAAAAATGTACCGGCCATTGTGAAGGTAGTTCGATTTTGGAGGTCGCGG GAGGTAAGTATAGAGGTATATTAACAATTTTTTGTTGATACTTTTATGACATTTGAATAAGAAGTAATACAAACC GAAAATGTTGAAAGTATTAGTTAAAGTGGTTATGCAGCTTTTGCATTTATATATCTGTTAATAGATCAAAAATCA TCGCTTCGCTGATTAATTACCCCAGAAATAAGGCTAAAAAACTAATCGCATTATTATCCTATGGTTGTTAATTTG ATTCGTTGATTTGAAGGTTTGTGGGGCCAGGTTACTGCCAATTTTTCCTCTTCATAACCATAAAAGCTAGTATTG TAGAATCTTTATTGTTCGGAGCAGTGCGGCGCGAGGCACATCTGCGTTTCAGGAACGCGACCGGTGAAGACCAGG ACGCACGGAGGAGAGTCTTCCGTCGGAGGGCTGTCGCCCGCTCGGCGGCTTCTAATCCGTACTTCAATATAGCAA TGAGCAGTTAAGCGTATTACTGAAAGTTCCAAAGAGAAGGTTTTTTTAGGCTAAGATAATGGGGCTCTTTACATT TCCACAACATATAAGTAAGATTAGATATGGATATGTATATGGTGGTATTGCCATGTAATATGATTATTAAACTTC TTTGCGTCCATCCAAAAAAAAAGTAACCCCACCCGAAGTCGCGCAACCAACTAACTTTACAATGTCCAAGAGCAA AACTTTCTTATTTACCTCTGAATCCGTCGGTGAAGGTCACCCAGACAAGATTTGTGACCAAGTTTCTGATGCTAT TTTGGACGCTTGTTTAGAACAAGATCCATTCTCCAAGGTTGCCTGTGAAACAGCTGCCAAAACTGGTATGATTAT GGTTTTCGGTGAAATTACCACCAAAGCTAGACTTGACTACCAACAAATAGTAAGAGATACCATCAAGAAGATTGG TTATGACGATTCTGCCAAGGGTTTCGACTACAAGACATGTAATGTTTTAGTAGCTATCGAACAACAATCTCCAGA TATCGCTCAAGGTCTGCACTATGAAAAGAGCTTAGAAGACTTAGGTGCTGGTGACCAAGGTATAATGTTTGGTTA CGCTACAGACGAAACTCCAGAAGGGTTACCATTGACCATTCTTTTGGCTCACAAATTGAACATGGCTATGGCAGA TGCTAGAAGAGATGGTTCTCTCCCATGGTTGAGACCAGACACAAAGACTCAAGTCACTGTCGAATACGAAGACGA CAATGGTAGATGGGTTCCAAAGAGGATAGATACCGTTGTTATTTCTGCTCAACATGCTGATGAAATTTCCACCGC TGACTTGAGAACTCAACTTCAAAAAGATATTGTTGAAAAGGTCATACCAAAGGATATGTTAGACGAAAATACCAA ATATTTCATCCAACCATCCGGTAGATTCGTCATCGGTGGTCCTCAAGGTGACGCTGGTTTGACCGGTAGAAAGAT TATTGTCGACGCTTACGGTGGTGCCTCATCCGTCGGTGGTGGTGCCTTCTCCGGTAAGGACTATTCCAAGGTCGA TCGTTCCGCTGCTTACGCTGCTAGATGGGTTGCCAAGTCTCTAGTTGCCGCTGGTTTGTGTAAGAGAGTCCAAGT CCAATTTTCATATGCTATTGGTATTGCTGAACCATTGTCTTTACATGTGGACACCTATGGTACAGCTACAAAATC AGATGACGAAATCATTGAAATTATTAAGAAGAACTTCGACTTGAGACCAGGTGTGTTAGTAAAGGAATTAGATTT GGCTAGACCAATTTACTTACCAACCGCTTCTTATGGTCACTTCACTAATCAAGAGTACTCATGGGAAAAACCAAA GAAATTGGAATTTTAAACATTTAGACAATAAATGTTTTATTTTGATTTTTATAATTATTTCAATCCCTTTCTTTA TGCTAGGCTGGTCCCGATCACCTCCCTATATTGAGAAGACGATGCCTTATCGTTTGATTCGCTCAACTCGAGTCA TGTAATTACTAGAAAATGATACAATAGAAAAGTTTTAAACATTCTTAAACTTGACAAACACCAATATCGGCGCTC GCGGCCTGCAGGTTAATGTGTATATTAGTTTAAAAAGTTGTATGTAATAAAAGTAAAATTTAATATTTTGGATGA AAAAAACCATTTTTAGACTTTTTCTTAACTAGAATGCTGGAGTAGAAATACGCCATCTCAAGATACAAAAAGCGT TACCGGCACTGATTTGTTTCAACCAGTATATAGATTATTATTGGGTCTTGATCAACTTTCCTCAGACATATCAGT AACAGTTATCAAGCTAAATATTTACGCGAAAGAAAAACAAATATTTTAATTGTGATACTTGTGAATTTTATTTTA TTAAGGATACAAAGTTAAGAGAAAACAAAATTTATATACAATATAAGTAATATTCATATATATGTGATGAATGCA GTCTTAACGAGAAGACATGGCCTTGGTGACAACTCTCTTCAAACCAACTTCAGCCTTTCTCAATTCATCAGCAGA TGGGTCTTCGATTTGCAAAGCAGCCAAAGCATCGGACAAAGCAGCTTCAATCTTGGACTTGGAACCTGGCGGTTT AAACGCGTGGCCGTGCCGTC SEQ ID NO: 9 Length: 5467 Type: Organism: artificial sequence Other information: MS 332389 sequence

(238) TABLE-US-00033 GACGGCACGGCCACGCGTTTAAACCGCCACCCAGCCAAGGTAGTCTAAAAGCTAATTTCTCTAAAAGGGAGAAAG TTGGTGATTTTTTATCTCGCATTATTATATATGCAAGAATAGTTAAGGTATAGTTATAAAGTTTTATCTTAATTG CCACATACGTACATTGACACGTAGAAGGACTCCATTATTTTTTTCATTCTAGCATACTATTATTCCTTGTAACGT CCCAGAGTATTCCATTTAATTGTCCTCCATTTCTTAACGGTGACGAAGGATCACCATACAACAACTACTAAAGAT TATAGTACACTCTCACCTTGCAACTATTTATCTGACATTTGCCTTACTTTTATCTCCAGCTTCCCCTCGATTTTA TTTTTCAATTTGATTTCTAAAGCTTTTTGCTTAGGCATACCAAACCATCCACTCATTTAACACCTTATTTTTTTT TTCGAAGACAGCATCCAACTTTATACGTTCACTACCTTTTTTTTTACAACAATTTCATTCTTCATCCTATGAACG CTCGTCCAACGCCGGCGGACCTGTGTCAAAAGTAGGCAGCCAATCTGTTTTGCTGCCATATTTTTCCTAACAGGA TTTGCTATGTATGAAGTACGATAAGTATGAAATATTAGTGCTTGTACATACGACCAATTTGTAATAAATAGTGAT GTAGAGAATAAACTTAAAGAAAACTTATGAATAAATAATTATGGAGATATAATTACGAATAATTATGAATAAATA GTGCTGCCTTAATTGGCACTTGCAATGGACCAAGTCTTGGCATAACCTTCAAGGTCAACAGGTTCCCAAGGAACT CCCAAGCCTTCTGCAATGACTTTACCCAAATCTTCGTTTAGCAAACCAAAGTATTGCGTAACTCTCTTTTTGACT TTAGGATCTTTGATCTTACAAGCGTGGCAAACAACGTTATGAACGAATAATTTCTTCTGTTCATCGTTGTATACC TTTTCATATAGAGCTCTTGGCTGTTCGAAGTCTAGTGGACTAATACCATAAACGTAGTAATATTGATTAATTTTG GCATCAACAATATGCTCGTTTCTGATTTGGTCTTGTTCCTGTTTTCTCACAGAAACTTCTGTTACTTCGTCAAGA ACTATCCCTTTGAACTTATCAGATACTTCGTCGTTGTCTTCATTTTTGAATTTCAGAGTTTGATTTGGTAAACTG GAAATATAATTTGGCTCAGGACCGAAATTGTAGTAACTCATTGGGCCGTCCCTTTGGAAGTTCACTGCTTTAAAT GGACACTGTTCGGCAGTGTATTGGGAATCACCTTTGGAGTATGGACATCCCAAGTTTCTTGGTCTGTTGACGGGC AATTGCTGATAGTTGGCTCCCAATCTATGACGTTGAGTGTCTGGATAGGAGAAAAGTCTGGCTTGTAGAACGGAA TCATTAGAAGGCTTAATACCTGGGATACAAGTGTTCGTTGGACTGAATGCAACTTGTTCAATTTCTTGGAAATAA TTGTCAACATTCTCCGTTAGGGTGATGGTACCAAATTTTCTCAAAGGGAATTCCTTGTGTGGCCATATTTTCGTT AGGTCATTTACCGAATACCTGAACTTAGTTGCTTGTTCGGGTGTCATTGTTTGCACATAACAGTTAAATTTTGGC TTTTCGCCATTTTGCAATTGAGTGAACAGCTTTGCCTGATTATAATCAGGGTGGGAGCCTGACAGTTCAGCAGCC TTATCTCCAGTCAAGGTTTCAAAACCAGTATCCGACAAGACGTGGAATTGCACATATGTGTCCTTACCTTCTTTG TTGACCATGATGAAGGAATGACCAGAGTACGCGTTCATACTAGCCCACGAAGCAGGAGTACCTCTATCACCAAAC ATGTAAGTTATTTGATGGATTGATTCCGGATTCAATGTTAGATAATCCCAGTATATGGTAGTGTCCTGAAACTGA TTCAGATGAGACTGAGGGTCTCTCTTTTGCGAATGAATAAATACGGGAAACTTAATAGCGTCTCTGAGGAAGAAG ACGGGAGTATTGTTGAAGACCCAGTCATGGTTCCCCCACTCGGTATAGAATTTAAAAGAAACACCTCTTGGGTCT CTTGCAGTGTCTGGTGTACCACTTTCACCACCAACGGTGGAAAAACGAACAAGACCAGGACATTTGTAACCCACA TTCTGGTATGGAGCGGCGTATGTAATATCACTCAAAGAATCTGTTAGTTCGAACTCCAGTCTACAACCACCACCT TTGGCATGGACTACACGCTCCGGAACTCTTTCTCTATCGAAACTTGCGATATTTTCCAGCAGATGGAAGTCTTGC AGTAAGATAGGGCCGTCTGGTCTTGAGTATTGAGAAGCGTATGGGTGATGAGAGTACGGAAAACCGTTTTGTAGA GAGTAAACTTTTTCTTGCTTTTCTTCTTTTTTACCGAACACGTTCATTGTAAAGTTAGTTGGTTGCGCGACTTCG GGTGGGGTAAGTATAGAGGTATATTAACAATTTTTTGTTGATACTTTTATGACATTTGAATAAGAAGTAATACAA ACCGAAAATGTTGAAAGTATTAGTTAAAGTGGTTATGCAGCTTTTGCATTTATATATCTGTTAATAGATCAAAAA TCATCGCTTCGCTGATTAATTACCCCAGAAATAAGGCTAAAAAACTAATCGCATTATTATCCTATGGTTGTTAAT TTGATTCGTTGATTTGAAGGTTTGTGGGGCCAGGTTACTGCCAATTTTTCCTCTTCATAACCATAAAAGCTAGTA TTGTAGAATCTTTATTGTTCGGAGCAGTGCGGCGCGAGGCACATCTGCGTTTCAGGAACGCGACCGGTGAAGACC AGGACGCACGGAGGAGAGTCTTCCGTCGGAGGGCTGTCGCCCGCTCGGCGGCTTCTAATCCGTACTTCAATATAG CAATGAGCAGTTAAGCGTATTACTGAAAGTTCCAAAGAGAAGGTTTTTTTAGGCTAAGATAATGGGGCTCTTTAC ATTTCCACAACATATAAGTAAGATTAGATATGGATATGTATATGGTGGTATTGCCATGTAATATGATTATTAAAC TTCTTTGCGTCCATCCAAAAAAAAAGTAACCTCCCGCGACCTCCAAAATCGAACTACCTTCACAATGACTAGAAC CTTACCTCCTGGTGTATCCGATGAAAGATTTGATGCCGCTTTACAAAGATTTAGAGATGTCGTCGGTGATAAGTG GGTTTTATCTACCGCTGATGAATTGGAGGCCTTCAGAGATCCATACCCTGTTGGTGCTGCTGAAGCCAACTTACC ATCTGCTGTTGTTTCTCCAGAATCTACTGAACAAGTTCAAGATATCGTCAGAATTGCCAACGAATACGGTATCCC ATTGTCTCCAGTTTCTACTGGTAAGAATAACGGTTACGGTGGTGCTGCTCCAAGATTGTCCGGTTCCGTCATTGT TAAAACCGGTGAAAGAATGAACAGAATTTTGGAAGTTAACGAAAAATACGGTTACGCTTTGTTGGAACCAGGTGT TACCTATTTCGATTTGTACGAATATTTACAATCTCACGATTCTGGTTTGATGTTGGATTGTCCAGACTTGGGTTG GGGTTCTGTTGTTGGTAACACCTTGGACCGTGGTGTTGGTTACACTCCATATGGTGATCACTTCATGTGGCAAAC CGGTTTGGAAGTCGTCTTACCACAAGGTGAAGTCATGAGAACCGGTATGGGTGCCTTGCCAGGTTCCGATGCCTG GCAATTATTCCCATACGGTTTTGGTCCATTCCCAGATGGTATGTTTACTCAATCTAACTTAGGTATTGTTACCAA GATGGGTATTGCCTTGATGCAAAGACCACCAGCTTCCCAATCCTTTTTGATCACCTTTGACAAGGAGGAAGATTT AGAACAAATTGTTGACATTATGTTGCCATTGAGAATTAATATGGCTCCATTGCAAAACGTTCCAGTCTTAAGAAA CATTTTCATGGACGCTGCTGCTGTCTCTAAGAGAACCGAATGGTTTGACGGTGACGGTCCTATGCCAGCTGAAGC TATTGAAAGAATGAAGAAGGACTTAGATTTGGGTTTCTGGAACTTTTATGGTACTTTGTACGGTCCACCACCATT GATCGAAATGTATTACGGTATGATTAAGGAAGCCTTCGGTAAGATCCCAGGTGCTAGATTCTTCACTCACGAGGA AAGAGACGATAGAGGTGGTCACGTCTTGCAAGATAGACACAAGATCAACAATGGTATTCCATCTTTGGATGAATT GCAATTGTTGGACTGGGTTCCAAACGGTGGTCACATCGGTTTCTCTCCAGTTTCTGCTCCAGACGGTAGAGAAGC TATGAAGCAATTTGAAATGGTTCGTAATAGAGCCAATGAATACAACAAAGATTACGCTGCTCAATTCATTATTGG TTTGAGAGAAATGCACCACGTCTGTTTGTTTATCTATGACACCGCTATTCCAGAAGCTAGAGAAGAGATCTTGCA AATGACCAAGGTTTTAGTTCGTGAAGCCGCTGAAGCTGGTTATGGTGAATACAGAACCCATAACGCCTTGATGGA CGACGTTATGGCTACTTTCAACTGGGGTGACGGTGCCTTGTTGAAATTTCACGAAAAGATCAAAGATGCTTTGGA CCCAAACGGTATTATTGCCCCTGGTAAGTCTGGTATTTGGTCCCAAAGATTCAGAGGTCAAAACTTGTAAAACCT GCAGGCCGCGAGCGCCGATGAGTATGCTTCTCTTTTTTTTTGTAGGCCAGTGATAGGAAAGAACAATAGAATATA AATACGTCAGAATATAATAGATATGTTTTTATATTTAGACCTCGTACATAGGAATAATTGACGTTTTTTTTGGCC AACATTTGAAATTTTTTTTTGTTACCTCGCGCTGAGCCCAAACGGGCTCCACTACCCGATCCCCGCGTGCTTGGC CGGCCGTCTCCATGCTGGACTTACTCGTCGAAGATTTCCTGCTACTCTCTATATAATTAGACACCCATGTTATAG ATTTCAGAAAACAATGTAATAATATATGGTAGCCTCCTGAAACTACCAAGGGAAAAATCTCAACACCAAGAGCTC ATATTCGTTGGAATAGCGATAATATCTCTTTACCTCAATCTTATATGCATGTTATTTGCTCTTATAATTGGTCTC TATTTAGGGAAAAAAGTCGGTTTGAGAGCTTCTCGCGATGTGAAATCTCAATTTGAACTGCACGCCAAAGCTAGC CCATTTCACGAACACCAGAAAGAAGAAATCCCCAAGGATCGCATGACAGAGTATGCTCTCTCATATCGTTGAGTA TGAATGCCAATACACTGATCAGCTTTACAAGAAACGTAAAATCTGGCACGATGGTAGACTGAAATACTTTCAGTT AAACAACAGATTCATGCTTTATACGGAAAAGGATAACGTCGGTGTTTAAACCCCAGCGCCTGGGGGG SEQ ID NO: 10 Length: 5117 Type: Organism: artificial sequence Other information: MS 137140 sequence

(239) TABLE-US-00034 GACGGCACGGCCACGCGTTTAAACCGCCACGAGCCTGAGACAAGCCCGTAACCAGGCGCGTTGCCGCAAATACAG AGGCGCCCCAGACAACACCGCAGTGTGAAGCACTGTCAATTTAAAACCGTGGCTTGCTGGAGATGCCCAGACCAA CCCTGTTGGGTTTTTCTCTCGAGCACGCCGTTATAATTTTAGCGTGTTCCGTACCTGTGTGCACATCAATAAGCG GTGTAACAAACTTGAACTTGCCATCTCATATCGTCATATGAGCAGTTGCAGAGAAAGGCACTTTAAATAAAAAGG CGTGGATGATAAAAAATGTATATAAGTTGGATGGATTTTTGGGAAAAAGTAATGTTTTTGCAGACGTTTTAAATA CTCCCTCCCTTTTCTTAGTAATTTTTATTATGTATTGACTAAGTCAAAAATAACTATAGAAAACTAAAGTTTACG AGAGGACCCAAAAGTTTTGAATAACACGTGCCTTTGATTTTTTGTACCTCCCGCGACCTCCAAAATCGAACTACC TTCACAATGCACATAACCAAACCTCATGCTGCAATGTTTTCTTCCCCAGGTATGGGTCATGTCATTCCAGTTATC GAATTGGGTAAGAGATTATCTGCCAACAACGGTTTCCACGTCACCGTCTTCGTCTTGGAAACTGACGCTGCTTCT GCTCAATCTAAGTTCTTGAACTCTACCGGTGTTGATATTGTCAAATTGCCATCTCCAGACATTTACGGTTTGGTC GACCCAGACGACCACGTTGTTACTAAGATTGGTGTTATTATGAGAGCTGCTGTTCCTGCTTTGAGATCCAAAATT GCTGCTATGCACCAAAAGCCAACTGCTTTGATCGTTGATTTGTTTGGTACCGATGCCTTGTGTTTAGCTAAGGAA TTTAATATGTTGTCTTATGTTTTTATTCCAACCAACGCCCGTTTCTTGGGTGTTTCCATTTACTACCCAAATTTA GACAAGGACATTAAGGAAGAACATACCGTCCAAAGAAACCCTTTAGCTATCCCAGGTTGTGAGCCAGTCAGATTC GAAGATACCTTGGATGCTTACTTGGTCCCAGATGAACCAGTCTACAGAGATTTCGTTAGACATGGTTTGGCCTAC CCAAAGGCCGACGGTATTTTGGTTAACACTTGGGAAGAAATGGAACCAAAGTCTTTAAAGTCTTTGTTAAACCCA AAATTGTTGGGTAGAGTCGCTAGAGTTCCAGTTTACCCAATCGGTCCATTGTGTAGACCAATCCAATCTTCTGAA ACCGATCACCCAGTCTTGGATTGGTTGAATGAACAACCTAACGAATCTGTCTTATACATCTCTTTTGGTTCCGGT GGTTGCTTGTCTGCTAAGCAATTGACTGAATTAGCCTGGGGTTTGGAGCAATCTCAACAAAGATTCGTTTGGGTT GTCAGACCACCAGTCGATGGTTCTTGTTGTTCCGAATACGTTTCTGCTAACGGTGGTGGTACCGAAGACAACACT CCTGAATACTTGCCAGAAGGTTTCGTCTCCAGAACTTCCGACAGAGGTTTCGTTGTTCCATCCTGGGCCCCACAA GCTGAAATCTTGTCTCACAGAGCTGTTGGTGGTTTCTTGACTCATTGTGGTTGGTCCTCCACCTTAGAATCCGTT GTCGGTGGTGTTCCTATGATCGCTTGGCCATTGTTCGCCGAGCAAAACATGAACGCCGCTTTGTTATCTGACGAA TTAGGTATTGCTGTTAGATTGGACGACCCTAAGGAAGACATTTCCAGATGGAAGATCGAAGCCTTAGTTAGAAAG GTCATGACTGAAAAGGAAGGTGAAGCTATGAGAAGAAAGGTTAAGAAGTTGAGAGACTCTGCCGAAATGTCTTTG TCTATCGATGGTGGTGGTTTGGCTCATGAATCTTTGTGTAGAGTTACCAAGGAATGTCAAAGATTTTTGGAACGT GTTGTTGACTTGTCCAGAGGTGCTTAAATCCCCGCGTGCTTGGCCGGCCGTGAGTATGCTTCTCTTTTTTTTTGT AGGCCAGTGATAGGAAAGAACAATAGAATATAAATACGTCAGAATATAATAGATATGTTTTTATATTTAGACCTC GTACATAGGAATAATTGACGTTTTTTTTGGCCAACATTTGAAATTTTTTTTTGTTACCTCGCGCTGAGCCCAAAC GGGCTCCACTACCCGAACGCGATCGCCGACGCCGCCGATGTCGCCCTCAGTCCGCTCATTTTAGCTGAATTTTCT AATGTTATTTTTCATCAGCAAAACTTAACAGAACGTTAATTTATCTACCCCTTTTAGTTCATTATCTCTTTTTTA TCCAACATTTTACAGAGATCTCTCACTTAAGTCTAAGTAAAGACATTATTTTATATGGTACACTTATAGAATATA CGATAATAATAATAAAAACTATGTAACATAACCTTCAGAATTTAATATTAGTTTCCTTTTTACCTCATTGCACTA ATAAAAAAATTCTACAGAATCTCCGAAAAAGAAAATCCAGCTTACTCTTTTTGTTTTCTTCTTCACACGTGAGCT TTTCCGCCGGCATACGTTCCGTTCCGTGTCGTCTTGCATAAAATTTCCGAATCACATGTTCGTAAAACAACCGGA AGTGCCCCGAATATAAAGTCAATTCTCACCGCTGTTGTAACTGGAGCTTTAAGGTGTTATCTAAGGAAGGATAAA AGAACTTAAACAACCGGTGTTTAAACCCCAGCGCCTGGCGGG SEQ ID NO: 10 Length: 1912 Type: Organism: artificial sequence Other information: R21 sequence SEQ ID NO: 11 Length: 8672 Type: Organism: artificial sequence Other information: MS146176 sequence

(240) TABLE-US-00035 GACGGCACGGCCACGCGTTTAAACCGCCCGAACAAGCTTATCCCTATTACAGAATTCCAAGGAGGAAATCATTCA ACTTGAAAGTAAATGGATGTCTATGCAATCTGTTAAAACAACTGCCCTACCCCTTCAAGAGACTACGAATACATC ATCGACCTTAACTTCTCTGACGTCCAGCATAATTCCCAAGAGTATACCTATAATCACGAAAGGTGAAGTCGCCAC TAAACCAGCATCTTACTGAATTATTTTCAACAGAACACATCGCATCCAACTGAACAAACTGTTACCGCTGTTGAT ACCAAGGAACATTCAGTGAACGTAGGGAAGAACGAACATTCTCCATATTTTTGCATACTAGATACAAGGGGGAAG AATGCAATTATTTCACAAACCGAAAGAAAAAGAATCACAAGCTATGTTTGCTATTATCAATTTTTCTTATGATTA ATTTAACATAAATTATGGCCTTTTTCATTCCGGCTGCGCTTGTTCTCCAATTTTTTTTTTTTTTTTGAGAAAACT TTTCGATTACCTGCCTTGATACGCTGCCAGAATACATGTCGGAAAGCTTCCTTCCGGAATGGCTTAAGTAGGTTG CAATTTCTTTTTCTATTAGTAGCTAAAAATGGGTCACGTGATCTATATTCGAAAGGGGCGGTTGCCTCAGGAAGG CACCGGCGGTCTTTCGTCCGTGCGGAGATATCTGCGCCGTTCAGGGGTCCATGTGCCTTGGACGATATTAAGGCA GAAGGCAGTATCGGGGCGGATCACTCCGAACCGAGATTAGTTAAGCCCTTCCCATCTCAAGATGGGGAGCAAATG GCATTATACTCCTGCTAGAAAGTTAACTGTGCACATATTCTTAAATTATACAATGTTCTGGAGAGCTATTGTTTA AAAAACAAACATTTCGCAGGCTAAAATGTGGAGATAGGATTAGTTTTGTAGACATATATAAACAATCAGTAATTG GATTGAAAATTTGGTGTTGTGAATTGCTCTTCATTATGCACCTTATTCAATTATCATCAAGAATAGCAATAGTTA AGTAAACACAAGATTAACATAATAAAAAAAATAATTCTTTCATAATGCCCAGTAAATTGGCTATAACTTCCATGT CCTTGGGCAGGTGTTATGCAGGCCATTCTTTCACAACTAAGTTAGACATGGCTAGGAAATATGGTTACCAGGGTT TGGAGTTGTTTCATGAGGACTTAGCCGATGTCGCATACAGGTTGTCAGGTGAAACACCTAGTCCATGCGGTCCCA GTCCAGCTGCTCAATTATCAGCCGCTAGACAGATATTGAGGATGTGCCAGGTTAGAAACATCGAAATAGTGTGCT TGCAACCCTTTTCACAATATGATGGTTTATTGGATAGAGAGGAGCACGAGAGGAGGTTGGAGCAATTAGAGTTTT GGATTGAATTGGCCCACGAGTTGGATACTGACATCATTCAAATTCCAGCCAATTTCTTGCCCGCCGAAGAAGTCA CAGAAGATATTTCATTAATTGTGAGTGACTTACAGGAAGTTGCCGATATGGGTTTACAGGCAAACCCTCCAATAA GGTTTGTATATGAGGCATTATGCTGGTCCACTAGAGTTGACACTTGGGAGAGGTCTTGGGAAGTTGTCCAAAGAG TAAATAGACCTAACTTTGGCGTTTGCTTAGACACTTTTAACATCGCAGGTAGAGTTTATGCTGACCCCACAGTTG CCTCAGGCAGAACACCAAACGCTGAAGAAGCAATTAGAAAGTCAATTGCCAGGTTGGTCGAAAGGGTCGATGTAT CTAAAGTCTTCTACGTTCAAGTAGTGGACGCCGAAAAGTTAAAGAAACCATTAGTTCCCGGTCATAGATTCTATG ACCCTGAGCAACCAGCCAGAATGTCATGGTCAAGAAATTGTAGGTTGTTCTACGGCGAAAAAGACAGAGGCGCTT ACTTACCTGTTAAAGAAATCGCTTGGGCTTTTTTCAATGGATTGGGCTTCGAAGGTTGGGTGTCCTTGGAATTAT TTAACAGAAGAATGTCAGATACTGGATTTGGAGTTCCAGAGGAGTTAGCTAGGAGAGGCGCCGTATCATGGGCCA AATTAGTTAGAGATATGAAAATCACAGTGGATTCTCCAACTCAACAACAAGCTACACAGCAGCCTATTAGAATGT TGTCCTTATCTGCAGCCTTATAAAAAGCTTCGACACATACATAATAACTCGATAAGGTATGGTATCTTATTTCAT TGTGGGGTAGTTTTTACGAAAAAAATGAAAAGTTGTAAGTATAGTATATATTTTTTTTCTATGTAAGTTTTATAT CCCCGCGTGCTTGGCCGGCCGTTCACATGTAGGGACCGAATTGTTTACAAGTTCTCTGTACCACCATGGAGACAT CAAAGATTGAAAATCTATGGAAAGATATGGACGGTAGCAACAAGAATATAGCACGAGCCGCGAAGTTCATTTCGT TACTTTTGATATCGCTCACAACTATTGCGAAGCGCTTCAGTGAAAAAATCATAAGGAAAAGTTGTAAATATTATT GGTAGTATTCGTTTGGTAAAGTAGAGGGGGTAATTTTTCCCCTTTATTTTGTTCATACATTCTTAAATTGCTTTG CCTCTCCTTTTGGAAAGCTATACTTCGGAGCACTGTTGAGCGAAGGCTCATTAGATATATTTTCTGTCATTTTCC TTAACCCAAAAATAAGGGAAAGGGTCCAAAAAGCGCTCGGACAACTGTTGACCGTGATCCGAAGGACTGGCTATA CAGTGTTCACAAAATAGCCAAGCTGAAAATAATGTGTAGCTATGTTCAGTTAGTTTGGCTAGCAAAGATATAAAA GCAGGTCGGAAATATTTATGGGCATTATTATGCAGAGCATCAACATGATAAAAAAAAACAGTTGAATATTCCCTC AAAAATGGAAAGAATTGTTGTAACATTGGGTGAAAGGTCTTATCCAATCACTATTGCATCTGGTTTATTTAACGA ACCAGCCAGTTTTTTACCATTGAAATCCGGTGAGCAAGTGATGTTAGTCACTAACGAAACATTAGCTCCCTTGTA TTTAGACAAGGTAAGGGGTGTTTTGGAACAAGCAGGCGTAAACGTCGATTCTGTGATATTACCAGACGGTGAACA ATACAAAAGTTTGGCAGTTTTAGATACTGTATTCACTGCCTTATTACAGAAACCACATGGTAGAGATACTACATT GGTTGCCTTAGGAGGCGGAGTTGTCGGCGATTTAACAGGTTTCGCTGCCGCATCATATCAGAGAGGTGTTAGATT CATTCAGGTCCCAACTACTTTGTTATCCCAAGTAGACTCATCAGTTGGAGGAAAGACTGCTGTCAATCATCCTTT AGGAAAGAACATGATTGGTGCCTTCTACCAGCCAGCATCAGTCGTTGTTGATTTAGATTGTTTGAAGACATTACC TCCAAGAGAGTTGGCAAGTGGTTTGGCAGAAGTAATAAAATATGGTATCATATTGGATGGTGCATTTTTTAATTG GTTGGAAGAAAATTTAGATGCATTATTGAGGTTAGACGGTCCTGCTATGGCTTATTGTATTAGAAGGTGTTGTGA ATTAAAGGCTGAGGTTGTAGCAGCCGACGAGAGAGAAACTGGTTTAAGAGCTTTGTTGAACTTAGGTCATACATT TGGTCATGCTATCGAAGCTGAAATGGGTTACGGTAATTGGTTGCATGGTGAAGCCGTTGCAGCCGGTATGGTTAT GGCTGCCAGGACATCTGAAAGATTGGGTCAATTCAGTTCTGCAGAAACACAAAGGATAATAACCTTATTGAAAAG GGCAGGTTTACCTGTGAATGGTCCTAGAGAGATGAGTGCTCAAGCTTATTTGCCCCACATGTTGAGAGATAAGAA GGTTTTAGCAGGTGAAATGAGGTTAATTTTGCCCTTAGCAATTGGAAAAAGTGAAGTCAGATCCGGTGTTTCACA TGAATTAGTATTGAACGCCATAGCTGATTGCCAATCAGCCTAAATAAATGACTTAATTTTAACTATATATCGCCA AACATGTAAATTAAAAAAAGAAGCGAGAAGTATATACATGTGTGTATGAATAAATAATTCGTTTACTATTGATAC GTATTGCAAGATATGATTAACCTGCAGGCCGCGAGCGCCGATGATCATCTACCCATGCCGAAATTCGGGCCGTTG GCCGGATTGCGCGTTGTCTTCTCCGGTATCGAAATCGCCGGACCGTTTGCCGGGCAAATGTTCGCAGAATGGGGC GCGGAAGTTATCTGGATCGAGAACGTCGCCTGGGCCGACACCATTCGCGTTCAACCGAACTACCCGCAACTCTCC CGCCGCAATTTGCACGCGCTGTCGTTAAATATTTTCAAAGATGAAGGCCGCGAAGCGTTTCTGAAATTAATGGAA ACCACCGATATCTTCATCGAAGCCAGTAAAGGTCCGGCCTTTGCCCGTCGTGGCATTACCGATGAAGTACTGTGG CAGCACAACCCGAAACTGGTTATCGCTCACCTGTCCGGTTTTGGTCAGTACGGCACCGAGGAGTACACCAATCTT CCGGCCTATAACACTATCGCCCAGGCCTTTAGTGGTTACCTGATTCAGAACGGTGATGTTGACCAGCCAATGCCT GCCTTCCCGTATACCGCCGATTACTTTTCTGGCCTGACCGCCACCACGGCGGCGCTGGCAGCACTGCATAAAGTG CGTGAAACCGGTAAAGGCGAAAGTATCGACATCGCCATGTATGAAGTGATGCTGCGTATGGGCCAGTACTTCATG ATGGATTACTTCAACGGCGGCGAAATGTGCCCGCGCATGAGCAAAGGTAAAGATCCCTACTACGCCGATCGGCGC TCGCGGCCTGCAGGTTCAATGCTGCTTCGTATAGGCGCTATTTAATTAAGTAGTTATATAAAGAGAACGGTGCAA TTGAATAGGAAAGGAATGACGGATTTTGCTTCTATGTTTGCTTTTATTTGAAGCGTGGGTTCTTATTTATGCTTG GTGTAATATGGTCAAAACTGTTCTCAAATCATTTACTGAGATCTGTCCTGGAGCAGAAGCTTTTTTGACAGCACC AAATGTAGCAGCAGATCCGAACACTTCACCAGCTAATCTAGAAATCACACCGGTTTTTGCCATAGACATAGTTAT GATAGGTCTATCAGCGTATTGTTCTTGCATTTCCAATGTGGCAGCTAACAATGTTAAGACATCAGAGGTAGACTG TGGCATTAAAGCAATTTTGGGTATATCAGCATCAAAGGATTGCATTTTTCTTAATCTGGCTATGATTTCCTCTGC TTCTGGGGTCTTGTGGAAATCATGATTAGACATAACTACCTTAACATCGTGAGCGTGAGCGTAAGCTACAGTTTC CTTAACCTGGTCATCACCAGTAAACAACTCCAAATCTATCATATCCACTAAACCACTATCAATAGCAGCTCTGTT CAAAGCAATGTAGGCTTCGGTACTAATTGCTTGTTCACCACCTTCCTTAGCTGATCTGAAAGTGAACAATAATGG TTTTTCAGGCATAGTCTCTCTTAATATCTTTGCTGCAGCCATTACTGATTCGACATTTGACAAGTCTGCATAGTG ATCCACTCTCCATTCTAATATGTCAAAATCTGCTTCTCTATAAGCTAAGGCCTCACTCTTTACAGAGGCTATGTC TTTAGCCATTAAACTAACAATTATTTTAGGGGCTCCTGTTCCAATAACCAAATCTTTCACTGTAACTGTCTTCAT TTTTGAGGGAATATTCAACTGTTTTTTTTTATCATGTTGATGCTCTGCATAATAATGCCCATAAATATTTCCGAC CTGCTTTTATATCTTTGCTAGCCAAACTAACTGAACATAGCTACACATTATTTTCAGCTTGGCTATTTTGTGAAC ACTGTATAGCCAGTCCTTCGGATCACGGTCAACAGTTGTCCGAGCGCTTTTTGGACCCTTTCCCTTATTTTTGGG TTAAGGAAAATGACAGAAAATATATCTAATGAGCCTTCGCTCAACAGTGCTCCGAAGTATAGCTTTCCAAAAGGA GAGGCAAAGCAATTTAAGAATGTATGAACAAAATAAAGGGGAAAAATTACCCCCTCTACTTTACCAAACGAATAC TACCAATAATATTTACAACTTTTCCTTATGATTTTTTCACTGAAGCGCTTCGCAATAGTTGTGAGCGATATCAAA AGTAACGAAATGAACTTCGCGGCTCGTGCTATATTCTTGTTGCTACCGTCCATATCTTTCCATAGATTTTCAATC TTTGATGTCTCCATGGTGGTACAGAGAACTTGTAAACAATTCGGTCCCTACATGTGAACGGCCGGCCAAGCACGC GGGGATAGGATGGTAAAAAGTCTGAGTGGTTCTTTTAATTAAGGTAGCAAAAGTTGATGAAACTGGAACTTCAAA ACAGTAATAATATAGTAACAATAAGAAATAAAAGAGATATTAACGACACTAAAATTTTAGGCCACTCTTGCTGTC AATTGGCCATTCAAATCCTGATGAATTTCTCTCAACAATGCGTCGGTCATTTCCCATGAAATACATGCGTCTGTA ACAGACACGCCATACTTCATTTCTGATCTTGGCTGTTCGGATGATTGGTTACCCTCATGAATATTTGATTCGATC ATCAAACCGATGATAGATCTGTTTCCATCTTTTATCTGTGCAACTACAGATTCAGCGACGGCGGGTTGTCTCCTG TAATCCTTATTAGAGTTACCGTGAGAACAGTCGACCATCAAGGAAGGTCTTAAACCTGCTTGTTCCATTTCCTTT TCGCACTGTGCCACGTCGGCAGGTGAATAGTTTGGGGCCTTACCACCCCTCAATATTACATGACCATCTGGGTTA CCCTGAGTTTGTAATAATGCGACCTGACCAGCTTGATTGATACCGACAAATCTATGTGGTTGAGCTGCGGCCCTC ATGGCATTTATGGCAGTTGCCAATGAACCGTCTGTGCCGTTTTTGAAGCCAACTGGCATACTCAAACCAGATGCC ATTTCTCTGTGAGTTTGTGATTCGGTGGTTCTAGCACCTATTGCAGACCAGGAGAATAAATCGCCCAAATATTGA GGACTGTTTAAATCCAAGGCTTCGGTAGCTAAAGGCAAACCCATATTTACTAATTCCAACAACAATTTCCTTGCG ATTTGCAAACCAGCTTCCACATCAAAAGATCCATCCATATGTGGGTCGTTAATCAATCCCTTCCAACCTACAGTG GTCCTTGGCTTTTCAAAATAAACCCTCATAACCAAATACAAGGAGTCGGAGACTTCAGCTGCCAAGGCCTTAAAT CTTCTTGCGTATTCCAATGCTGTTTCAGGATCGTGGATACTACATGGGCCACATACAACCAATAACCTTGGATCT CTACCGGCTATAATATCAGAAATACTCTTTCTTGAATCGGCTATCTGAGCCTCTTGTTGCAAAGATAAGGGAAAG GCAGCTTTTAATTGCTCAGGTGTCATCAAAACCTGTTCATCTGTTATATGTACGTTATTTAAGGCATCTTTCTGC ATTATGAAAGAATTATTTTTTTTATTATGTTAATCTTGTGTTTACTTAACTATTGCTATTCTTGATGATAATTGA ATAAGGTGCATAATGAAGAGCAATTCACAACACCAAATTTTCAATCCAATTACTGATTGTTTATATATGTCTACA AAACTAATCCTATCTCCACATTTTAGCCTGCGAAATGTTTGTTTTTTAAACAATAGCTCTCCAGAACATTGTATA ATTTAAGAATATGTGCACAGTTAACTTTCTAGCAGGAGTATAATGCCATTTGCTCCCCATCTTGAGATGGGAAGG GCTTAACTAATCTCGGTTCGGAGTGATCCGCCCCGATACTGCCTTCTGCCTTAATATCGTCCAAGGCACATGGAC CCCTGAACGGCGCAGATATCTCCGCACGGACGAAAGACCGCCGGTGCCTTCCTGAGGCAACCGCCCCTTTCGAAT ATAGATCACGTGACCCATTTTTAGCTACTAATAGAAAAAGAAATTGCAACCTACTTAAGCCATTCCGGAAGGAAG CTTTCCGACATGTATTCTGGCAGCGTATCAAGGCAGGTAATCGAGCATAGTAAAAAAATAGATGCAGAATTTACT CACCTCAAGGAGGGGCAAAGTAATAAGAAAAGTTACCATAGGCTAGTTGAATGTCCAAGATCGTAAAGAATGAAG AAAAAAGGAGTAAAAAGTATGAATAAGATAAATGAAAATATAAAAATAAAAACCAACTAATACATGAAGAAAAAA AAGCAGACAAAAACATTTTATGGACCTGATGCAATCTAGTAGTCCATAGAATAATCACCACTAGAAAATTCTTCC TCTTCATTACTACCGTTTGCCATTATAGGAATATGATTTGCTGCAGGATTCTGCGGAGGTATTATATAGGGCACT GGCGGCACCTGTGGAATAAACCCAAATGATGGGAACATTGGCATCATCCAGTTAGCGTTATTTTGGTTTGCACTT ATTAAGTTGTAACTGTTCACGGGCTTTGTGTTGGTATTAGGGTACTGCAGTGGTATGAAATAATTTTCCCTCGAG ACTTGCTGTTGCGATTGGTGGCGGTTTAAACGCGTGGCCGTGCCGTC SEQ ID NO: 12 Length: 8123 Type: Organism: artificial sequence Other information: MS146277 sequence

(241) TABLE-US-00036 GACGGCACGGCCACGCGTTTAAACCGCCAAAAACTCACAAGAAGTTCGGTGTCCTTATTTGCGATGGGAATTGCT AATATCATATCACCACAAATATGGAGAGAGAAGGACTCTCCTCGCTTTTTACCTGCCTGGATTGTTCAAATCGTT TTATCATTCTCTCTTGCACCAGCCATTTTGTTACTGATCCATTTCATACTAAAAAGAAGGAATAATCAAAGACTA AAAAATTATGACGAAAATTTACAAAATTATTTGGACAGAATTCAACTCATTGAAAGCGAAAATCCTTCTTCCATT GAAGAAGGGAAAGTGGTAACCCACGAGAACAATTTGGCAGTCTTTGATTTGACTGATTTAGAAAACGAAACTTTT ATATATCCTTTGTAAATATTGATGTTTTGTTGTGTAAATGTTCTATCTGACACTTAATAATTAGAAAATTAATTT TTTAAACTTTCCGGCTGCAAGAAAGAGGAACTGTGTCTCTTTGAAAGGCACAATTTCCCAAAGAATCATTTACAA TGTCGATTACCTGCCTTGATACGCTGCCAGAATACATGAGTGAGTTCTATTCACGCAATCGGTAGTATCAAAGAA GATTATTTGGGTGCTATTTAATCACTTGTTACTCCGCAACGCTTTTCTGAACGCCCGCCTTCGCCTTTCATTATC ATTCTCATCCCAAAAGAACTGTGCATGTTATTTGCAATACTTCATATACGCTCTGTATTATTAATAGTATCATTA ATTACGTCAATTGAAATTCAAAATATCATCTTTGACAGTAACATCTATCCTCTTAGACAACTAGGGCCATTGCAG TGTCTCGAAACCATTAATATCACTGAAAAGATGAAAAGAAAGGCAAATATATATTGATCACTAATTTTCTAAGCT AAAGAATCTATTCCCCCTCTGTTAAATGGAATTGTGTGAAATAAAATATTATAAAATCAGAACTTTGGGGGGGAA ACATAAAAAAATGAGAAAAAGAAAACGAACTAACTAATGTTTAAGTAAAAGAACAAAAAGGTAGACCAATGTAGC GCTCTTACTTTATTAGACTAATCTTCTACACAAGGTAACACCATCACCGATGGAAACTTGGGAGATTTCAATTCT TGGATCGGAAGCCAATCTTTTGTTCAATTCCATCAAAGCCTTACGGTTAACTCTTAAGTGAACTGGGACAGTCTC TTCCTCTTCAGCAACGAAACCGAACCATAAGGTGTTATCGAAAGCAATGATACCACCAACTTTGACCAACTTCAT CAATCTTTCCAAAGCGTGGACGTAATTTGGCTTATCAGCGTCAACGAAAGCGAAGTCAAATTCTGGCTTTGGGTT TTCAGATAACAACTTGTCTAAGGCTTGCAAACCGTCGGATTGGATAAAGTTAATTTTGTGATCGATACCGGCGTT CTTGATGAATTCCAAACCCATTTCGTAAGCTTCTTTATCGATATCAATAGCAGTAATTCTACCGTCTTCAGGCAA AGCCAAGGCGGTGGTTAACAAAGAGTAACCAGTGAAAACACCCAATTCCAAGGTGTTCTTAGCGTTCATCATCTT CAACAACATGGACAAGAAATGACCTTCGTCAACAGGGACTTCCATCTCGGACAAGTTACCGTACTTATGAACGGT AGCTTCTCTTAACTTCTTCAATTCTTCGTGTTCTCTTGGGTAAGCGGAAGTTTCAAAGATGTACTTTTTCAATTC TTCGTTCTTCAAGATACCCTTAGATGGTATAAGATTTTCCATGTCTGGTTCCATTTATATTGAATTTTCAAAAAT TCTTACTTTTTTTTTGGATGGACGCAAAGAAGTTTAATAATCATATTACATGGCAATACCACCATATACATATCC ATATCTAATCTTACTTATATGTTGTGGAAATGTAAAGAGCCCCATTATCTTAGCCTAAAAAAACCTTCTCTTTGG AACTTTCAGTAATACGCTTAACTGCTCATTGCTATATTGAAGTACGGATTAGAAGCCGCCGAGCGGGCGACAGCC CTCCGACGGAAGACTCTCCTCCGTGCGTCCTGGTCTTCACCGGTCGCGTTCCTGAAACGCAGATGTGCCTCGCGC CGCACTGCTCCGAACAATAAAGATTCTACAATACTAGCTTTTATGGTTATGAAGAGGAAAAATTGGCAGTAACCT GGCCCCACAAACCTTCAAATCAACGAATCAAATTAACAACCATAGGATAATAATGCGATTAGTTTTTTAGCCTTA TTTCTGGGGTAATTAATCAGCGAAGCGATGATTTTTGATCTATTAACAGATATATAAATGCAAAAGCTGCATAAC CACTTTAACTAATACTTTCAACATTTTCGGTTTGTATTACTTCTTATTCAAATGTCATAAAAGTATCAACAAAAA ATTGTTAATATACCTCTATACTTTAACGTCAAGGAGAAAAAACTATAATGGATATGGCAAGTAATGGTTCTGCCG GTGAGGTTAGAGAAGTTCACTCCTCCGAAACTACCAAGACTTTATTGAAATCCGATGCTTTATACGATTATATGT TGAAGACTATGGTCTATCCAAGAGAGAACGAATTTATGAGAGAATTGAGACAAATCACTTCCGAACATATCTTCG GTTTCATGTCTTCTCCACCAGATGAAGGTTTGTTATTGTCCTTGTTGTTAAAGGTTATGGGTGCTAAGAGAACCA TCGAAGTCGGTGTCTACACTGGTTGTTCCGTCTTGACTACTGCCTTAGCTATCCCAGACGATGGTAGAATCATTG CTATTGACGTTTCCCGTGAATACTTTGACTTGGGTTTGCCAGTTATTAAGAAGGCCGGTGTTGCCCATAAGGTTG ATTTCCGTGAAGGTCCTGCTGGTCCAATTTTGGACAAATTGATTGCTGATGAAGACGAAGGTTCTTTTGATTTCG CTTTCGTTGATGCCGATAAGTACAACTACGGTTCCTACCACGAACAATTGTTGAGATTGGTTAGAGTTGGTGGTG TTTTGGCTTACGACAATACCTTATGGGGTGGTACCGTCTCCATGCCAGATGACACTCCATTGACCGAAGAAGACA GAAAGAAGAGAGACTCCATTCGTGGTTTCAATGCCATGATTGCTGCCGACGCCAGAGTCGAACCAGTTCAATTAC CAATCGCCGACGGTATTACCTTGTGCAGACGTGTCGTCTAAAGTTTCAGGCAGAACAAGACCCTTTTCAAAAATA TGTAAGCCATTATTAAAAAAAAGGATATTTTGTATAATTGTTTAATAAAATAACATCTTTTTAAACAATCATAAA TAGCACTTCTTATCATACAACCTCAAATCATATCGGTCCAAATTTGCTCAAATTGTACATGAGATATAACTTTTT CTTCTAATGCTTTCATTTCAGAGTTTGTTTTTTTTTTTTCTTTTTTTTTTTTTTCCTTACCGGAGTCTGAATCTC TTACTTCCTTAACTTAGATGTTAGTGACTAAAATCTGATGGACAGTATCAAAATGTAAATATTGTACCTAAAAAG AAAAAAGTATTAAAGTGGTTTGCCATAAATTTTAAACAAGTGAAAAGTTTCAATATTTATATTTACATGATTGTG GACAAGCGGCATTGTCTACAGGCTGTGCAAAATTATATAGTACAGATAAATGTAACCAGAACAACGAAGAAAAGG TCCCTATGTTGCAACGCGATCGCCGACGCCGCCGATGCTGATTATCAGGGTAAAAATGTCGTCATTATCGGCCTG GGCCTCACCGGGCTTTCCTGCGTGGACTTTTTCCTCGCTCGCGGTGTGACGCCGCGCGTTATGGATACGCGTATG ACACCGCCTGGCCTGGATAAATTACCCGAAGCCGTAGAACGCCACACGGGCAGTCTGAATGATGAATGGCTGATG GCGGCAGATCTGATTGTCGCCAGTCCCGGTATTGCACTGGCGCATCCATCCTTAAGCGCTGCCGCTGATGCCGGA ATCGAAATCGTTGGCGATATCGAGCTGTTCTGTCGCGAAGCACAAGCACCGATTGTGGCGATTACCGGTTCTAAC GGCAAAAGCACGGTCACCACGCTAGTGGGTGAAATGGCGAAAGCGGCGGGGGTTAACGTTGGTGTGGGTGGCAAT ATTGGCCTGCCTGCGTTGATGCTACTGGATGATGAGTGTGAACTGTACGTGCTGGAACTGTCGAGCTTCCAGCTG GAAACCACCTCCAGCTTACAGGCGGTAGCAGCGACCATTCTGAACGTGACTGAAGATCATATGGATCGCTATCCG TTTGGTTTACAACAGTATCGTGCAGCAAAACTGCGCATTTACGAAAACGCGAAAGTTTGCGTGGTTAATGCTGAT GATGCCTTAACAATGCCGATTCGCGGTGCGGATGAACGCTGCGTCAGCTTTGGCGTCAACAATCGGCGGCGTCGG CGATCGCGTTGCAACATAGGGACCTTTTCTTCGTTGTTCTGGTTACATTTATCTGTACTATATAATTTTGCACAG CCTGTAGACAATGCCGCTTGTCCACAATCATGTAAATATAAATATTGAAACTTTTCACTTGTTTAAAATTTATGG CAAACCACTTTAATACTTTTTTCTTTTTAGGTACAATATTTACATTTTGATACTGTCCATCAGATTTTAGTCACT AACATCTAAGTTAAGGAAGTAAGAGATTCAGACTCCGGTAAGGAAAAAAAAAAAAAAGAAAAAAAAAAAACAAAC TCTGAAATGAAAGCATTAGAAGAAAAAGTTATATCTCATGTACAATTTGAGCAAATTTGGACCGATATGATTTGA GGTTGTATGATAAGAAGTGCTATTTATGATTGTTTAAAAAGATGTTATTTTATTAAACAATTATACAAAATATCC TTTTTTTTAATAATGGCTTACATATTTTTGAAAAGGGTCTTGTTCTGCCTGAAACTTTAGACGACACGTCTGCAC AAGGTAATACCGTCGGCGATTGGTAATTGAACTGGTTCGACTCTGGCGTCGGCAGCAATCATGGCATTGAAACCA CGAATGGAGTCTCTCTTCTTTCTGTCTTCTTCGGTCAATGGAGTGTCATCTGGCATGGAGACGGTACCACCCCAT AAGGTATTGTCGTAAGCCAAAACACCACCAACTCTAACCAATCTCAACAATTGTTCGTGGTAGGAACCGTAGTTG TACTTATCGGCATCAACGAAAGCGAAATCAAAAGAACCTTCGTCTTCATCAGCAATCAATTTGTCCAAAATTGGA CCAGCAGGACCTTCACGGAAATCAACCTTATGGGCAACACCGGCCTTCTTAATAACTGGCAAACCCAAGTCAAAG TATTCACGGGAAACGTCAATAGCAATGATTCTACCATCGTCTGGGATAGCTAAGGCAGTAGTCAAGACGGAACAA CCAGTGTAGACACCGACTTCGATGGTTCTCTTAGCACCCATAACCTTTAACAACAAGGACAATAACAAACCTTCA TCTGGTGGAGAAGACATGAAACCGAAGATATGTTCGGAAGTGATTTGTCTCAATTCTCTCATAAATTCGTTCTCT CTTGGATAGACCATAGTCTTCAACATATAATCGTATAAAGCATCGGATTTCAATAAAGTCTTGGTAGTTTCGGAG GAGTGAACTTCTCTAACCTCACCGGCAGAACCATTACTTGCCATATCCATTATAGTTTTTTCTCCTTGACGTTAA AGTATAGAGGTATATTAACAATTTTTTGTTGATACTTTTATGACATTTGAATAAGAAGTAATACAAACCGAAAAT GTTGAAAGTATTAGTTAAAGTGGTTATGCAGCTTTTGCATTTATATATCTGTTAATAGATCAAAAATCATCGCTT CGCTGATTAATTACCCCAGAAATAAGGCTAAAAAACTAATCGCATTATTATCCTATGGTTGTTAATTTGATTCGT TGATTTGAAGGTTTGTGGGGCCAGGTTACTGCCAATTTTTCCTCTTCATAACCATAAAAGCTAGTATTGTAGAAT CTTTATTGTTCGGAGCAGTGCGGCGCGAGGCACATCTGCGTTTCAGGAACGCGACCGGTGAAGACCAGGACGCAC GGAGGAGAGTCTTCCGTCGGAGGGCTGTCGCCCGCTCGGCGGCTTCTAATCCGTACTTCAATATAGCAATGAGCA GTTAAGCGTATTACTGAAAGTTCCAAAGAGAAGGTTTTTTTAGGCTAAGATAATGGGGCTCTTTACATTTCCACA ACATATAAGTAAGATTAGATATGGATATGTATATGGTGGTATTGCCATGTAATATGATTATTAAACTTCTTTGCG TCCATCCAAAAAAAAAGTAAGAATTTTTGAAAATTCAATATAAATGGAACCAGACATGGAAAATCTTATACCATC TAAGGGTATCTTGAAGAACGAAGAATTGAAAAAGTACATCTTTGAAACTTCCGCTTACCCAAGAGAACACGAAGA ATTGAAGAAGTTAAGAGAAGCTACCGTTCATAAGTACGGTAACTTGTCCGAGATGGAAGTCCCTGTTGACGAAGG TCATTTCTTGTCCATGTTGTTGAAGATGATGAACGCTAAGAACACCTTGGAATTGGGTGTTTTCACTGGTTACTC TTTGTTAACCACCGCCTTGGCTTTGCCTGAAGACGGTAGAATTACTGCTATTGATATCGATAAAGAAGCTTACGA AATGGGTTTGGAATTCATCAAGAACGCCGGTATCGATCACAAAATTAACTTTATCCAATCCGACGGTTTGCAAGC CTTAGACAAGTTGTTATCTGAAAACCCAAAGCCAGAATTTGACTTCGCTTTCGTTGACGCTGATAAGCCAAATTA CGTCCACGCTTTGGAAAGATTGATGAAGTTGGTCAAAGTTGGTGGTATCATTGCTTTCGATAACACCTTATGGTT CGGTTTCGTTGCTGAAGAGGAAGAGACTGTCCCAGTTCACTTAAGAGTTAACCGTAAGGCTTTGATGGAATTGAA CAAAAGATTGGCTTCCGATCCAAGAATTGAAATCTCCCAAGTTTCCATCGGTGATGGTGTTACCTTGTGTAGAAG ATTAGTCTAATAAAGTAAGAGCGCTACATTGGTCTACCTTTTTGTTCTTTTACTTAAACATTAGTTAGTTCGTTT TCTTTTTCTCATTTTTTTATGTTTCCCCCCCAAAGTTCTGATTTTATAATATTTTATTTCACACAATTCCATTTA ACAGAGGGGGAATAGATTCTTTAGCTTAGAAAATTAGTGATCAATATATATTTGCCTTTCTTTTCATCTTTTCAG TGATATTAATGGTTTCGAGACACTGCAATGGCCCTAGTTGTCTAAGAGGATAGATGTTACTGTCAAAGATGATAT TTTGAATTTCAATTGACGTAATTAATGATACTATTAATAATACAGAGCGTATATGAAGTATTGCAAATAACATGC ACAGTTCTTTTGGGATGAGAATGATAATGAAAGGCGAAGGCGGGCGTTCAGAAAAGCGTTGCGGAGTAACAAGTG ATTAAATAGCACCCAAATAATCTTCTTTGATACTACCGATTGCGTGAATAGAACTCACTCATGTATTCTGGCAGC GTATCAAGGCAGGTAATCGAAACATATTGATGTTTTTCGTGGGTAACCATAGTTCTTGGAATGTCAACTGAGGGT ATTTGCACTTCAAAAAAAAAAATTTATTAAATGAGACTATATACAGTGAGCACAACCTGTCTAATACAACGGCAA AAATTATATACATTGGTAGATTTTCAAAATTGAACTCTTTGTGCTAAAGAATTGTCACAACAGTTTAAAAAATAG TTTGAATTCTTCAAATTGACCCCATATTAATAAGACCTGATGCGATTCCGGTCTCACCCAGATTAGAGAGGGAAT TTAATTTTCTTAGGACCGTAGCTACCAAAAATCTTTGTGTGGTATTGATTATATGATCGTGCTTGCGAAAAAAAT AGAAGACTAAAAGTAGCATTAGTTTACTAACTTTCTCCTCGTATCTTTCAAATTTGTATTCCCCTCAAAAGTTAC TCAGGTTAGGGAAAATTCCAAGTAGCTTATCAAGATCAATTGCCATTAGTTGATTCAAGGCTTCATTGTCGGCGG TTTAAACGCGTGGCCGTGCCGTC SEQ ID NO: 13 Length: 8216 Type: Organism: artificial sequence Other information: MS153767 sequence

(242) TABLE-US-00037 GACGGCACGGCCACGCGTTTAAACCGCCTGCATACTTCAAGTTCAGGGTTGGACCTGCCAATGAAAATTTTAGAT ATGTTTGGCTCAGGTCTTCCTGTTATTGCAATGAACTATCCAGTGCTTGACGAATTAGTACAACACAATGTAAAT GGGTTAAAATTTGTTGATAGAAGGGAGCTTCATGAATCTCTGATTTTTGCTATGAAAGATGCTGATTTATACCAA AAATTGAAGAAAAATGTAACGCAGGAAGCTGAGAACAGATGGCAATCAAATTGGGAACGAACAATGAGAGATTTG AAGCTAATTCATTGAGTCAATGGTAACTCAGCCTTTCTTTTTTGAAAATTACTATTTTCGACTCTTTTTTTATAC AGTTACATAGTACTACCTCTAATACACATTCATGATTAACAATGTTTCAAACAATATAAAGTCCCGATAACGACC TTTTGAAGTGGTGACGTTACCGCTCTTCGTTGACAAGATTCAAGAGGGCTGTCAGAATAACAGCTATCATGGTGG AATCGATTACCTGCCTTGATACGCTGCCAGAATACATGTCACATGTAGGGACCGAATTGTTTACAAGTTCTCTGT ACCACCATGGAGACATCAAAGATTGAAAATCTATGGAAAGATATGGACGGTAGCAACAAGAATATAGCACGAGCC GCGAAGTTCATTTCGTTACTTTTGATATCGCTCACAACTATTGCGAAGCGCTTCAGTGAAAAAATCATAAGGAAA AGTTGTAAATATTATTGGTAGTATTCGTTTGGTAAAGTAGAGGGGGTAATTTTTCCCCTTTATTTTGTTCATACA TTCTTAAATTGCTTTGCCTCTCCTTTTGGAAAGCTATACTTCGGAGCACTGTTGAGCGAAGGCTCATTAGATATA TTTTCTGTCATTTTCCTTAACCCAAAAATAAGGGAAAGGGTCCAAAAAGCGCTCGGACAACTGTTGACCGTGATC CGAAGGACTGGCTATACAGTGTTCACAAAATAGCCAAGCTGAAAATAATGTGTAGCTATGTTCAGTTAGTTTGGC TAGCAAAGATATAAAAGCAGGTCGGAAATATTTATGGGCATTATTATGCAGAGCATCAACATGATAAAAAAAAAC AGTTGAATATTCCCTCAAAAATGGATACAAGAGAAGATCAATTAGAAAGACGTATTGCTGCCTTAACTGCTAACG ACCCTCAATTCGCCGCTGCCAGACCAGACGAAGCCGTTGCCACTGCCGTCCAAAGACCTGGTTTGAGATTACCAG AAGTCATCGAAACCGTCTTGCAAGGTTACGCTGACCGTCCAGCCTTAGGTCAAAGAGCTGTCGAATTTGTTAAAG ATCCAAACACTGGTAGAACCTCCGCCCATTTGTTACCAAGATTCGACACCATCACCTACAGAGAATTGGCTGATA GAGTCGGTGCTTTAGCTTCTGCTTGGGCTAGAGAAGCCGTTTCCCCAGGTGACAGAGTTGCCATTTTGGGTTTCA CTTCCGTTGACTATACTACCATTGATGTTACTTTGGCTAGAATTGGTGCTGTCTCTGTTCCATTACAAACCTCTG CTGCCTTGGCTCAATTAAGACCAATTGTTGTCGAAACCGAACCAACTGTTATCGCTGCTTCCGTTGATTACTTGT CCGACGCTGTTGAATTAATTAGAACTGGTCACGCCCCAGCCAGATTGGTTGTTTTTGATCATCACCCAGAAGTTG ACGATCACAGAGAAGCTTTGGACGCTGCTAGAGGTCGTTTGGCTGGTCACGCTGTCATTGTTGAAACTTTGGCTG AAGTCTTGGAGAGAGGTACTTCTTTGCCAGCTCCAACTGTTGCTGCCGAAGATAATGATTTGGCTTTGTTAATCT ACACCTCTGGTTCCACTGGTGCTCCAAAGGGTGCTATGTACCCACAAAGAAATGTTGCTAAGATGTGGCAAAGAT CTTCCAGAAACTGGTTCGGTCCTTCTGCCGCTTCTATTACCTTGAACTTTATGCCAATGTCCCATGTTATGGGTA GAGGTATTTTGTACGGTACCTTAGGTAACGGTGGTACTGCCTACTTCGGTGCTACCTCTGACTTGTCTACTTTGT TGGAAGACTTGACTTTGGTCAGACCTACCGAATTGAACTTCGTTCCAAGAGTCTGGGACACTTTGCATGCCGAGT TCTTGACTAGAGTCGACAGATTGACCGCTGAAGGTGCCGACAGAGCTTCCGCTGAGGCTTTGGTCATGGGTGACT TGAGAGACAACTTATTGGGTGGTCGTGCCATTTTCGCCATGACTGGTTCCGCTCCAATCTCTTCTCAATTGAAAA CTTGGGTTGAGTCCTTGTTGGGTATCCATTTATTGGACGGTTATGGTTCTACTGAAGCTGGTATGGTTTTGTACG ATGGTGTCGTCCAAAGACCTCCAGTCATTGACTACAAGTTAGCTGATGTCCCAGATTTGGGTTACTTTTCTACTG ATAGACCATTCCCAAGAGGTGAATTATTATTGAAAACTGAAAACATGTTCCCTGGTTACTACAAAAGACCAGAAA TCACCGCTGGTGTCTTCGATGATGACGGTTACTACCGTACTGGTGATGTTGTTGCTGAAGTCGGTCCAGATCGTT TGGTTTACGTCGATAGAAGAAACAATGTTTTAAAATTAGCTCAAGGTGAGTTCGTTACTGTTGCCAAGTTGGAAG CTGGTTTCAACAACTCCCCATTGGTCAGACAAATCTACATTTACGGTAACTCTGCTCATCCATACTTATTGGCTG TTGTTGTTCCTACTGATGTCAATGCCTCCAAGTCCGCTATTGCTGAATCCTTGCAAAGAGTCGCTAAGGACGCTG GTTTACAATCCTATGAAGTTCCTAGAGACTTCTTGATTGAACCAGAACCATTTACCTTGGAAAACGGTTTGTTAA CTGGTATTAGAAAGTTGGCTTGGCCTAAGTTGAAGGAGAGATACGGTGAACGTTTGGAACAATTGTACGCTGAAT TGGACAGATCCCAAGCTGACGAATTGTCTGAATTAAGAAGATCTGGTGCCCAAAGACCAGTTTTGGAAACTGTCA CCAGAGCTGCCGGTGCTTTGTTAGGTGCTGCTGCTTCTGAATTACAACCAGATGCTCACTTCACTGACTTGGGTG GTGACTCCTTGTCCGCTTTGACTTTCGGTAACTTGTTGAGAGAAATCTTTGACGTCGACGTCCCAGTCGGTGTTA TCGTTTCTCCAGCTTCTGACTTGCAAGCCATTGCTGGTTACATTGAAGCCGAAAGACAAGGTTCTAAAAGACCAA CCTTCGCCTCCGTTCATGGTAGAGCTGAGGAAGGTGAAGCTGTTGAGGTTAGAGCTAGAGATTTGCGTTTGGATA AGTTCTTGGACGCCAGAACCTTGGAGTACGTTCCAGCCTTGCCAGGTCCATCCACCGAATTGCGTACTGTTTTGT TGACTGGTGCTACTGGTTTCTTGGGTAGATATTTGGCTTTGGAATGGTTGGAGAGAATGGACGCTGTTGACGGTA CCGTTATCGCTTTAGTCAGAGCTAAGGACGACGCCGCTGCTAGAGAGAGATTGGACAGAACTTTCGACTCTGACC CTAAGTTGAGAGCCCACTACAGAGCTTTGGCCGCTGACCATTTGGAAGTTGTTGCTGGTGACAAGGGTGAAGCTA ACTTAGGTTTGTCTCAACAAGTTTGGCAAAGATTAGCCGACACTGTTGACGTTATCGTTGACCCAGCCGCTTTGG TCAACCACGTTTTACCATACTCTGAATTGTTTGGTCCAAATGTTTTGGGTACTGCCGAATTGATCAGATTGGCTT TGACTACCAAGATCAAGCCATACACTTACGTTTCCACCATCGGTGTTGGTGACCAAATCGAGCCAGGTAAGTTTA CTGAAGATGCTGACATCAGAGTTATTTCTCCAACTAGAAGAATTTCTGACTCTTACGCTAACGGTTACGGTAACT CCAAGTGGGCTGGTGAAGTCTTGTTGAGAGAAGCTCATGACAGATGTGGTTTGCCAGTCGCTGTTTTCAGATGTG ATATGATCTTGGCCGACACCACCTACGCCGGTCAATTAAACTTGCCAGATATGTTCACTCGTTTAATGTTGTCCT TGGCCGCTACTGGTATTGCCCCAAGATCTTTCTACGAATTGGATGCTGAAGGTAACAGACAACGTGCTCATTACG ACGGTTTGCCAGTCGAATTCATTGCTAAGGCTGTCTCTACTTTGGGTGCTCAAACTGTTGAGGGTTATCAAACCT ACCACGTCATGAACCCTCATGACGACGGTATTGGTTTGGACGAATACGTTGACTGGTTGATTGAAGCTGGTTACC CTATTCGTAGAGTTGACGACTACGCTGATTGGTTACAAAGATTTGAAACCGCTATGAGAGCTTTGCCAGACAGAC AAAGAAGATACTCCTTGTTGCCTTTGTTACATAACTACCAAAAGCCAGAAAAGCCAATGAGAGGTTCTATGGCTC CAACTGATAGATTTAGAGCTGCTGTTCAAGAAGCCAAAATTGGTCCAGACAAGGATATTCCACACGTCACCAGAG AAGTTATCGTCAAGTATGCTACTGATTTGCAATTGTTGGGTTTATTGGATGAAAAAAGAGTCTAAAAGGCTTTTT TATAAACTTTTTATAATTAACATTAAAGCAAAAACAACATTGTAAAGATTAACAAATAAATGAAAAAAACAACGA AATAACTTAGGTTTTAGGCTAAAAAAAACAGAAGGAATTTTGAACGATAAACTTTTCGACTGCACACGAAACATT ATTACTAATTTGTGTAACCACTATATAAGGAATCGTGTTTATTAATTGAATTTATTCCGGGAATATTCAAGTTAT GTATATCTCTTTTCATATTCTTAAATACACATACTCATAATATCTTGTCGAAAATACGCGGTGTAGGGAGTTATG GTGGATAACTTTTTCACGATTAGAAGAAAAGGAAAATTTCATTATTCGTAGCTTAACATGGCAAAAACGAGAAAG ACATATAATCAAAACGTGAGTTTCCTGTGGAAAAAAAAAAAAGGGAACCTCTGGTTACGATGATATACCTGCGTG AAAAAGGACAGTTATTACCAATACATACAAAGGCAACCTGCAGGCCGCGAGCGCCGATAAGATTATTACTTGCTA TAAGTGCGTGCCTGATGAACAGGATATTGCGGTCAATAATGCTGATGGTTCATTAGACTTCAGCAAAGCCGATGC CAAAATAAGCCAATACGATCTCAACGCTATTGAAGCGGCTTGCCAGCTAAAGCAACAGGCAGCAGAGGCGCAGGT GACAGCCTTAAGTGTGGGCGGTAAAGCCCTGACCAACGCCAAAGGGCGTAAAGATGTGCTATCGCGCGGCCCGGA TGAACTGATTGTGGTGATTGATGACCAGTTCGAGCAGGCACTGCCGCAACAAACGGCGAGCGCACTGGCTGCAGC CGCCCAGAAAGCAGGCTTTGATCTGATCCTCTGTGGCGATGGTTCTTCCGACCTTTATGCCCAGCAGGTTGGTCT GCTGGTGGGCGAAATCCTCAATATTCCGGCAGTTAACGGCGTCAGCAAAATTATCTCCCTGACGGCAGATACCCT CACCGTTGAGCGCGAACTGGAAGATGAAACCGAAACCTTAAGCATTCCGCTGCCTGCGGTTGTTGCTGTTTCCAC TGATATCAACTCCCCACAAATTCCTTCGATGAAAGCCATTCTCGGCGCGGCGAAAAAGCCCGTCCAGGTATGGTC GGCGGCGGATATTGGTTTTAACGCAGAGGCAGCCTGGTCAGAACAACAGGTTGCCGCGCCGAAACAGCGCGAACG TCAGCGCAATCGGCGCTCGCGGCCTGCAGGTTCCGTTACAGGAATGGATGATCCACCAATTATATCGACGGGGGC TAGAATCTTAGATCTCAGTACTCGCATTCTAGCGTATGTTTCTTGAAACTTGTAAGGGACTTTCGTCGAGGCCGG AGTGACAAGGATCGAGGGGTCCAATGGTGTGGCCCACCTGTTGGGCACATTGCCGTTTCTAACCACAATCCATTC GAAGTACTGCTTATTTGGCAGCGATTTAACCCAGTCGATATCCACGGGTTGAGGGACAACCTCTTCTTGTTTGAT TTTGGTCCTTTTCTCCGGTAGGAGTTCTGATTCTGGCCCAGTTTCAGTCTTTACCAGCGGTCTTTTCCTCAGAAT TGCCATAGATGAGTATTTACTGATCTTTTGCATATTTTTTTTTTTTTTTTAAGTATATATAGATACAAATATATG ATGAATCATTAAAGAGGAGGTTATTACTAAGTGAAAGAAAAAGAAAAAAAAAAAGATCAAAACCAAACTTCGTAT TCGAGCCTAAAAAACAGAATATAATGTTAAGCGTAAGCGATAGCAGTCAAGATGAAACCGTCAGCAATCAACCAT CTACCATCAAAAGACAACAATGGGGTACCACCATCGTTAGTTTGACCAGGAACCAATAATTCGGAGTGGAAAGTA CCGTTACCAGAATCAGCAGAACCATCTTCAATTTCGAAAGTAATGTGAGCTTCCTCGAAACCTAACCATCTGGCA GTCAATGGCCACCAAGCCTTGTAAGTAGCTTCTTTGGCACAAAATAACAATCTGTCTAAATGTAAAGCAGAATCG GTAGTCTTCAACCATTCTCTTTCTGGTGGCAAGGAAACGGAATCCAAGACACCTTCTGGCAAGGTAGCGTGTGGT TCGGCGTCGATACCGATGGATCTGAATCTCATCTTATGAGCAACAGCAGCGGCTCTGTAACCGTCACAGTGAGTC AAAGAACCGACAACACCTCTTGGCCAAATAGGAGCACCACGTTCACCTTTACCGATAGCGACTGGTGGTTCACCC AATTCAGCCAAAGCTAATCTAGCACAATGTCTGGCACCAATAAAGTCTCTTCTTCTCTTTTCGACAGATTTGGCG ATTAAATGTTCCTCGGCTGGGTGAGCTTTTAAGTCTTCAGGGTACTCTAACAATTCAGCAGACTCAACTCCAGCA GGAAGAATGGTTTCAATCATTTTTGAGGGAATATTCAACTGTTTTTTTTTATCATGTTGATGCTCTGCATAATAA TGCCCATAAATATTTCCGACCTGCTTTTATATCTTTGCTAGCCAAACTAACTGAACATAGCTACACATTATTTTC AGCTTGGCTATTTTGTGAACACTGTATAGCCAGTCCTTCGGATCACGGTCAACAGTTGTCCGAGCGCTTTTTGGA CCCTTTCCCTTATTTTTGGGTTAAGGAAAATGACAGAAAATATATCTAATGAGCCTTCGCTCAACAGTGCTCCGA AGTATAGCTTTCCAAAAGGAGAGGCAAAGCAATTTAAGAATGTATGAACAAAATAAAGGGGAAAAATTACCCCCT CTACTTTACCAAACGAATACTACCAATAATATTTACAACTTTTCCTTATGATTTTTTCACTGAAGCGCTTCGCAA TAGTTGTGAGCGATATCAAAAGTAACGAAATGAACTTCGCGGCTCGTGCTATATTCTTGTTGCTACCGTCCATAT CTTTCCATAGATTTTCAATCTTTGATGTCTCCATGGTGGTACAGAGAACTTGTAAACAATTCGGTCCCTACATGT GACATGTATTCTGGCAGCGTATCAAGGCAGGTAATCGAAAGATGGCAAATAGCCTTGTCAAATTTCCTACGGAAT GTTATTTTCATTACGTCCTTCTTTTTCAATGTACTTATTCATAAATGGGACACTATCTTGTTGCAAAAGGTACTT TGTATTTTGGTATTAACATCTCGCCTATTTTTCATACAGAAACACTACTTATCGCTATCTATTTGATGTGGTATT GCTTGGCCATGAGGATACCTTGAGCTACGTTTTGAACACGTGCATCCAACTTGTAGCCTTGTTGATCCAACTTAA CCATTTCATCAGGAAACTTGTGCAACTCAACGCTAAAGCATTCGATAAATTCATTATCTTCCAATTGAGTAACTG GTTTTTGGTTTTCAGGTAAACTCATATCAACTTCGACAGTAACCAGACAGAGGTTGGTGTTTGTGAAACCAGGAT CGTTAAAAACTGTTGGGCTTTTAGAAATTATTTTACCACTGTAACCAGTCTCTTCTTTTAATTCTCTTAAGGCAG CAGTGTCAATATCGGCGGTTTAAACGCGTGGCCGTGCCGTC SEQ ID NO: 14 Length: 11527 Type: Organism: artificial sequence Other information: MS141850 sequence

(243) TABLE-US-00038 GACGGCACGGCCACGCGTTTAAACCGCCGAAATCACCTCCAAAGTTATGTTGCCGATTAGGCAAATACTCTAAAA GTATAGTACTAAAGAACTACGTAAAGGTAAAATAAAACACCTGAATTTCATTTCTGAAATGAAGTACCATCATGA AATATGATGAAAGTCAAGACTCGTTGGGTCAATATACACCACAAAAAAAGGTACACACGAATGGTTTAACCCTTT CGGTTCCTTCTGTAAATCGAAAAATGCCCTTTATACAGCGGGTTGGTCTCCCATCAAAGTTGAGAAGCGATTAGA AATTAGGTTACCTAATGAATCCATAAATAAATGGAAAACGCTATTTTGTTCGAACGATGGAATAAAAATATGAAC GGGTGTCATTGAAATTCGGTGTATTTTTTGATCGGGCCTGATCTGGCTCGGGTTTGGCACAATTTGGCTTGGTTA GTTCGGCAAAGCTTATTTAAAGAACCTTTTTGGATAGCCAATTGAGAGACTTGAAATAGAAAGATCGTAAGTATT TTTACGCTCGTCCAACGCCGGCGGACCTGGGTGTTAACCAAACACATGTTGAAATGCTAGTTAAAAAAGAATGGT AAAACAATGGAAAAGGAAGGAGCAAAATCTGGTAAAAAAGAAGAACCATAATAATAGTGAATAAAAAAAAAAAAA TGCAATGTAATGTTGAATGTAATGCAAAGAGGGGGGGTTGACAATTCTGTTAAAGAACTGTTATCGTTGTCTGTG TTATTATAGGCTTAGTAGGATGGAATGGATTTGATCATCTGGAGAAATGTAGTCATTGTCAACAATATTGACCAA GCAGTAATCGTCAATCAAGGACTGAATGAATTGGGCACTATGCGGTTTATCGTATTTATTCATGTTTAGTTTCCA TTCATTCAAGATATGATAGAACTCCTCCTTCCACGCTAAGAACGAAATTTTCTCGACAATGGTAGGTTGAAGAAT TTCTCTGCCGGGGAAAATACCCCAAGTCACAGCGTTGGACTTGGAGTTGTCTGGATGATTACTTAGCAGGTCACC TTGAGAGTCGATGGCGAAGTAGGTCAAGAACTCATTGTTTTTCAAGGTGTCAATCAACTTGGGCAACTTAGTCTT GGGCAACATAAATTCCAAATATTGCTTCTGGTAAACGTAACCATCCTTGGGTCCCCAACCATGAATTTTGTCATT GGACCTAATGCCGTTGACTTGAGGTTGAGAGTTTATAGTGATGATAGAATGCTGGTTCAGCTCAATCAAGTGTGC TTTGATTGGATTTATTTCATCATTGATGGGGATATCACTCCAAGGTAAACACTTCAAGTTTCCATTCAAGTAGTT GATGACCAAGAAGGCGACGTCGTTGATGGAAGTAGGGGTGGACCATAATTCGAGACATTTGTTCGCTGATTGCCT GATCAAGTCTGAACCACACAGATCCAAGTCACCGAACGCAGGAGAAGACGAATCACCGAATCTACCGTTGGGGAA TTCGTCCACGGCCCATTGAGAGGTTCTTGCGACATAGGAGTAAGGTCTTCTCTTCCAGAAGATAGGTCTGACTTC CTCGTTTTTACGCTTTGGATTCAAAGATTTTCTCCATGGCAACACGGCCAATGGATGTGCATTGAACTCTGATTC CGTAGGTAGAATGTTCAATCTTTCCAGAATCATGAGAGGCGCTTTTTCCAAGTTCATGGTGTAGATGTGCAAGTG AGAAACGTAACCACTGTCGAGCAATTTTTGACACATTTCCACGATCAAGTTAGTTCCGATATCACGGACCAACTC GTCATCGTCCTTGATAGGATCCAATCGGGACGAGAAATGTTGAGGGATGGAGATTTGGCCCCATTGGGCCCTTCT CAAGAAGGCCGCGTAGGTAGTGATCGGCATGATCCCGGGAATAATGGGCACGTCCATGCCCGCAGCTCTAACTTG GGAACACCAGTTGATGAAATTATCAACATCGTAAAACATCTGAGTGATGATGAAGTCGCCGCCGGCGTCGATCTT CTGCTTCAAATACTCGAGATCAAGCTTCACGTCTTTGTTAGGCAACTCCGGATGGCACTCCGGGTAGCCGGCAAC GCCGATAGCGAAATGGTCACCGTACTTGGACTTGATATACTTAATCAAGTCCTTGGCATACTGGAAGCCACCTTC AACGGGAGTCCAGTTTTCTGCGTCCCTAGGAGGATCTCCTCTCAGCGCTAGGATGTTCTGGCAACCGGAGTGATA AGCGTTTTCTAAAGCGTCGTCAATCATCGAAATGGGCATATTGGTGCAGGTAAGGTGCATGCACGTTTCCAAACC AAGCACAGACTGCGCTGTCGCAACCAAGTCCGTGGACAGATGTGACAACCGTCCACCGCCTGCATTCCAGGTGAT GTCAATAAATTGGGGCAAAGAAGCCTCGTACATCCGGTCCATCCGGTCATACAGGTTCTGTACACCTTGTGTAGT CTTCGGGACGAAGTACTCGAATGAGTAAGTGGGCTTGCCAGAGGTCTGTCTATGTTGCTCTAATTTTTCTGTGAT CTTCATTGTAAAGTTAGTTGGTTGCGCGACTTCGGGTGGGGTTACTTTTTTTTTGGATGGACGCAAAGAAGTTTA ATAATCATATTACATGGCAATACCACCATATACATATCCATATCTAATCTTACTTATATGTTGTGGAAATGTAAA GAGCCCCATTATCTTAGCCTAAAAAAACCTTCTCTTTGGAACTTTCAGTAATACGCTTAACTGCTCATTGCTATA TTGAAGTACGGATTAGAAGCCGCCGAGCGGGCGACAGCCCTCCGACGGAAGACTCTCCTCCGTGCGTCCTGGTCT TCACCGGTCGCGTTCCTGAAACGCAGATGTGCCTCGCGCCGCACTGCTCCGAACAATAAAGATTCTACAATACTA GCTTTTATGGTTATGAAGAGGAAAAATTGGCAGTAACCTGGCCCCACAAACCTTCAAATCAACGAATCAAATTAA CAACCATAGGATAATAATGCGATTAGTTTTTTAGCCTTATTTCTGGGGTAATTAATCAGCGAAGCGATGATTTTT GATCTATTAACAGATATATAAATGCAAAAGCTGCATAACCACTTTAACTAATACTTTCAACATTTTCGGTTTGTA TTACTTCTTATTCAAATGTCATAAAAGTATCAACAAAAAATTGTTAATATACCTCTATACTTACCTCCCGCGACC TCCAAAATCGAACTACCTTCACAATGGTTCAATCTGCTGTCTTAGGGTTCCCAAGAATCGGTCCAAACAGAGAAT TAAAGAAGGCCACTGAAGGTTACTGGAACGGTAAAATCACTGTCGATGAATTATTCAAAGTCGGTAAGGATTTGA GAACTCAAAACTGGAAGTTGCAAAAGGAGGCTGGTGTTGATATCATCCCATCCAATGACTTCTCCTTTTACGACC AAGTTTTGGATTTGTCTTTGTTGTTCAATGTCATTCCAGACCGTTACACTAAGTACGATCTATCTCCAATCGACA CTTTGTTTGCTATGGGTAGAGGTTTACAAAGAAAGGCCACTGAAACTGAAAAGGCTGTCGACGTCACTGCTTTGG AAATGGTTAAATGGTTCGACTCTAACTACCATTACGTTAGACCAACTTTCTCCAAGACCACTCAATTTAAGTTGA ACGGCCAAAAGCCAGTTGACGAATTTTTGGAAGCCAAGGAGTTAGGTATTCACACTAGACCTGTCTTGTTAGGTC CAGTTTCTTACTTATTCTTGGGTAAGGCTGACAAGGATTCTCTAGATTTGGAACCATTGTCCCTATTGGAACAAT TGTTGCCTCTATACACTGAAATCCTATCTAAATTGGCTTCTGCTGGTGCCACTGAAGTTCAAATTGACGAACCTG TCTTAGTTTTGGACTTGCCTGCCAACGCCCAAGCCGCCATTAAGAAGGCTTACACTTACTTCGGTGAACAAAGCA ATCTACCAAAGATTACTTTGGCTACTTACTTCGGTACCGTTGTCCCTAACTTAGACGCCATCAAGGGCTTGCCAG TTGCTGCCTTACACGTTGACTTTGTTAGAGCTCCAGAACAATTTGATGAAGTCGTTGCCGCCATTGGTAACAAAC AAACCTTGTCCGTTGGTATTGTTGATGGTAGAAACATTTGGAAGAATGATTTCAAGAAGTCTTCCGCTATCGTTA ACAAGGCTATTGAAAAGTTGGGTGCTGACAGAGTCGTTGTTGCCACTTCTTCTTCTCTATTGCACACACCAGTTG ACTTGAACAACGAAACCAAGTTGGACGCTGAAATCAAGGGCTTTTTCTCTTTCGCCACTCAAAAATTGGATGAAG TTGTTGTGATCACCAAGAACGTTTCCGGTCAAGACGTTGCTGCTGCCCTAGAAGCTAACGCTAAATCTGTTGAAT CCAGAGGTAAATCCAAGTTTATCCACGATGCTGCCGTTAAGGCCAGAGTTGCCTCTATCGACGAAAAAATGTCTA CTAGAGCAGCTCCATTTGAACAAAGATTGCCTGAACAACAAAAAGTCTTCAACTTGCCATTGTTCCCAACAACAA CTATTGGTTCCTTCCCTCAAACCAAGGACATCAGAATTAACAGAAACAAATTCAACAAGGGTACCATCTCTGCTG AAGAATATGAAAAATTCATCAATTCTGAAATTGAAAAGGTCATCAGATTCCAAGAAGAAATTGGTTTGGATGTCT TAGTCCACGGTGAACCAGAAAGAAACGATATGGTTCAATACTTCGGTGAACAAATCAACGGTTATGCTTTCACTG TTAACGGTTGGGTTCAATCTTACGGTTCCAGATATGTCAGACCACCAATTATTGTTGGTGACTTGTCCAGACCAA AGGCTATGTCCGTCAAGGAATCTGTTTACGCTCAATCCATCACTTCTAAGCCAGTAAAGGGTATGTTGACTGGTC CAATTACCTGTTTGAGATGGTCTTTCCCAAGAGACGATGTCGACCAAAAAACTCAAGCTATGCAATTAGCTTTGG CTTTGAGAGATGAAGTCAATGATTTGGAAGCTGCCGGTATCAAGGTTATCCAAGTTGATGAACCAGCTTTAAGAG AAGGTTTACCATTGAGAGAAGGTGCTGAGAGATCTGCTTACTACACCTGGGCTGCCGAAGCTTTCAGAGTTGCTA CTTCTGGTGTTGCTAACAAGACTCAAATACACTCTCATTTCTGTTACTCTGACTTGGATCCAAACCATATCAAGG CTTTGGATGCTGATGTTGTTTCCATCGAATTCTCTAAGAAGGACGATGCTAACTACATTGCTGAATTCAAAAACT ATCCAAACCACATTGGTCTGGGTTTATTCGATATTCATTCTCCAAGAATTCCATCAAAGGATGAATTTATCGCCA AGATTTCAACCATCTTGAAGAGCTACCCAGCTGAAAAGTTCTGGGTTAACCCAGACTGTGGTTTGAAGACTAGAG GCTGGGAAGAAACTAGATTGTCTTTGACTCATATGGTCGAAGCCGCCAAGTACTTCCGTGAACAATACAAGAATT AAGGTTTTAAAAAGGAAGCAAAGTAATGATATTTTCTGAACTTTTTGTTTTTTATTCTGGGATTCAACATCGGTG ATTTAATTTTTGTGTTCACATTTAAAAGTTTATTTGGGTAATTTTTTGATATCAATTTTATTACAAAGCCATAAC TCTTGCATTTTTTTTATTATATTTTTATATACACGTACATTCTGTATTATTTATAACGCATTCAAACGCGATCGC CGACGCCGCCGATGATCATCTACCCATGCCGAAATTCGGGCCGTTGGCCGGATTGCGCGTTGTCTTCTCCGGTAT CGAAATCGCCGGACCGTTTGCCGGGCAAATGTTCGCAGAATGGGGCGCGGAAGTTATCTGGATCGAGAACGTCGC CTGGGCCGACACCATTCGCGTTCAACCGAACTACCCGCAACTCTCCCGCCGCAATTTGCACGCGCTGTCGTTAAA TATTTTCAAAGATGAAGGCCGCGAAGCGTTTCTGAAATTAATGGAAACCACCGATATCTTCATCGAAGCCAGTAA AGGTCCGGCCTTTGCCCGTCGTGGCATTACCGATGAAGTACTGTGGCAGCACAACCCGAAACTGGTTATCGCTCA CCTGTCCGGTTTTGGTCAGTACGGCACCGAGGAGTACACCAATCTTCCGGCCTATAACACTATCGCCCAGGCCTT TAGTGGTTACCTGATTCAGAACGGTGATGTTGACCAGCCAATGCCTGCCTTCCCGTATACCGCCGATTACTTTTC TGGCCTGACCGCCACCACGGCGGCGCTGGCAGCACTGCATAAAGTGCGTGAAACCGGTAAAGGCGAAAGTATCGA CATCGCCATGTATGAAGTGATGCTGCGTATGGGCCAGTACTTCATGATGGATTACTTCAACGGCGGCGAAATGTG CCCGCGCATGAGCAAAGGTAAAGATCCCTACTACGCCGATCGGCGGCGTCGGCGATCGCGTTGAATGAAAATAGA GATCAGAAATTTTGTGATTATTTGGAATCTAAATTACAACGTGACAAACAACTTGTAAATGGCGGCTCCAAGAAA AGGAAAGCCAATGATTAGCATATGCCTCTTCTTCTTAGAAGGGCGTTCTGCCCGTTATGTATACGTTAAATATTA CATTATTTTCGCATTTTTGTATTTATATTCAGTGAAATATTAGGCTTGGTCGAGTAACATTTCCCATAGCTCGTC GGTTTCTTTGAAGTCGTGATGAACAATTGAGACAAGACAGTAGTCTTTATGCACTAGTCTTAGAAGAATATTGGC TGGGGTGTTCCTTGGAAATAACTTGGCCCACTCGGACCAGATACTAAACGCTTCATCTCTCCATGCCTTGAATGA CTCTTCTTCAATGATTGTAGTCTGTTTGACCGGACTGTTGGGAAAAACACCCCATGTTACAACGCTAGAGCTGTG CGGGTCTAGGTTCGTTTCAAATGAACCAGATGAATCGCCCGCGTAATAACTGAATTTCCGACGCCCGTAATGGTC TAGCTTGGGTTTCAAAGTTGTTTCCCATTGCTGTCTATGAATAAACATTTCTACGAATGCCTTCTGATACAACCT CCCTTTCGCGGGCCCCCAGCCGAATATTTTATCACTACTCAATGTAGCATTTGTGGCAGGTTGCGATGCCAAAGT CAAATATCCGCGATAGTTTAGTTGGATTAGTTCTTCTTGTATTAACGCCGTTTCAGCTGATAAACCCAGGTCAGA CCAGGGAATCGCATCCGTTGAACCTTCCAAATATTTTATAAAAATATCTTTTAAATCGCCAATTGTCTTTGGTAT ACCCCATAGTTCAAGCGCTTTGCTTTTGCTTACCTTGATGGATGGCCCATAACCGTCTATTTCACCATATGCGGG AGACCTGGAGTCACCAAATCTACCATTGGGGAACTCATCCCAAGTGGCATCACGACCCAAAGTTCCGTGACCTTT AGAAATAGATATTAAAGCCTTTTTAGATGGCATGGAACCATTCTCATTATTATAGCGTAAGCCTTTTTCAGTGAC GATAGCCCTATTGAAAATCAACTTGGCCGAATCAAGACTTGAATGCCTTCTCCTTTTCCGGTTTGCTACAGTTTC TTCATTCGAATCATCCAACACAATATCCCCGTCAGCATCTTCTATTGGCACATTTTCTATGCTTCCTATTTCGCC ACTGGTTTCATCTTCTCCCTCTTCTTCGCTAGATTCATTTACGATATGGGATAAGACGGGAGATTGCGAGACAAT TTGAGCAATAGCCTTTTCCAAATTTAATGTATAGAAATGAAACCCTTTAATTCTACCAGATGTTCTTTGATATAT TTCCTGAATCAATTCGATAAGAATGTCCACACCAATGGACTTCACGGCATTATCATCCGATTGGATTTCTGGGGG GAACCTACTCAGTATTGCAGGTGGAATAGATGCATGTGATAACTTTGCTGCTCTGTGGAAAAGCAGATAGGAGTT AATAGGCATCAACCCAGGGAAAAGGGGCAAATCTTGCGAAATCCGTTCCCGAAATAGCATTTCAAAAGTTAAGAA TTTTTCAACGTCGTAAAACAGTTGTGTTATCACAAAATCGGCCCCAGCTTCAACTTTTTCTTTTAAATATACCAA ATCCTTCAATGGGTCTTGCTCGTGACCTTCTGCTTCACCTTCACAATGACCTTCTGGATATGCTGCAACACCGAC GCAGAACTTGTCTCCGTAGCTTTGCTTGATATAACGAACTAAATCAACCGCATATTTAAAAGGTGATTCGTTCGA TTGAGAATCTAGCCAATCTTCCCCAATAGGTGGGTCACCTCGAAGAGCCAAAATATTCCTGATTCCTGCATTATA ACATCTATCCAGCGCATCATCAATGATGGCTTTTTCTGTGTTTGTACAGGTCAAATGCATACAAACTGGTATATT TAGTGTCTGCTGTGCCAAGGAAGCTAATGTCAGAGTCTTTTCCGCAGTAGTACCACCTGCTCCCCAAGTAACCGT GATAAACAGTGGATCTAAAGCAGTCATACGATGCATACGTTCCATCAAATTTCTCGTCCCTAATTCAGTCTTTGG AGGGAAGAATTCTAACGATATAAAAGGGGAAGCCCTCGCATGATATAAATCTCTGATGGACATTGTGAAGGTAGT TCGATTTTGGAGGTCGCGGGAGGTAAGTATAGAGGTATATTAACAATTTTTTGTTGATACTTTTATGACATTTGA ATAAGAAGTAATACAAACCGAAAATGTTGAAAGTATTAGTTAAAGTGGTTATGCAGCTTTTGCATTTATATATCT GTTAATAGATCAAAAATCATCGCTTCGCTGATTAATTACCCCAGAAATAAGGCTAAAAAACTAATCGCATTATTA TCCTATGGTTGTTAATTTGATTCGTTGATTTGAAGGTTTGTGGGGCCAGGTTACTGCCAATTTTTCCTCTTCATA ACCATAAAAGCTAGTATTGTAGAATCTTTATTGTTCGGAGCAGTGCGGCGCGAGGCACATCTGCGTTTCAGGAAC GCGACCGGTGAAGACCAGGACGCACGGAGGAGAGTCTTCCGTCGGAGGGCTGTCGCCCGCTCGGCGGCTTCTAAT CCGTACTTCAATATAGCAATGAGCAGTTAAGCGTATTACTGAAAGTTCCAAAGAGAAGGTTTTTTTAGGCTAAGA TAATGGGGCTCTTTACATTTCCACAACATATAAGTAAGATTAGATATGGATATGTATATGGTGGTATTGCCATGT AATATGATTATTAAACTTCTTTGCGTCCATCCAAAAAAAAAGTAACCCCACCCGAAGTCGCGCAACCAACTAACT TTACAATGCCTTACACTCTATCCGACGCTCATCATAAGTTGATCACCTCTCATTTGGTGGACACCGACCCTGAAG TGGACTCCATTATCAAGGATGAAATTGAAAGACAAAAGCACTCCATCGATTTGATTGCTTCTGAAAATTTCACCT CAACCTCCGTTTTCGATGCCCTTGGAACTCCATTGTCCAACAAATATTCTGAAGGTTATCCAGGTGCTCGTTACT ACGGTGGTAATGAACACATTGACAGAATGGAAATTCTATGTCAACAAAGAGCTTTAAAAGCTTTCCATGTTACTC CAGACAAATGGGGTGTTAACGTCCAAACTTTATCTGGTTCTCCTGCTAACTTGCAAGTTTATCAAGCTATTATGA AGCCTCATGAAAGATTGATGGGTCTATACCTACCAGATGGTGGTCATTTGTCTCACGGTTACGCTACTGAAAACA GAAAAATTTCTGCTGTTTCCACATACTTCGAATCTTTCCCATACAGAGTTAACCCAGAAACCGGTATTATCGACT ACGATACTTTAGAAAAGAACGCCATCCTATATAGACCAAAGGTTCTTGTTGCTGGTACTTCAGCATACTGTCGTT TAATTGACTACAAGAGAATGAGAGAAATCGCCGACAAATGTGGTGCTTACTTGATGGTAGACATGGCCCACATTT CAGGTTTGATCGCCGCAGGTGTCATCCCATCTCCTTTCGAATACGCTGATATCGTTACCACCACCACTCACAAGT CTTTGAGAGGTCCACGTGGTGCTATGATTTTCTTCAGAAGAGGTGTGAGATCTATCAACCCTAAGACCGGTAAGG AAGTCCTATACGACTTGGAAAACCCAATTAACTTCTCTGTTTTCCCAGGTCACCAAGGTGGTCCACACAACCATA CCATTGCTGCTTTGGCCACTGCTTTGAAGCAAGCTGCCACTCCAGAATTCAAGGAATACCAAACTCAAGTCTTGA AGAATGCTAAGGCTTTGGAAAGTGAATTTAAGAACTTGGGCTACAGATTAGTTTCCAACGGTACCGATTCTCACA TGGTTCTGGTATCCTTGAGAGAAAAGGGTGTTGATGGTGCTCGTGTTGAATACATTTGTGAAAAGATTAACATTG CTTTGAACAAAAACTCTATTCCAGGTGACAAATCTGCTTTGGTTCCAGGTGGTGTCCGTATTGGGGCTCCAGCCA TGACCACTAGAGGAATGGGTGAAGAAGATTTCCACAGAATTGTTCAATACATTAACAAGGCTGTAGAATTCGCTC AACAAGTTCAACAAAGCTTGCCAAAGGATGCTTGTAGATTAAAGGACTTCAAAGCCAAGGTCGACGAAGGCTCTG ATGTTTTGAACACCTGGAAAAAGGAAATTTACGACTGGGCTGGCGAATACCCATTGGCTGTGTAAAGAAATCACC ACAACGACACTTAATCCCAAAAAAATAAACATTACTGTATAAGTATTCATTTTCTCCTCTTCTCATTATGTATAT ATGTACCTATATGTATGTATGTATGTGCGTACGATTTTTCTAACGTTAACTTCATTTCTTTTTGATTATGTGCCC TCCTTGAGTTAAGATGTGCTTGTCCAGGTCCGCCGGCGTTGGACGAGCGAATTAAGCTTTCGAGAAAAACTTTCT TTTAACCCCTCTAATCTAAATATAAACATATAGCTTATAGAAATGAATGAATATTTTAAATAGTTACGGATACAA AGAGTTCATTATAGTGCGGGCAGTTAGTACGGTATCGATTTATCATTGGAGATCTGCAGTGTTACAGAAGCACTG CTCACCAGTTGTCTACGGAAGGACGTTGAGATAGTTTTACCACGTTTGAGCTAAAAGTTTCTACCACAAGAGCCT TTATTTGCACATGGCAGTGAATGCATGATTAAGGATATGAAGAAGAAAGGAATAACTAGGAATAAATTTTATTTA GAGAGGGTATGATGAAAGGAGAGCCTCGTTATTTATGACCTGCATTTTTATCAGCATCTTCTTTCCAGCTCCCGC TAAACATGTGCTTTACAAAAGCCATTTTGTCGTCACTAGACTGGGCGCCCATCTGCCCCACATCTGGTGAAAAAC TTGTTATTGGTAGAACCATCACATGGCGGTTTAAACGCGTGGCCGTGCCGTC SEQ ID NO: 15 Length: 1912 Type: Organism: artificial sequence Other information: R21 sequence

(244) TABLE-US-00039 TCGACACTAGTAATACACATCATCGTCCTACAAGTTCATCAAAGTGTTGGACAGACAACTATACCAGCATGGATC TCTTGTATCGGTTCTTTTCTCCCGCTCTCTCGCAATAACAATGAACACTGGGTCAATCATAGCCTACACAGGTGA ACAGAGTAGCGTTTATACAGGGTTTATACGGTGATTCCTACGGCAAAAATTTTTCATTTCTAAAAAAAAAAAGAA AAATTTTTCTTTCCAACGCTAGAAGGAAAAGAAAAATCTAATTAAATTGATTTGGTGATTTTCTGAGAGTTCCCT TTTTCATATATCGAATTTTGAATATAAAAGGAGATCGAAAAAATTTTTCTATTCAATCTGTTTTCTGGTTTTATT TGATAGTTTTTTTGTGTATTATTATTATGGATTAGTACTGGTTTATATGGGTTTTTCTGTATAACTTCTTTTTAT TTTAGTTTGTTTAATCTTATTTTGAGTTACATTATAGTTCCCTAACTGCAAGAGAAGTAACATTAAAAATGAAAA AGCCTGAACTCACCGCGACGTCTGTCGAGAAGTTTCTGATCGAAAAGTTCGACAGCGTCTCCGACCTGATGCAGC TCTCGGAGGGCGAAGAATCTCGTGCTTTCAGCTTCGATGTAGGAGGGCGTGGATATGTCCTGCGGGTAAATAGCT GCGCCGATGGTTTCTACAAAGATCGTTATGTTTATCGGCACTTTGCATCGGCCGCGCTCCCGATTCCGGAAGTGC TTGACATTGGGGAATTCAGCGAGAGCCTGACCTATTGCATCTCCCGCCGTGCACAGGGTGTCACGTTGCAAGACC TGCCTGAAACCGAACTGCCCGCTGTTCTGCAGCCGGTCGCGGAGGCCATGGATGCGATCGCTGCGGCCGATCTTA GCCAGACGAGCGGGTTCGGCCCATTCGGACCGCAAGGAATCGGTCAATACACTACATGGCGTGATTTCATATGCG CGATTGCTGATCCCCATGTGTATCACTGGCAAACTGTGATGGACGACACCGTCAGTGCGTCCGTCGCGCAGGCTC TCGATGAGCTGATGCTTTGGGCCGAGGACTGCCCCGAAGTCCGGCACCTCGTGCACGCGGATTTCGGCTCCAACA ATGTCCTGACGGACAATGGCCGCATAACAGCGGTCATTGACTGGAGCGAGGCGATGTTCGGGGATTCCCAATACG AGGTCGCCAACATCTTCTTCTGGAGGCCGTGGTTGGCTTGTATGGAGCAGCAGACGCGCTACTTCGAGCGGAGGC ATCCGGAGCTTGCAGGATCGCCGCGGCTCCGGGCGTATATGCTCCGCATTGGTCTTGACCAACTCTATCAGAGCT TGGTTGACGGCAATTTCGATGATGCAGCTTGGGCGCAGGGTCGATGCGACGCAATCGTCCGATCCGGAGCCGGGA CTGTCGGGCGTACACAAATCGCCCGCAGAAGCGCGGCCGTCTGGACCGATGGCTGTGTAGAAGTACTCGCCGATA GTGGAAACCGACGCCCCAGCACTCGTCCGAGGGCAAAGGAATAGGTTTAACTTGATACTACTAGATTTTTTCTCT TCATTTATAAAATTTTTGGTTATAATTGAAGCTTTAGAAGTATGAAAAAATCCTTTTTTTTCATTCTTTGCAACC AAAATAAGAAGCTTCTTTTATTCATTGAAATGATGAATATAAACCTAACAAAAGAAAAAGACTCGAATATCAAAC ATTAAAAAAAAATAAAAGAGGTTATCTGTTTTCCCATTTAGTTGGAGTTTGCATTTTCTAATAGATAGAACTCTC AATTAATGTGGATTTAGTTTCTCTGTTCGTTTTTTTTTGTTTTGTTCTCACTGTATTTACATTTCTATTTAGTAT TTAGTTATTCATATAATCTTAACTTCTCGAGGAGCTC SEQ ID NO: 16 Length: 4761 Type: Organism: artificial sequence Other information: MS150540 sequence

(245) TABLE-US-00040 GACGGCACGGCCACGCGTTTAAACCGCCCCATGGCAAAGAATGCTTTCCATGACGATCATCGTAGTGCCCAATTG GGTGCCTCTATGATGGGTATGGCTTGGGCAAGTGTCTTTTTATGTATCGTGGAATTTATCCTGCTGGTCTTCTGG TCTGTTAGGGCAAGGTTGGCCTCTACTTACTCCATCGACAATTCAAGATACAGAACCTCCTCCAGATGGAATCCC TTCCATAGAGAGAAGGAGCAAGCAACTGACCCAATATTGACTGCCACTGGACCTGAAGACATGCAACAAAGTGCA AGCATAGTGGGGCCTTCTTCCAATGCTAATCCGGTCACTGCCACTGCTGCTACGGAAAACCAACCTAAAGGTATT AACTTCTTCACTATAAGAAAATCACACGAGCGCCCGGACGATGTCTCTGTTTAAATGGCGCAAGTTTTCCGCTTT GTAATATATATTTATACCCCTTTCTTCTCTCCCCTGCAATATAATAGTTTCAAATCAGATTCAAGTTTGAGGGTA GTTAATTAATAGTCTTGGATGTAATTCTTATTGTTATACTGAATACGCTAAAACCACTCACAACAAGTATGGAGT ATATTGTGTCTCTTTATATACTGAGTACTTATGCAATATGCGCTCACTCAGGATGAAATGTACACAGCCGAAAGT ATATTGAAAGCTGCCTCTGTGGAAACTTCTATCTAATGTTGTCTCCAGATGTAGACTATGAGGCCTGAAGAAGTC TTTAAACACCTGTTGGAGAGTATAAGGAGACTGCTACAACAACGTCTTCCCCACAAAAATTATGTGGAGGCCGGT ATGATACCTGCACAAACGTTAAGTTACACATGAAAAAGAGACTGACATAACTTTGATCTCTGAAAATATGTTTTC CCCTGAGTAGCTTCACTGCTTGGATACCAATACGAATAGACCTTGGCTATAGTAAGTTGCATCTGTACCGTAGAG ATTCTTGCAACCTCGCTTAAACTCTCGCTTTTATATAATATTTCTCCTTATTGCGCGCTTCGTTGAAAATTTCGC TAAACACGGGGTTTAAGTTTAAGTTTACAGGATTTATCCGGAAGTTTTCGCGGACCCCACACAATTAAGAATTGG CTCGAAGAGTGATAACGCATACTTTTCTTTTCTTTTTTCAGTTCCTAGCGTACCTAACGTAGGTAACATGATTTG GATCGTGGGATGATACAAACAACGTAAGATGAGTAGTTCCTTCCTCAATTCTTCTTTCAGCATCATTTTCTTGAG GCGCTCTGGGCAAGGTATAAAAAGTTCCATTAATACGTCTCTAAAAAATTAAACCATCTATCTCTTAAGCAGTTT TTTTGATAATCTCAAATGTACATCAACCTCCCGCGACCTCCAAAATCGAACTACCTTCACAATGGACTACAACAA GAGATCTTCGGTCTCAACCGTGCCTAATGCAGCTCCCATAAGAGTCGGATTCGTCGGTCTCAACGCAGCCAAAGG ATGGGCAATCAAGACACATTACCCCGCCATACTGCAACTATCGTCACAATTTCAAATCACTGCCTTATACAGTCC AAAAATTGAGACTTCTATTGCCACCATCCAGCGTCTAAAATTGAGTAATGCCACTGCTTTTCCCACTTTAGAGTC ATTTGCATCATCTTCCACTATAGATATGATAGTGATAGCTATCCAAGTGGCCAGTCATTATGACGTTGTTATGCC TCTCTTGGAATTCTCCAAAAATAATCCGAACCTCAAGTATCTTTTCGTAGAATGGGCCCTTGCATGTTCACTAGA TCAAGCCGAATCCATTTATAAGGCTGCTGCTGAACGTGGGGTTCAAACCATCATCTCTTTACAAGGTCGTAAATC ACCATATATTTTGAGAGCAAAAGAATTAATATCTCAAGGCTATATCGGCGACATTAATTCTATCGAGATTGCTGG AAATGGCGGTTGGTACGGCTACGAAAGGCCTGTTAAATCACCAAAATACATCTATGAAATCGGGAACGGTGTAGA TCTGGTAACCACAACATTTGGTCACACAATCGATATTTTACAATACATGACAAGTTCGTACTTTTCCAGGATAAA TGCAATGGTTTTCAATAATATTCCAGAGCAAGAGCTGATAGATGAGCGTGGTAACCGATTGGGCCAGCGAGTCCC AAAGACAGTACCGGATCATCTTTTATTCCAAGGCACATTGTTAAATGGCAATGTTCCAGTGTCATGCAGTTTCAA AGGTGGCAAACCTACCAAAAAATTTACCAAAAATTTGGTCATTGATATTCACGGTACCAAGGGAGATTTGAAACT TGAAGGCGATGCCGGATTCGCAGAAATTTCAAATCTGGTCCTTTACTACAGTGGAACTAGAGCAAACGACTTCCC GCTAGCTAATGGACAACAAGCTCCTTTAGACCCGGGGTATGATGCAGGTAAAGAAATCATGGAAGTATATCATTT ACGAAATTATAATGCCATTGTCGGTAATATTCATCGACTGTATCAATCTATCTCTGACTTCCACTTCAATACAAA GAAAATTCCTGAATTACCCTCACAATTTGTAATGCAAGGTTTCGATTTCGAAGGCTTTCCCACCTTGATGGATGC TCTGATATTACACAGGTTAATCGAGAGCGTTTATAAAAGTAACATGATGGGCTCCACATTAAACGTTAGCAATAT CTCGCATTATAGTTTAATGAAAATCGAAGAAGGTAAGTTAGTCACTTGGATCAACGGTGACAAGGGTTACAATGG TTTGGCTGAAGCTGGTAAGAAGTTTGAAAAAGACACTGGTATCAAGGTTACCGTCGAACATCCAGTTGAGTTGGA AGAAAAGTTCCCACAAGTCGCCGCTACTGGTGATGGTCCAGATATTATCTTCTGGGCTCACGACAGATTCGGTGG TTACGCTCAATCTGGTTTGTTAGCCGAAATTACTCCTGGCAAGGCTTTCCAAGACAAATTATACCCATTCACCTG GGATGCTGTCAGATATAACGGTAAATTGATCGCTTACCCAATCGCTGTCGAAGCTTTGTCCTTGATCTACAACAA GGATTTGTTACCTAACCCACCAAAAACTTGGGAAGAAATCCCAGCTTTGGACAAGGAATTGAAAGCTAAAGGTAA ATCCGCTTTGATCTTCAACTTACAAGAACCATATTTCACTTGGCCTTTGATTGCTGCTGATGGTGGTAATGCCTT TAAGTACGAAAACGGTAAGTACGATATTAAGGACGTCGGTGTTGACAGCGCCGGTGCTAAGGCTGGTTTAACTTT CTTGGTCGATTTGATCAAGAACAAGCATATGAACGCCGACACTGACTACTCTATCGCTGAAGTCGCTTTCAATAA GGGTGAGACTGCTATGACTATTAACGGTCCTTGGGCTTGGTCTAATATCGATACTTCTAAGGTCAACTACGGTGT TACCGTTTTGCCAACCTTCAAAGGTCAACCATCCAAGCCATTTGTTGGTGTTTTGTCCGCTGGTATCAACGCTGC TTCTCCTAACAAGGAATTGGCTAAGGAATTCTTGGAAAACTATTTGTTGACTGATGAAGGTTTAGAAGCTGTTAA CAAGGACAAGCCATTGGGTGCCGTTGCCTTGAAGTCTTACGAAGAAGAATTGGCCAAGGACCCTAGAATTGCTGC TACTATGGAAAATGCCCAAAAAGGTGAGATCATGCCAAACATTCCACAAATGTCTGCTTTCTGGTATGCTGTTAG AACTGCCGTCATTAACGCTGCTTCCGGTAGACAAACTGTTGATGAAGCCTTGAAAGATGCCTAAACTAACTCCTC TTCCAACAACAATAATAACAACAACAACAACAACTTGGGTATCGAAGGTAGATAAAAGCATCTTGCCCTGTGCTT GGCCCCCAGTGCAGCGAACGTTATAAAAACGAATACTGAGTATATATCTATGTAAAACAACCATATCATTTCTTG TTCTGAACTTTGTTTACCTAACTAGTTTTAAATTTCCCTTTTTCGTGCATGCGGGTGTTCTTATTTATTAGCATA CTACATTTGAAATATCAAATTTCCTTAGTAGAAAAGTGAGAGAAGGTGGCACTGACACACTTAACCTTCATACAG ATCTGGGTAAGATTATTACTTGCTATAAGTGCGTGCCTGATGAACAGGATATTGCGGTCAATAATGCTGATGGTT CATTAGACTTCAGCAAAGCCGATGCCAAAATAAGCCAATACGATCTCAACGCTATTGAAGCGGCTTGCCAGCTAA AGCAACAGGCAGCAGAGGCGCAGGTGACAGCCTTAAGTGTGGGCGGTAAAGCCCTGACCAACGCCAAAGGGCGTA AAGATGTGCTATCGCGCGGCCCGGATGAACTGATTGTGGTGATTGATGACCAGTTCGAGCAGGCACTGCCGCAAC AAACGGCGAGCGCACTGGCTGCAGCCGCCCAGAAAGCAGGCTTTGATCTGATCCTCTGTGGCGATGGTTCTTCCG ACCTTTATGCCCAGCAGGTTGGTCTGCTGGTGGGCGAAATCCTCAATATTCCGGCAGTTAACGGCGTCAGCAAAA TTATCTCCCTGACGGCAGATACCCTCACCGTTGAGCGCGAACTGGAAGATGAAACCGAAACCTTAAGCATTCCGC TGCCTGCGGTTGTTGCTGTTTCCACTGATATCAACTCCCCACAAATTCCTTCGATGAAAGCCATTCTCGGCGCGG CGAAAAAGCGGTGTTTAAACCCCAGCGCCTGGCGGG SEQ ID NO: 17 Length: 8624 Type: Organism: artificial sequence Other information: MS159820 sequence

(246) TABLE-US-00041 GACGGCACGGCCACGCGTTTAAACCGCCCGAACAAGCTTATCCCTATTACAGAATTCCAAGGAGGAAATCATTCA ACTTGAAAGTAAATGGATGTCTATGCAATCTGTTAAAACAACTGCCCTACCCCTTCAAGAGACTACGAATACATC ATCGACCTTAACTTCTCTGACGTCCAGCATAATTCCCAAGAGTATACCTATAATCACGAAAGGTGAAGTCGCCAC TAAACCAGCATCTTACTGAATTATTTTCAACAGAACACATCGCATCCAACTGAACAAACTGTTACCGCTGTTGAT ACCAAGGAACATTCAGTGAACGTAGGGAAGAACGAACATTCTCCATATTTTTGCATACTAGATACAAGGGGGAAG AATGCAATTATTTCACAAACCGAAAGAAAAAGAATCACAAGCTATGTTTGCTATTATCAATTTTTCTTATGATTA ATTTAACATAAATTATGGCCTTTTTCATTCCGGCTGCGCTTGTTCTCCAATTTTTTTTTTTTTTTTGAGAAAACT TTCATACTAGGTAACTAGAGGGGGGTATAAAACTTACATAGAAAAAAAATATATACTATACTTACAACTTTTCAT TTTTTTCGTAAAAACTACCCCACAATGAAATAAGATACCATACCTTATCGAGTTATTATGTATGTGTCGAAGCTT TTTATAAGGCTGCAGATAAGGACAACATTCTAATAGGCTGCTGTGTAGCTTGTTGTTGAGTTGGAGAATCCACTG TGATTTTCATATCTCTAACTAATTTGGCCCATGATACGGCGCCTCTCCTAGCTAACTCCTCTGGAACTCCAAATC CAGTATCTGACATTCTTCTGTTAAATAATTCCAAGGACACCCAACCTTCGAAGCCCAATCCATTGAAAAAAGCCC AAGCGATTTCTTTAACAGGTAAGTAAGCGCCTCTGTCTTTTTCGCCGTAGAACAACCTACAATTTCTTGACCATG ACATTCTGGCTGGTTGCTCAGGGTCATAGAATCTATGACCGGGAACTAATGGTTTCTTTAACTTTTCGGCGTCCA CTACTTGAACGTAGAAGACTTTAGATACATCGACCCTTTCGACCAACCTGGCAATTGACTTTCTAATTGCTTCTT CAGCGTTTGGTGTTCTGCCTGAGGCAACTGTGGGGTCAGCATAAACTCTACCTGCGATGTTAAAAGTGTCTAAGC AAACGCCAAAGTTAGGTCTATTTACTCTTTGGACAACTTCCCAAGACCTCTCCCAAGTGTCAACTCTAGTGGACC AGCATAATGCCTCATATACAAACCTTATTGGAGGGTTTGCCTGTAAACCCATATCGGCAACTTCCTGTAAGTCAC TCACAATTAATGAAATATCTTCTGTGACTTCTTCGGGGGGCAAGAAATTGGCTGGAATTTGAATGATGTCAGTAT CCAACTCGTGGGCCAATTCAATCCAAAACTCTAATTGCTCCAACCTCCTCTCGTGCTCCTCTCTATCCAATAAAC CATCATATTGTGAAAAGGGTTGCAAGCACACTATTTCGATGTTTCTAACCTGGCACATCCTCAATATCTGTCTAG CGGCTGATAATTGAGCAGCTGGACTGGGACCGCATGGACTAGGTGTTTCACCTGACAACCTGTATGCGACATCGG CTAAGTCCTCATGAAACAACTCCAAACCCTGGTAACCATATTTCCTAGCCATGTCTAACTTAGTTGTGAAAGAAT GGCCTGCATAACACCTGCCCAAGGACATGGAAGTTATAGCCAATTTACTGGGCATTGTAAAGTTAGTTGGTTGCG CGACTTCGGGGGGGTATGTTAATCTTGTGTTTACTTAACTATTGCTATTCTTGATGATAATTGAATAAGGTGCA TAATGAAGAGCAATTCACAACACCAAATTTTCAATCCAATTACTGATTGTTTATATATGTCTACAAAACTAATCC TATCTCCACATTTTAGCCTGCGAAATGTTTGTTTTTTAAACAATAGCTCTCCAGAACATTGTATAATTTAAGAAT ATGTGCACAGTTAACTTTCTAGCAGGAGTATAATGCCATTTGCTCCCCATCTTGAGATGGGAAGGGCTTAACTAA TCTCGGTTCGGAGTGATCCGCCCCGATACTGCCTTCTGCCTTAATATCGTCCAAGGCACATGGACCCCTGAACGG CGCAGATATCTCCGCACGGACGAAAGACCGCCGGTGCCTTCCTGAGGCAACCGCCCCTTTCGAATATAGATCACG TGACCCATTTTTAGCTACTAATAGAAAAAGAAATTGCAACCTACTTAAGCCATTCCGGAAGGAAGCTTTCCGATC ACATGTAGGGACCGAATTGTTTACAAGTTCTCTGTACCACCATGGAGACATCAAAGATTGAAAATCTATGGAAAG ATATGGACGGTAGCAACAAGAATATAGCACGAGCCGCGAAGTTCATTTCGTTACTTTTGATATCGCTCACAACTA TTGCGAAGCGCTTCAGTGAAAAAATCATAAGGAAAAGTTGTAAATATTATTGGTAGTATTCGTTTGGTAAAGTAG AGGGGGTAATTTTTCCCCTTTATTTTGTTCATACATTCTTAAATTGCTTTGCCTCTCCTTTTGGAAAGCTATACT TCGGAGCACTGTTGAGCGAAGGCTCATTAGATATATTTTCTGTCATTTTCCTTAACCCAAAAATAAGGGAAAGGG TCCAAAAAGCGCTCGGACAACTGTTGACCGTGATCCGAAGGACTGGCTATACAGTGTTCACAAAATAGCCAAGCT GAAAATAATGTGTAGCTATGTTCAGTTAGTTTGGCTAGCAAAGATATAAAAGCAGGTCGGAAATATTTATGGGCA TTATTATGCAGAGCATCAACATGATAAAAAAAAACAGTTGAATATTCCCTCAAAAATGGAAAGAATTGTTGTAAC ATTGGGTGAAAGGTCTTATCCAATCACTATTGCATCTGGTTTATTTAACGAACCAGCCAGTTTTTTACCATTGAA ATCCGGTGAGCAAGTGATGTTAGTCACTAACGAAACATTAGCTCCCTTGTATTTAGACAAGGTAAGGGGTGTTTT GGAACAAGCAGGCGTAAACGTCGATTCTGTGATATTACCAGACGGTGAACAATACAAAAGTTTGGCAGTTTTAGA TACTGTATTCACTGCCTTATTACAGAAACCACATGGTAGAGATACTACATTGGTTGCCTTAGGAGGCGGAGTTGT CGGCGATTTAACAGGTTTCGCTGCCGCATCATATCAGAGAGGTGTTAGATTCATTCAGGTCCCAACTACTTTGTT ATCCCAAGTAGACTCATCAGTTGGAGGAAAGACTGCTGTCAATCATCCTTTAGGAAAGAACATGATTGGTGCCTT CTACCAGCCAGCATCAGTCGTTGTTGATTTAGATTGTTTGAAGACATTACCTCCAAGAGAGTTGGCAAGTGGTTT GGCAGAAGTAATAAAATATGGTATCATATTGGATGGTGCATTTTTTAATTGGTTGGAAGAAAATTTAGATGCATT ATTGAGGTTAGACGGTCCTGCTATGGCTTATTGTATTAGAAGGTGTTGTGAATTAAAGGCTGAGGTTGTAGCAGC CGACGAGAGAGAAACTGGTTTAAGAGCTTTGTTGAACTTAGGTCATACATTTGGTCATGCTATCGAAGCTGAAAT GGGTTACGGTAATTGGTTGCATGGTGAAGCCGTTGCAGCCGGTATGGTTATGGCTGCCAGGACATCTGAAAGATT GGGTCAATTCAGTTCTGCAGAAACACAAAGGATAATAACCTTATTGAAAAGGGCAGGTTTACCTGTGAATGGTCC TAGAGAGATGAGTGCTCAAGCTTATTTGCCCCACATGTTGAGAGATAAGAAGGTTTTAGCAGGTGAAATGAGGTT AATTTTGCCCTTAGCAATTGGAAAAAGTGAAGTCAGATCCGGTGTTTCACATGAATTAGTATTGAACGCCATAGC TGATTGCCAATCAGCCTAAATAAATGACTTAATTTTAACTATATATCGCCAAACATGTAAATTAAAAAAAGAAGC GAGAAGTATATACATGTGTGTATGAATAAATAATTCGTTTACTATTGATACGTATTGCAAGATATGATTAACCTG CAGGCCGCGAGCGCCGATgATCATCTACCCATGCCGAAATTCGGGCCGTTGGCCGGATTGCGCGTTGTCTTCTCC GGTATCGAAATCGCCGGACCGTTTGCCGGGCAAATGTTCGCAGAATGGGGCGCGGAAGTTATCTGGATCGAGAAC GTCGCCTGGGCCGACACCATTCGCGTTCAACCGAACTACCCGCAACTCTCCCGCCGCAATTTGCACGCGCTGTCG TTAAATATTTTCAAAGATGAAGGCCGCGAAGCGTTTCTGAAATTAATGGAAACCACCGATATCTTCATCGAAGCC AGTAAAGGTCCGGCCTTTGCCCGTCGTGGCATTACCGATGAAGTACTGTGGCAGCACAACCCGAAACTGGTTATC GCTCACCTGTCCGGTTTTGGTCAGTACGGCACCGAGGAGTACACCAATCTTCCGGCCTATAACACTATCGCCCAG GCCTTTAGTGGTTACCTGATTCAGAACGGTGATGTTGACCAGCCAATGCCTGCCTTCCCGTATACCGCCGATTAC TTTTCTGGCCTGACCGCCACCACGGCGGCGCTGGCAGCACTGCATAAAGTGCGTGAAACCGGTAAAGGCGAAAGT ATCGACATCGCCATGTATGAAGTGATGCTGCGTATGGGCCAGTACTTCATGATGGATTACTTCAACGGCGGCGAA ATGTGCCCGCGCATGAGCAAAGGTAAAGATCCCTACTACGCCGACGGCCGGCCAAGCACGCGGGGATCAATGCTG CTTCGTATAGGCGCTATTTAATTAAGTAGTTATATAAAGAGAACGGTGCAATTGAATAGGAAAGGAATGACGGAT TTTGCTTCTATGTTTGCTTTTATTTGAAGCGTGGGTTCTTATTTATGCTTGGTGTAATATGGTCAAAACTGTTCT CAAATCATTTACTGAGATCTGTCCTGGAGCAGAAGCTTTTTTGACAGCACCAAATGTAGCAGCAGATCCGAACAC TTCACCAGCTAATCTAGAAATCACACCGGTTTTTGCCATAGACATAGTTATGATAGGTCTATCAGCGTATTGTTC TTGCATTTCCAATGTGGCAGCTAACAATGTTAAGACATCAGAGGTAGACTGTGGCATTAAAGCAATTTTGGGTAT ATCAGCATCAAAGGATTGCATTTTTCTTAATCTGGCTATGATTTCCTCTGCTTCTGGGGTCTTGTGGAAATCATG ATTAGACATAACTACCTTAACATCGTGAGCGTGAGCGTAAGCTACAGTTTCCTTAACCTGGTCATCACCAGTAAA CAACTCCAAATCTATCATATCCACTAAACCACTATCAATAGCAGCTCTGTTCAAAGCAATGTAGGCTTCGGTACT AATTGCTTGTTCACCACCTTCCTTAGCTGATCTGAAAGTGAACAATAATGGTTTTTCAGGCATAGTCTCTCTTAA TATCTTTGCTGCAGCCATTACTGATTCGACATTTGACAAGTCTGCATAGTGATCCACTCTCCATTCTAATATGTC AAAATCTGCTTCTCTATAAGCTAAGGCCTCACTCTTTACAGAGGCTATGTCTTTAGCCATTAAACTAACAATTAT TTTAGGGGCTCCTGTTCCAATAACCAAATCTTTCACTGTAACTGTCTTCATTTTTGAGGGAATATTCAACTGTTT TTTTTTATCATGTTGATGCTCTGCATAATAATGCCCATAAATATTTCCGACCTGCTTTTATATCTTTGCTAGCCA AACTAACTGAACATAGCTACACATTATTTTCAGCTTGGCTATTTTGTGAACACTGTATAGCCAGTCCTTCGGATC ACGGTCAACAGTTGTCCGAGCGCTTTTTGGACCCTTTCCCTTATTTTTGGGTTAAGGAAAATGACAGAAAATATA TCTAATGAGCCTTCGCTCAACAGTGCTCCGAAGTATAGCTTTCCAAAAGGAGAGGCAAAGCAATTTAAGAATGTA TGAACAAAATAAAGGGGAAAAATTACCCCCTCTACTTTACCAAACGAATACTACCAATAATATTTACAACTTTTC CTTATGATTTTTTCACTGAAGCGCTTCGCAATAGTTGTGAGCGATATCAAAAGTAACGAAATGAACTTCGCGGCT CGTGCTATATTCTTGTTGCTACCGTCCATATCTTTCCATAGATTTTCAATCTTTGATGTCTCCATGGTGGTACAG AGAACTTGTAAACAATTCGGTCCCTACATGTGATCGGAAAGCTTCCTTCCGGAATGGCTTAAGTAGGTTGCAATT TCTTTTTCTATTAGTAGCTAAAAATGGGTCACGTGATCTATATTCGAAAGGGGCGGTTGCCTCAGGAAGGCACCG GCGGTCTTTCGTCCGTGCGGAGATATCTGCGCCGTTCAGGGGTCCATGTGCCTTGGACGATATTAAGGCAGAAGG CAGTATCGGGGCGGATCACTCCGAACCGAGATTAGTTAAGCCCTTCCCATCTCAAGATGGGGAGCAAATGGCATT ATACTCCTGCTAGAAAGTTAACTGTGCACATATTCTTAAATTATACAATGTTCTGGAGAGCTATTGTTTAAAAAA CAAACATTTCGCAGGCTAAAATGTGGAGATAGGATTAGTTTTGTAGACATATATAAACAATCAGTAATTGGATTG AAAATTTGGTGTTGTGAATTGCTCTTCATTATGCACCTTATTCAATTATCATCAAGAATAGCAATAGTTAAGTAA ACACAAGATTAACATACCCCACCCGAAGTCGCGCAACCAACTAACTTTACAATGCAGAAAGATGCCTTAAATAAC GTACATATAACAGATGAACAGGTTTTGATGACACCTGAGCAATTAAAAGCTGCCTTTCCCTTATCTTTGCAACAA GAGGCTCAGATAGCCGATTCAAGAAAGAGTATTTCTGATATTATAGCCGGTAGAGATCCAAGGTTATTGGTTGTA TGTGGCCCATGTAGTATCCACGATCCTGAAACAGCATTGGAATACGCAAGAAGATTTAAGGCCTTGGCAGCTGAA GTCTCCGACTCCTTGTATTTGGTTATGAGGGTTTATTTTGAAAAGCCAAGGACCACTGTAGGTTGGAAGGGATTG ATTAACGACCCACATATGGATGGATCTTTTGATGTGGAAGCTGGTTTGCAAATCGCAAGGAAATTGTTGTTGGAA TTAGTAAATATGGGTTTGCCTTTAGCTACCGAAGCCTTGGATTTAAACAGTCCTCAATATTTGGGCGATTTATTC TCCTGGTCTGCAATAGGTGCTAGAACCACCGAATCACAAACTCACAGAGAAATGGCATCTGGTTTGAGTATGCCA GTTGGCTTCAAAAACGGCACAGACGGTTCATTGGCAACTGCCATAAATGCCATGAGGGCCGCAGCTCAACCACAT AGATTTGTCGGTATCAATCAAGCTGGTCAGGTCGCATTATTACAAACTCAGGGTAACCCAGATGGTCATGTAATA TTGAGGGGTGGTAAGGCCCCAAACTATTCACCTGCCGACGTGGCACAGTGCGAAAAGGAAATGGAACAAGCAGGT TTAAGACCTTCCTTGATGGTCGACTGTTCTCACGGTAACTCTAATAAGGATTACAGGAGACAACCCGCCGTCGCT GAATCTGTAGTTGCACAGATAAAAGATGGAAACAGATCTATCATCGGTTTGATGATCGAATCAAATATTCATGAG GGTAACCAATCATCCGAACAGCCAAGATCAGAAATGAAGTATGGCGTGTCTGTTACAGACGCATGTATTTCATGG GAAATGACCGACGCATTGTTGAGAGAAATTCATCAGGATTTGAATGGCCAATTGACAGCAAGAGTGGCCTAAAAT TTTAGTGTCGTTAATATCTCTTTTATTTCTTATTGTTACTATATTATTACTGTTTTGAAGTTCCAGTTTCATCAA CTTTTGCTACCTTAATTAAAAGAACCACTCAGACTTTTTACCATCCTACCCCCCTCTAGTTACCTAGTATGGCAT AGTAAAAAAATAGATGCAGAATTTACTCACCTCAAGGAGGGGCAAAGTAATAAGAAAAGTTACCATAGGCTAGTT GAATGTCCAAGATCGTAAAGAATGAAGAAAAAAGGAGTAAAAAGTATGAATAAGATAAATGAAAATATAAAAATA AAAACCAACTAATACATGAAGAAAAAAAAGCAGACAAAAACATTTTATGGACCTGATGCAATCTAGTAGTCCATA GAATAATCACCACTAGAAAATTCTTCCTCTTCATTACTACCGTTTGCCATTATAGGAATATGATTTGCTGCAGGA TTCTGCGGAGGTATTATATAGGGCACTGGCGGCACCTGTGGAATAAACCCAAATGATGGGAACATTGGCATCATC CAGTTAGCGTTATTTTGGTTTGCACTTATTAAGTTGTAACTGTTCACGGGCTTTGTGTTGGTATTAGGGTACTGC AGTGGTATGAAATAATTTTCCCTCGAGACTTGCTGTTGCGATTGGTGGCGGTTTAAACGCGTGGCCGTGCCGTC SEQ ID NO: 18 Length: 9013 Type: Organism: artificial sequence Other information: MS156217 sequence

(247) TABLE-US-00042 GACGGCACGGCCACGCGTTTAAACCGCCAAAAACTCACAAGAAGTTCGGTGTCCTTATTTGCGATGGGAATTGCT AATATCATATCACCACAAATATGGAGAGAGAAGGACTCTCCTCGCTTTTTACCTGCCTGGATTGTTCAAATCGTT TTATCATTCTCTCTTGCACCAGCCATTTTGTTACTGATCCATTTCATACTAAAAAGAAGGAATAATCAAAGACTA AAAAATTATGACGAAAATTTACAAAATTATTTGGACAGAATTCAACTCATTGAAAGCGAAAATCCTTCTTCCATT GAAGAAGGGAAAGTGGTAACCCACGAGAACAATTTGGCAGTCTTTGATTTGACTGATTTAGAAAACGAAACTTTT ATATATCCTTTGTAAATATTGATGTTTTGTTGTGTAAATGTTCTATCTGACACTTAATAATTAGAAAATTAATTT TTTAAACTTTCCGGCTGCAAGAAAGAGGAACTGTGTCTCTTTGAAAGGCACAATTTCCCAAAGAATCATTTACAA TGCGAAAAAAAGATATCAGGAGGGGTAGTGAGTTCTATTCACGCAATCGGTAGTATCAAAGAAGATTATTTGGGT GCTATTTAATCACTTGTTACTCCGCAACGCTTTTCTGAACGCCCGCCTTCGCCTTTCATTATCATTCTCATCCCA AAAGAACTGTGCATGTTATTTGCAATACTTCATATACGCTCTGTATTATTAATAGTATCATTAATTACGTCAATT GAAATTCAAAATATCATCTTTGACAGTAACATCTATCCTCTTAGACAACTAGGGCCATTGCAGTGTCTCGAAACC ATTAATATCACTGAAAAGATGAAAAGAAAGGCAAATATATATTGATCACTAATTTTCTAAGCTAAAGAATCTATT CCCCCTCTGTTAAATGGAATTGTGTGAAATAAAATATTATAAAATCAGAACTTTGGGGGGGAAACATAAAAAAAT GAGAAAAAGAAAACGAACTAACTAATGTTTAAGTAAAAGAACAAAAAGGTAGACCAATGTAGCGCTCTTACTTTA TTAGACTAATCTTCTACACAAGGTAACACCATCACCGATGGAAACTTGGGAGATTTCAATTCTTGGATCGGAAGC CAATCTTTTGTTCAATTCCATCAAAGCCTTACGGTTAACTCTTAAGTGAACTGGGACAGTCTCTTCCTCTTCAGC AACGAAACCGAACCATAAGGTGTTATCGAAAGCAATGATACCACCAACTTTGACCAACTTCATCAATCTTTCCAA AGCGTGGACGTAATTTGGCTTATCAGCGTCAACGAAAGCGAAGTCAAATTCTGGCTTTGGGTTTTCAGATAACAA CTTGTCTAAGGCTTGCAAACCGTCGGATTGGATAAAGTTAATTTTGTGATCGATACCGGCGTTCTTGATGAATTC CAAACCCATTTCGTAAGCTTCTTTATCGATATCAATAGCAGTAATTCTACCGTCTTCAGGCAAAGCCAAGGCGGT GGTTAACAAAGAGTAACCAGTGAAAACACCCAATTCCAAGGTGTTCTTAGCGTTCATCATCTTCAACAACATGGA CAAGAAATGACCTTCGTCAACAGGGACTTCCATCTCGGACAAGTTACCGTACTTATGAACGGTAGCTTCTCTTAA CTTCTTCAATTCTTCGTGTTCTCTTGGGTAAGCGGAAGTTTCAAAGATGTACTTTTTCAATTCTTCGTTCTTCAA GATACCCTTAGATGGTATAAGATTTTCCATGTCTGGTTCCATTGTAAAGTTAGTTGGTTGCGCGACTTCGGGTGG GGTATGTTAATCTTGTGTTTACTTAACTATTGCTATTCTTGATGATAATTGAATAAGGTGCATAATGAAGAGCAA TTCACAACACCAAATTTTCAATCCAATTACTGATTGTTTATATATGTCTACAAAACTAATCCTATCTCCACATTT TAGCCTGCGAAATGTTTGTTTTTTAAACAATAGCTCTCCAGAACATTGTATAATTTAAGAATATGTGCACAGTTA ACTTTCTAGCAGGAGTATAATGCCATTTGCTCCCCATCTTGAGATGGGAAGGGCTTAACTAATCTCGGTTCGGAG TGATCCGCCCCGATACTGCCTTCTGCCTTAATATCGTCCAAGGCACATGGACCCCTGAACGGCGCAGATATCTCC GCACGGACGAAAGACCGCCGGTGCCTTCCTGAGGCAACCGCCCCTTTCGAATATAGATCACGTGACCCATTTTTA GCTACTAATAGAAAAAGAAATTGCAACCTACTTAAGCCATTCCGGAAGGAAGCTTTCCGATCACATGTAGGGACC GAATTGTTTACAAGTTCTCTGTACCACCATGGAGACATCAAAGATTGAAAATCTATGGAAAGATATGGACGGTAG CAACAAGAATATAGCACGAGCCGCGAAGTTCATTTCGTTACTTTTGATATCGCTCACAACTATTGCGAAGCGCTT CAGTGAAAAAATCATAAGGAAAAGTTGTAAATATTATTGGTAGTATTCGTTTGGTAAAGTAGAGGGGGTAATTTT TCCCCTTTATTTTGTTCATACATTCTTAAATTGCTTTGCCTCTCCTTTTGGAAAGCTATACTTCGGAGCACTGTT GAGCGAAGGCTCATTAGATATATTTTCTGTCATTTTCCTTAACCCAAAAATAAGGGAAAGGGTCCAAAAAGCGCT CGGACAACTGTTGACCGTGATCCGAAGGACTGGCTATACAGTGTTCACAAAATAGCCAAGCTGAAAATAATGTGT AGCTATGTTCAGTTAGTTTGGCTAGCAAAGATATAAAAGCAGGTCGGAAATATTTATGGGCATTATTATGCAGAG CATCAACATGATAAAAAAAAACAGTTGAATATTCCCTCAAAAATGGATATGGCAAGTAATGGTTCTGCCGGTGAG GTTAGAGAAGTTCACTCCTCCGAAACTACCAAGACTTTATTGAAATCCGATGCTTTATACGATTATATGTTGAAG ACTATGGTCTATCCAAGAGAGAACGAATTTATGAGAGAATTGAGACAAATCACTTCCGAACATATCTTCGGTTTC ATGTCTTCTCCACCAGATGAAGGTTTGTTATTGTCCTTGTTGTTAAAGGTTATGGGTGCTAAGAGAACCATCGAA GTCGGTGTCTACACTGGTTGTTCCGTCTTGACTACTGCCTTAGCTATCCCAGACGATGGTAGAATCATTGCTATT GACGTTTCCCGTGAATACTTTGACTTGGGTTTGCCAGTTATTAAGAAGGCCGGTGTTGCCCATAAGGTTGATTTC CGTGAAGGTCCTGCTGGTCCAATTTTGGACAAATTGATTGCTGATGAAGACGAAGGTTCTTTTGATTTCGCTTTC GTTGATGCCGATAAGTACAACTACGGTTCCTACCACGAACAATTGTTGAGATTGGTTAGAGTTGGTGGTGTTTTG GCTTACGACAATACCTTATGGGGTGGTACCGTCTCCATGCCAGATGACACTCCATTGACCGAAGAAGACAGAAAG AAGAGAGACTCCATTCGTGGTTTCAATGCCATGATTGCTGCCGACGCCAGAGTCGAACCAGTTCAATTACCAATC GCCGACGGTATTACCTTGTGCAGACGTGTCGTCTAAAGTTTCAGGCAGAACAAGACCCTTTTCAAAAATATGTAA GCCATTATTAAAAAAAAGGATATTTTGTATAATTGTTTAATAAAATAACATCTTTTTAAACAATCATAAATAGCA CTTCTTATCATACAACCTCAAATCATATCGGTCCAAATTTGCTCAAATTGTACATGAGATATAACTTTTTCTTCT AATGCTTTCATTTCAGAGTTTGTTTTTTTTTTTTCTTTTTTTTTTTTTTCCTTACCGGAGTCTGAATCTCTTACT TCCTTAACTTAGATGTTAGTGACTAAAATCTGATGGACAGTATCAAAATGTAAATATTGTACCTAAAAAGAAAAA AGTATTAAAGTGGTTTGCCATAAATTTTAAACAAGTGAAAAGTTTCAATATTTATATTTACATGATTGTGGACAA GCGGCATTGTCTACAGGCTGTGCAAAATTATATAGTACAGATAAATGTAACCAGAACAACGAAGAAAAGGTCCCT ATGTTGCAACGCGATCGCCGACGCCGCCGATGCTGATTATCAGGGTAAAAATGTCGTCATTATCGGCCTGGGCCT CACCGGGCTTTCCTGCGTGGACTTTTTCCTCGCTCGCGGTGTGACGCCGCGCGTTATGGATACGCGTATGACACC GCCTGGCCTGGATAAATTACCCGAAGCCGTAGAACGCCACACGGGCAGTCTGAATGATGAATGGCTGATGGCGGC AGATCTGATTGTCGCCAGTCCCGGTATTGCACTGGCGCATCCATCCTTAAGCGCTGCCGCTGATGCCGGAATCGA AATCGTTGGCGATATCGAGCTGTTCTGTCGCGAAGCACAAGCACCGATTGTGGCGATTACCGGTTCTAACGGCAA AAGCACGGTCACCACGCTAGTGGGTGAAATGGCGAAAGCGGCGGGGGTTAACGTTGGTGTGGGTGGCAATATTGG CCTGCCTGCGTTGATGCTACTGGATGATGAGTGTGAACTGTACGTGCTGGAACTGTCGAGCTTCCAGCTGGAAAC CACCTCCAGCTTACAGGCGGTAGCAGCGACCATTCTGAACGTGACTGAAGATCATATGGATCGCTATCCGTTTGG TTTACAACAGTATCGTGCAGCAAAACTGCGCATTTACGAAAACGCGAAAGTTTGCGTGGTTAATGCTGATGATGC CTTAACAATGCCGATTCGCGGTGCGGATGAACGCTGCGTCAGCTTTGGCGTCAACAATCGGGGGCGTCGGCGATC GCGTTGCAACATAGGGACCTTTTCTTCGTTGTTCTGGTTACATTTATCTGTACTATATAATTTTGCACAGCCTGT AGACAATGCCGCTTGTCCACAATCATGTAAATATAAATATTGAAACTTTTCACTTGTTTAAAATTTATGGCAAAC CACTTTAATACTTTTTTCTTTTTAGGTACAATATTTACATTTTGATACTGTCCATCAGATTTTAGTCACTAACAT CTAAGTTAAGGAAGTAAGAGATTCAGACTCCGGTAAGGAAAAAAAAAAAAAAGAAAAAAAAAAAACAAACTCTGA AATGAAAGCATTAGAAGAAAAAGTTATATCTCATGTACAATTTGAGCAAATTTGGACCGATATGATTTGAGGTTG TATGATAAGAAGTGCTATTTATGATTGTTTAAAAAGATGTTATTTTATTAAACAATTATACAAAATATCCTTTTT TTTAATAATGGCTTACATATTTTTGAAAAGGGTCTTGTTCTGCCTGAAACTTTAGACGACACGTCTGCACAAGGT AATACCGTCGGCGATTGGTAATTGAACTGGTTCGACTCTGGCGTCGGCAGCAATCATGGCATTGAAACCACGAAT GGAGTCTCTCTTCTTTCTGTCTTCTTCGGTCAATGGAGTGTCATCTGGCATGGAGACGGTACCACCCCATAAGGT ATTGTCGTAAGCCAAAACACCACCAACTCTAACCAATCTCAACAATTGTTCGTGGTAGGAACCGTAGTTGTACTT ATCGGCATCAACGAAAGCGAAATCAAAAGAACCTTCGTCTTCATCAGCAATCAATTTGTCCAAAATTGGACCAGC AGGACCTTCACGGAAATCAACCTTATGGGCAACACCGGCCTTCTTAATAACTGGCAAACCCAAGTCAAAGTATTC ACGGGAAACGTCAATAGCAATGATTCTACCATCGTCTGGGATAGCTAAGGCAGTAGTCAAGACGGAACAACCAGT GTAGACACCGACTTCGATGGTTCTCTTAGCACCCATAACCTTTAACAACAAGGACAATAACAAACCTTCATCTGG TGGAGAAGACATGAAACCGAAGATATGTTCGGAAGTGATTTGTCTCAATTCTCTCATAAATTCGTTCTCTCTTGG ATAGACCATAGTCTTCAACATATAATCGTATAAAGCATCGGATTTCAATAAAGTCTTGGTAGTTTCGGAGGAGTG AACTTCTCTAACCTCACCGGCAGAACCATTACTTGCCATATCCATTTTTGAGGGAATATTCAACTGTTTTTTTTT ATCATGTTGATGCTCTGCATAATAATGCCCATAAATATTTCCGACCTGCTTTTATATCTTTGCTAGCCAAACTAA CTGAACATAGCTACACATTATTTTCAGCTTGGCTATTTTGTGAACACTGTATAGCCAGTCCTTCGGATCACGGTC AACAGTTGTCCGAGCGCTTTTTGGACCCTTTCCCTTATTTTTGGGTTAAGGAAAATGACAGAAAATATATCTAAT GAGCCTTCGCTCAACAGTGCTCCGAAGTATAGCTTTCCAAAAGGAGAGGCAAAGCAATTTAAGAATGTATGAACA AAATAAAGGGGAAAAATTACCCCCTCTACTTTACCAAACGAATACTACCAATAATATTTACAACTTTTCCTTATG ATTTTTTCACTGAAGCGCTTCGCAATAGTTGTGAGCGATATCAAAAGTAACGAAATGAACTTCGCGGCTCGTGCT ATATTCTTGTTGCTACCGTCCATATCTTTCCATAGATTTTCAATCTTTGATGTCTCCATGGTGGTACAGAGAACT TGTAAACAATTCGGTCCCTACATGTGATCGGAAAGCTTCCTTCCGGAATGGCTTAAGTAGGTTGCAATTTCTTTT TCTATTAGTAGCTAAAAATGGGTCACGTGATCTATATTCGAAAGGGGCGGTTGCCTCAGGAAGGCACCGGCGGTC TTTCGTCCGTGCGGAGATATCTGCGCCGTTCAGGGGTCCATGTGCCTTGGACGATATTAAGGCAGAAGGCAGTAT CGGGGCGGATCACTCCGAACCGAGATTAGTTAAGCCCTTCCCATCTCAAGATGGGGAGCAAATGGCATTATACTC CTGCTAGAAAGTTAACTGTGCACATATTCTTAAATTATACAATGTTCTGGAGAGCTATTGTTTAAAAAACAAACA TTTCGCAGGCTAAAATGTGGAGATAGGATTAGTTTTGTAGACATATATAAACAATCAGTAATTGGATTGAAAATT TGGTGTTGTGAATTGCTCTTCATTATGCACCTTATTCAATTATCATCAAGAATAGCAATAGTTAAGTAAACACAA GATTAACATACCCCACCCGAAGTCGCGCAACCAACTAACTTTACAATGGAACCAGACATGGAAAATCTTATACCA TCTAAGGGTATCTTGAAGAACGAAGAATTGAAAAAGTACATCTTTGAAACTTCCGCTTACCCAAGAGAACACGAA GAATTGAAGAAGTTAAGAGAAGCTACCGTTCATAAGTACGGTAACTTGTCCGAGATGGAAGTCCCTGTTGACGAA GGTCATTTCTTGTCCATGTTGTTGAAGATGATGAACGCTAAGAACACCTTGGAATTGGGTGTTTTCACTGGTTAC TCTTTGTTAACCACCGCCTTGGCTTTGCCTGAAGACGGTAGAATTACTGCTATTGATATCGATAAAGAAGCTTAC GAAATGGGTTTGGAATTCATCAAGAACGCCGGTATCGATCACAAAATTAACTTTATCCAATCCGACGGTTTGCAA GCCTTAGACAAGTTGTTATCTGAAAACCCAAAGCCAGAATTTGACTTCGCTTTCGTTGACGCTGATAAGCCAAAT TACGTCCACGCTTTGGAAAGATTGATGAAGTTGGTCAAAGTTGGTGGTATCATTGCTTTCGATAACACCTTATGG TTCGGTTTCGTTGCTGAAGAGGAAGAGACTGTCCCAGTTCACTTAAGAGTTAACCGTAAGGCTTTGATGGAATTG AACAAAAGATTGGCTTCCGATCCAAGAATTGAAATCTCCCAAGTTTCCATCGGTGATGGTGTTACCTTGTGTAGA AGATTAGTCTAATAAAGTAAGAGCGCTACATTGGTCTACCTTTTTGTTCTTTTACTTAAACATTAGTTAGTTCGT TTTCTTTTTCTCATTTTTTTATGTTTCCCCCCCAAAGTTCTGATTTTATAATATTTTATTTCACACAATTCCATT TAACAGAGGGGGAATAGATTCTTTAGCTTAGAAAATTAGTGATCAATATATATTTGCCTTTCTTTTCATCTTTTC AGTGATATTAATGGTTTCGAGACACTGCAATGGCCCTAGTTGTCTAAGAGGATAGATGTTACTGTCAAAGATGAT ATTTTGAATTTCAATTGACGTAATTAATGATACTATTAATAATACAGAGCGTATATGAAGTATTGCAAATAACAT GCACAGTTCTTTTGGGATGAGAATGATAATGAAAGGCGAAGGCGGGCGTTCAGAAAAGCGTTGCGGAGTAACAAG TGATTAAATAGCACCCAAATAATCTTCTTTGATACTACCGATTGCGTGAATAGAACTCACTACCCCTCCTGATAT CTTTTTTTCGAACATATTGATGTTTTTCGTGGGTAACCATAGTTCTTGGAATGTCAACTGAGGGTATTTGCACTT CAAAAAAAAAAATTTATTAAATGAGACTATATACAGTGAGCACAACCTGTCTAATACAACGGCAAAAATTATATA CATTGGTAGATTTTCAAAATTGAACTCTTTGTGCTAAAGAATTGTCACAACAGTTTAAAAAATAGTTTGAATTCT TCAAATTGACCCCATATTAATAAGACCTGATGCGATTCCGGTCTCACCCAGATTAGAGAGGGAATTTAATTTTCT TAGGACCGTAGCTACCAAAAATCTTTGTGTGGTATTGATTATATGATCGTGCTTGCGAAAAAAATAGAAGACTAA AAGTAGCATTAGTTTACTAACTTTCTCCTCGTATCTTTCAAATTTGTATTCCCCTCAAAAGTTACTCAGGTTAGG GAAAATTCCAAGTAGCTTATCAAGATCAATTGCCATTAGTTGATTCAAGGCTTCATTGTCGGCGGTTTAAACGCG TGGCCGTGCCGTC SEQ ID NO: 19 Length: 8216 Type: Organism: artificial sequence Other information: MS153767 sequence

(248) TABLE-US-00043 GACGGCACGGCCACGCGTTTAAACCGCCTGCATACTTCAAGTTCAGGGTTGGACCTGCCAATGAAAATTTTAGAT ATGTTTGGCTCAGGTCTTCCTGTTATTGCAATGAACTATCCAGTGCTTGACGAATTAGTACAACACAATGTAAAT GGGTTAAAATTTGTTGATAGAAGGGAGCTTCATGAATCTCTGATTTTTGCTATGAAAGATGCTGATTTATACCAA AAATTGAAGAAAAATGTAACGCAGGAAGCTGAGAACAGATGGCAATCAAATTGGGAACGAACAATGAGAGATTTG AAGCTAATTCATTGAGTCAATGGTAACTCAGCCTTTCTTTTTTGAAAATTACTATTTTCGACTCTTTTTTTATAC AGTTACATAGTACTACCTCTAATACACATTCATGATTAACAATGTTTCAAACAATATAAAGTCCCGATAACGACC TTTTGAAGTGGTGACGTTACCGCTCTTCGTTGACAAGATTCAAGAGGGCTGTCAGAATAACAGCTATCATGGTGG AATCGATTACCTGCCTTGATACGCTGCCAGAATACATGTCACATGTAGGGACCGAATTGTTTACAAGTTCTCTGT ACCACCATGGAGACATCAAAGATTGAAAATCTATGGAAAGATATGGACGGTAGCAACAAGAATATAGCACGAGCC GCGAAGTTCATTTCGTTACTTTTGATATCGCTCACAACTATTGCGAAGCGCTTCAGTGAAAAAATCATAAGGAAA AGTTGTAAATATTATTGGTAGTATTCGTTTGGTAAAGTAGAGGGGGTAATTTTTCCCCTTTATTTTGTTCATACA TTCTTAAATTGCTTTGCCTCTCCTTTTGGAAAGCTATACTTCGGAGCACTGTTGAGCGAAGGCTCATTAGATATA TTTTCTGTCATTTTCCTTAACCCAAAAATAAGGGAAAGGGTCCAAAAAGCGCTCGGACAACTGTTGACCGTGATC CGAAGGACTGGCTATACAGTGTTCACAAAATAGCCAAGCTGAAAATAATGTGTAGCTATGTTCAGTTAGTTTGGC TAGCAAAGATATAAAAGCAGGTCGGAAATATTTATGGGCATTATTATGCAGAGCATCAACATGATAAAAAAAAAC AGTTGAATATTCCCTCAAAAATGGATACAAGAGAAGATCAATTAGAAAGACGTATTGCTGCCTTAACTGCTAACG ACCCTCAATTCGCCGCTGCCAGACCAGACGAAGCCGTTGCCACTGCCGTCCAAAGACCTGGTTTGAGATTACCAG AAGTCATCGAAACCGTCTTGCAAGGTTACGCTGACCGTCCAGCCTTAGGTCAAAGAGCTGTCGAATTTGTTAAAG ATCCAAACACTGGTAGAACCTCCGCCCATTTGTTACCAAGATTCGACACCATCACCTACAGAGAATTGGCTGATA GAGTCGGTGCTTTAGCTTCTGCTTGGGCTAGAGAAGCCGTTTCCCCAGGTGACAGAGTTGCCATTTTGGGTTTCA CTTCCGTTGACTATACTACCATTGATGTTACTTTGGCTAGAATTGGTGCTGTCTCTGTTCCATTACAAACCTCTG CTGCCTTGGCTCAATTAAGACCAATTGTTGTCGAAACCGAACCAACTGTTATCGCTGCTTCCGTTGATTACTTGT CCGACGCTGTTGAATTAATTAGAACTGGTCACGCCCCAGCCAGATTGGTTGTTTTTGATCATCACCCAGAAGTTG ACGATCACAGAGAAGCTTTGGACGCTGCTAGAGGTCGTTTGGCTGGTCACGCTGTCATTGTTGAAACTTTGGCTG AAGTCTTGGAGAGAGGTACTTCTTTGCCAGCTCCAACTGTTGCTGCCGAAGATAATGATTTGGCTTTGTTAATCT ACACCTCTGGTTCCACTGGTGCTCCAAAGGGTGCTATGTACCCACAAAGAAATGTTGCTAAGATGTGGCAAAGAT CTTCCAGAAACTGGTTCGGTCCTTCTGCCGCTTCTATTACCTTGAACTTTATGCCAATGTCCCATGTTATGGGTA GAGGTATTTTGTACGGTACCTTAGGTAACGGTGGTACTGCCTACTTCGGTGCTACCTCTGACTTGTCTACTTTGT TGGAAGACTTGACTTTGGTCAGACCTACCGAATTGAACTTCGTTCCAAGAGTCTGGGACACTTTGCATGCCGAGT TCTTGACTAGAGTCGACAGATTGACCGCTGAAGGTGCCGACAGAGCTTCCGCTGAGGCTTTGGTCATGGGTGACT TGAGAGACAACTTATTGGGTGGTCGTGCCATTTTCGCCATGACTGGTTCCGCTCCAATCTCTTCTCAATTGAAAA CTTGGGTTGAGTCCTTGTTGGGTATCCATTTATTGGACGGTTATGGTTCTACTGAAGCTGGTATGGTTTTGTACG ATGGTGTCGTCCAAAGACCTCCAGTCATTGACTACAAGTTAGCTGATGTCCCAGATTTGGGTTACTTTTCTACTG ATAGACCATTCCCAAGAGGTGAATTATTATTGAAAACTGAAAACATGTTCCCTGGTTACTACAAAAGACCAGAAA TCACCGCTGGTGTCTTCGATGATGACGGTTACTACCGTACTGGTGATGTTGTTGCTGAAGTCGGTCCAGATCGTT TGGTTTACGTCGATAGAAGAAACAATGTTTTAAAATTAGCTCAAGGTGAGTTCGTTACTGTTGCCAAGTTGGAAG CTGGTTTCAACAACTCCCCATTGGTCAGACAAATCTACATTTACGGTAACTCTGCTCATCCATACTTATTGGCTG TTGTTGTTCCTACTGATGTCAATGCCTCCAAGTCCGCTATTGCTGAATCCTTGCAAAGAGTCGCTAAGGACGCTG GTTTACAATCCTATGAAGTTCCTAGAGACTTCTTGATTGAACCAGAACCATTTACCTTGGAAAACGGTTTGTTAA CTGGTATTAGAAAGTTGGCTTGGCCTAAGTTGAAGGAGAGATACGGTGAACGTTTGGAACAATTGTACGCTGAAT TGGACAGATCCCAAGCTGACGAATTGTCTGAATTAAGAAGATCTGGTGCCCAAAGACCAGTTTTGGAAACTGTCA CCAGAGCTGCCGGTGCTTTGTTAGGTGCTGCTGCTTCTGAATTACAACCAGATGCTCACTTCACTGACTTGGGTG GTGACTCCTTGTCCGCTTTGACTTTCGGTAACTTGTTGAGAGAAATCTTTGACGTCGACGTCCCAGTCGGTGTTA TCGTTTCTCCAGCTTCTGACTTGCAAGCCATTGCTGGTTACATTGAAGCCGAAAGACAAGGTTCTAAAAGACCAA CCTTCGCCTCCGTTCATGGTAGAGCTGAGGAAGGTGAAGCTGTTGAGGTTAGAGCTAGAGATTTGCGTTTGGATA AGTTCTTGGACGCCAGAACCTTGGAGTACGTTCCAGCCTTGCCAGGTCCATCCACCGAATTGCGTACTGTTTTGT TGACTGGTGCTACTGGTTTCTTGGGTAGATATTTGGCTTTGGAATGGTTGGAGAGAATGGACGCTGTTGACGGTA CCGTTATCGCTTTAGTCAGAGCTAAGGACGACGCCGCTGCTAGAGAGAGATTGGACAGAACTTTCGACTCTGACC CTAAGTTGAGAGCCCACTACAGAGCTTTGGCCGCTGACCATTTGGAAGTTGTTGCTGGTGACAAGGGTGAAGCTA ACTTAGGTTTGTCTCAACAAGTTTGGCAAAGATTAGCCGACACTGTTGACGTTATCGTTGACCCAGCCGCTTTGG TCAACCACGTTTTACCATACTCTGAATTGTTTGGTCCAAATGTTTTGGGTACTGCCGAATTGATCAGATTGGCTT TGACTACCAAGATCAAGCCATACACTTACGTTTCCACCATCGGTGTTGGTGACCAAATCGAGCCAGGTAAGTTTA CTGAAGATGCTGACATCAGAGTTATTTCTCCAACTAGAAGAATTTCTGACTCTTACGCTAACGGTTACGGTAACT CCAAGTGGGCTGGTGAAGTCTTGTTGAGAGAAGCTCATGACAGATGTGGTTTGCCAGTCGCTGTTTTCAGATGTG ATATGATCTTGGCCGACACCACCTACGCCGGTCAATTAAACTTGCCAGATATGTTCACTCGTTTAATGTTGTCCT TGGCCGCTACTGGTATTGCCCCAAGATCTTTCTACGAATTGGATGCTGAAGGTAACAGACAACGTGCTCATTACG ACGGTTTGCCAGTCGAATTCATTGCTAAGGCTGTCTCTACTTTGGGTGCTCAAACTGTTGAGGGTTATCAAACCT ACCACGTCATGAACCCTCATGACGACGGTATTGGTTTGGACGAATACGTTGACTGGTTGATTGAAGCTGGTTACC CTATTCGTAGAGTTGACGACTACGCTGATTGGTTACAAAGATTTGAAACCGCTATGAGAGCTTTGCCAGACAGAC AAAGAAGATACTCCTTGTTGCCTTTGTTACATAACTACCAAAAGCCAGAAAAGCCAATGAGAGGTTCTATGGCTC CAACTGATAGATTTAGAGCTGCTGTTCAAGAAGCCAAAATTGGTCCAGACAAGGATATTCCACACGTCACCAGAG AAGTTATCGTCAAGTATGCTACTGATTTGCAATTGTTGGGTTTATTGGATGAAAAAAGAGTCTAAAAGGCTTTTT TATAAACTTTTTATAATTAACATTAAAGCAAAAACAACATTGTAAAGATTAACAAATAAATGAAAAAAACAACGA AATAACTTAGGTTTTAGGCTAAAAAAAACAGAAGGAATTTTGAACGATAAACTTTTCGACTGCACACGAAACATT ATTACTAATTTGTGTAACCACTATATAAGGAATCGTGTTTATTAATTGAATTTATTCCGGGAATATTCAAGTTAT GTATATCTCTTTTCATATTCTTAAATACACATACTCATAATATCTTGTCGAAAATACGCGGTGTAGGGAGTTATG GTGGATAACTTTTTCACGATTAGAAGAAAAGGAAAATTTCATTATTCGTAGCTTAACATGGCAAAAACGAGAAAG ACATATAATCAAAACGTGAGTTTCCTGTGGAAAAAAAAAAAAGGGAACCTCTGGTTACGATGATATACCTGCGTG AAAAAGGACAGTTATTACCAATACATACAAAGGCAACCTGCAGGCCGCGAGCGCCGATAAGATTATTACTTGCTA TAAGTGCGTGCCTGATGAACAGGATATTGCGGTCAATAATGCTGATGGTTCATTAGACTTCAGCAAAGCCGATGC CAAAATAAGCCAATACGATCTCAACGCTATTGAAGCGGCTTGCCAGCTAAAGCAACAGGCAGCAGAGGCGCAGGT GACAGCCTTAAGTGTGGGCGGTAAAGCCCTGACCAACGCCAAAGGGCGTAAAGATGTGCTATCGCGCGGCCCGGA TGAACTGATTGTGGTGATTGATGACCAGTTCGAGCAGGCACTGCCGCAACAAACGGCGAGCGCACTGGCTGCAGC CGCCCAGAAAGCAGGCTTTGATCTGATCCTCTGTGGCGATGGTTCTTCCGACCTTTATGCCCAGCAGGTTGGTCT GCTGGTGGGCGAAATCCTCAATATTCCGGCAGTTAACGGCGTCAGCAAAATTATCTCCCTGACGGCAGATACCCT CACCGTTGAGCGCGAACTGGAAGATGAAACCGAAACCTTAAGCATTCCGCTGCCTGCGGTTGTTGCTGTTTCCAC TGATATCAACTCCCCACAAATTCCTTCGATGAAAGCCATTCTCGGCGCGGCGAAAAAGCCCGTCCAGGTATGGTC GGCGGCGGATATTGGTTTTAACGCAGAGGCAGCCTGGTCAGAACAACAGGTTGCCGCGCCGAAACAGCGCGAACG TCAGCGCAATCGGCGCTCGCGGCCTGCAGGTTCCGTTACAGGAATGGATGATCCACCAATTATATCGACGGGGGC TAGAATCTTAGATCTCAGTACTCGCATTCTAGCGTATGTTTCTTGAAACTTGTAAGGGACTTTCGTCGAGGCCGG AGTGACAAGGATCGAGGGGTCCAATGGTGTGGCCCACCTGTTGGGCACATTGCCGTTTCTAACCACAATCCATTC GAAGTACTGCTTATTTGGCAGCGATTTAACCCAGTCGATATCCACGGGTTGAGGGACAACCTCTTCTTGTTTGAT TTTGGTCCTTTTCTCCGGTAGGAGTTCTGATTCTGGCCCAGTTTCAGTCTTTACCAGCGGTCTTTTCCTCAGAAT TGCCATAGATGAGTATTTACTGATCTTTTGCATATTTTTTTTTTTTTTTTAAGTATATATAGATACAAATATATG ATGAATCATTAAAGAGGAGGTTATTACTAAGTGAAAGAAAAAGAAAAAAAAAAAGATCAAAACCAAACTTCGTAT TCGAGCCTAAAAAACAGAATATAATGTTAAGCGTAAGCGATAGCAGTCAAGATGAAACCGTCAGCAATCAACCAT CTACCATCAAAAGACAACAATGGGGTACCACCATCGTTAGTTTGACCAGGAACCAATAATTCGGAGTGGAAAGTA CCGTTACCAGAATCAGCAGAACCATCTTCAATTTCGAAAGTAATGTGAGCTTCCTCGAAACCTAACCATCTGGCA GTCAATGGCCACCAAGCCTTGTAAGTAGCTTCTTTGGCACAAAATAACAATCTGTCTAAATGTAAAGCAGAATCG GTAGTCTTCAACCATTCTCTTTCTGGTGGCAAGGAAACGGAATCCAAGACACCTTCTGGCAAGGTAGCGTGTGGT TCGGCGTCGATACCGATGGATCTGAATCTCATCTTATGAGCAACAGCAGCGGCTCTGTAACCGTCACAGTGAGTC AAAGAACCGACAACACCTCTTGGCCAAATAGGAGCACCACGTTCACCTTTACCGATAGCGACTGGTGGTTCACCC AATTCAGCCAAAGCTAATCTAGCACAATGTCTGGCACCAATAAAGTCTCTTCTTCTCTTTTCGACAGATTTGGCG ATTAAATGTTCCTCGGCTGGGTGAGCTTTTAAGTCTTCAGGGTACTCTAACAATTCAGCAGACTCAACTCCAGCA GGAAGAATGGTTTCAATCATTTTTGAGGGAATATTCAACTGTTTTTTTTTATCATGTTGATGCTCTGCATAATAA TGCCCATAAATATTTCCGACCTGCTTTTATATCTTTGCTAGCCAAACTAACTGAACATAGCTACACATTATTTTC AGCTTGGCTATTTTGTGAACACTGTATAGCCAGTCCTTCGGATCACGGTCAACAGTTGTCCGAGCGCTTTTTGGA CCCTTTCCCTTATTTTTGGGTTAAGGAAAATGACAGAAAATATATCTAATGAGCCTTCGCTCAACAGTGCTCCGA AGTATAGCTTTCCAAAAGGAGAGGCAAAGCAATTTAAGAATGTATGAACAAAATAAAGGGGAAAAATTACCCCCT CTACTTTACCAAACGAATACTACCAATAATATTTACAACTTTTCCTTATGATTTTTTCACTGAAGCGCTTCGCAA TAGTTGTGAGCGATATCAAAAGTAACGAAATGAACTTCGCGGCTCGTGCTATATTCTTGTTGCTACCGTCCATAT CTTTCCATAGATTTTCAATCTTTGATGTCTCCATGGTGGTACAGAGAACTTGTAAACAATTCGGTCCCTACATGT GACATGTATTCTGGCAGCGTATCAAGGCAGGTAATCGAAAGATGGCAAATAGCCTTGTCAAATTTCCTACGGAAT GTTATTTTCATTACGTCCTTCTTTTTCAATGTACTTATTCATAAATGGGACACTATCTTGTTGCAAAAGGTACTT TGTATTTTGGTATTAACATCTCGCCTATTTTTCATACAGAAACACTACTTATCGCTATCTATTTGATGTGGTATT GCTTGGCCATGAGGATACCTTGAGCTACGTTTTGAACACGTGCATCCAACTTGTAGCCTTGTTGATCCAACTTAA CCATTTCATCAGGAAACTTGTGCAACTCAACGCTAAAGCATTCGATAAATTCATTATCTTCCAATTGAGTAACTG GTTTTTGGTTTTCAGGTAAACTCATATCAACTTCGACAGTAACCAGACAGAGGTTGGTGTTTGTGAAACCAGGAT CGTTAAAAACTGTTGGGCTTTTAGAAATTATTTTACCACTGTAACCAGTCTCTTCTTTTAATTCTCTTAAGGCAG CAGTGTCAATATCGGCGGTTTAAACGCGTGGCCGTGCCGTC SEQ ID NO: 20 Length: 2942 Type: Organism; artificial sequence Other information: MS172561 sequence

(249) TABLE-US-00044 GACGGCACGGCCACGCGTTTAAACCGCCATAATAAAATGGAAGCCGCGAGTACGAACAATGATGTGTTCTGGGAA TACCTCGTCAAAACAAGACAATGGCAAGGATTTTCTTTCATCAGGCAGAAAGATCTGGATCTGAATGGCATCATT TTGTGATGTGTAAAAGCGGGACCTTGTTATTTCGACTTTTTGCATCATGTTGATGCAATTTGCTACTTTTCCGAC GGTGCGCTCCAACGGATGGGTATTTCCTTAATAACAAGGCATTTCTCTGGAAGTTGGCTTACTGTTTGAAATCAC AGCCGGTCACAAAATAAAGTAAAAAAACTATCTCTCTCCACAAGAAGTAATTACAGGTTGTATACTACATATGAT CGTATTTCTTTATGAACACTAAGGAGTTTCCCGCTGTGTACCGCAATATCCACACAAAAGGAAGGAAGAAACTTC TGTGGCTTGACAGATAAATAACTGCAGTAGTCGGTGCGTACTAATTGTTTGGTCGTGTCTGAAAAATCTTGAATT TTCCTCCCGCGTGCGAGATAAAAGGGTTGGCAATACCACCATATACATATCCATATCTAATCTTACTTATATGTT GTGGAAATGTAAAGAGCCCCATTATCTTAGCCTAAAAAAACCTTCTCTTTGGAACTTTCAGTAATACGCTTAACT GCTCATTGCTATATTGAAGTACGGATTAGAAGCCGCCGAGCGGGCGACAGCCCTCCGACGGAAGACTCTCCTCCG TGCGTCCTGGTCTTCACCGGTCGCGTTCCTGAAACGCAGATGTGCCTCGCGCCGCACTGCTCCGAACAATAAAGA TTCTACAATACTAGCTTTTATGGTTATGAAGAGGAAAAATTGGCAGTAACCTGGCCCCACAAACCTTCAAATCAA CGAATCAAATTAACAACCATAGGATAATAATGCGATTAGTTTTTTAGCCTTATTTCTGGGGTAATTAATCAGCGA AGCGATGATTTTTGATCTATTAACAGATATATAAATGCAAAAGCTGCATAACCACTTTAACTAATACTTTCAACA TTTTCGGTTTGTATTACTTCTTATTCAAATGTCATAAAAGTATCAACAAAAAATTGTTAATATACCTCTATACTT ACCTCCCGCGACCTCCAAAATCGAACTACCTTCACAATGCCCAGTAAATTGGCTATAACTTCCATGTCCTTGGGC AGGTGTTATGCAGGCCATTCTTTCACAACTAAGTTAGACATGGCTAGGAAATATGGTTACCAGGGTTTGGAGTTG TTTCATGAGGACTTAGCCGATGTCGCATACAGGTTGTCAGGTGAAACACCTAGTCCATGCGGTCCCAGTCCAGCT GCTCAATTATCAGCCGCTAGACAGATATTGAGGATGTGCCAGGTTAGAAACATCGAAATAGTGTGCTTGCAACCC TTTTCACAATATGATGGTTTATTGGATAGAGAGGAGCACGAGAGGAGGTTGGAGCAATTAGAGTTTTGGATTGAA TTGGCCCACGAGTTGGATACTGACATCATTCAAATTCCAGCCAATTTCTTGCCCGCCGAAGAAGTCACAGAAGAT ATTTCATTAATTGTGAGTGACTTACAGGAAGTTGCCGATATGGGTTTACAGGCAAACCCTCCAATAAGGTTTGTA TATGAGGCATTATGCTGGTCCACTAGAGTTGACACTTGGGAGAGGTCTTGGGAAGTTGTCCAAAGAGTAAATAGA CCTAACTTTGGCGTTTGCTTAGACACTTTTAACATCGCAGGTAGAGTTTATGCTGACCCCACAGTTGCCTCAGGC AGAACACCAAACGCTGAAGAAGCAATTAGAAAGTCAATTGCCAGGTTGGTCGAAAGGGTCGATGTATCTAAAGTC TTCTACGTTCAAGTAGTGGACGCCGAAAAGTTAAAGAAACCATTAGTTCCCGGTCATAGATTCTATGACCCTGAG CAACCAGCCAGAATGTCATGGTCAAGAAATTGTAGGTTGTTCTACGGCGAAAAAGACAGAGGCGCTTACTTACCT GTTAAAGAAATCGCTTGGGCTTTTTTCAATGGATTGGGCTTCGAAGGTTGGGTGTCCTTGGAATTATTTAACAGA AGAATGTCAGATACTGGATTTGGAGTTCCAGAGGAGTTAGCTAGGAGAGGCGCCGTATCATGGGCCAAATTAGTT AGAGATATGAAAATCACAGTGGATTCTCCAACTCAACAACAAGCTACACAGCAGCCTATTAGAATGTTGTCCTTA TCTGCAGCCTTATAAAAAGCTTCGACACATACATAATAACTCGATAAGGTATGGTATCTTATTTCATTGTGGGGT AGTTTTTACGAAAAAAATGAAAAGTTGTAAGTATAGTATATATTTTTTTTCTATGTAAGTTTTATAACCTGCAGG CCGCGAGCGCCGATAGTACTCCCCTACGATTTTAGATACTTTAGAGAGCCCACCTTCAGAATCGGAAGGAGGATA ATTTTGTAAAGCCCTTCTGTTTTTTCTCTTGCATAACTTATATTTCCACATCAAAAAGTAGTGTGCTAAGAAAAA GGAGACGAGAAAAAGGATTACGGCACTCTCTGCATCTAGACATATACCAAAAGTTGGGTTTGCTCACGAAAATAC CATAATTGTGGTGTCAAAAAAATCCTGCCTCATAATACCACTGCAGCAATTGTGGATGACTAAAAAATAACTTGC ATTCCACGATGTTATTTTACTTTATAAAGCACCTGCAATTTTTTTTTTTGTATTAACTCATCGAGTATGTCTGAT GTGTAAACTGAACCAGGCTTAATATCGTTTCTAATTCTTGTTGTGAGAAAACTTTCCTGCCTAGTGTATTTCGTC AGGGCGAACCTTCGGATAGGCACCGAACTCCGAGATTCTTGCTCCAATTTAAGAAATAAGCTTTCGGTGTTTAAA CCCCAGCGCCTGGCGGG SEQ ID NO: 21 Length: 8441 Type: Organism: artificial sequence Other information: MS167660 sequence

(250) TABLE-US-00045 GACGGCACGGCCACGCGTTTAAACCGCCAAAAACTCACAAGAAGTTCGGTGTCCTTATTTGCGATGGGAATTGCT AATATCATATCACCACAAATATGGAGAGAGAAGGACTCTCCTCGCTTTTTACCTGCCTGGATTGTTCAAATCGTT TTATCATTCTCTCTTGCACCAGCCATTTTGTTACTGATCCATTTCATACTAAAAAGAAGGAATAATCAAAGACTA AAAAATTATGACGAAAATTTACAAAATTATTTGGACAGAATTCAACTCATTGAAAGCGAAAATCCTTCTTCCATT GAAGAAGGGAAAGTGGTAACCCACGAGAACAATTTGGCAGTCTTTGATTTGACTGATTTAGAAAACGAAACTTTT ATATATCCTTTGTAAATATTGATGTTTTGTTGTGTAAATGTTCTATCTGACACTTAATAATTAGAAAATTAATTT TTTAAACTTTCCGGCTGCAAGAAAGAGGAACTGTGTCTCTTTGAAAGGCACAATTTCCCAAAGAATCATTTACAA TGCGGAGATTACCGAGCATTCTGGGTAGTGAGTTCTATTCACGCAATCGGTAGTATCAAAGAAGATTATTTGGGT GCTATTTAATCACTTGTTACTCCGCAACGCTTTTCTGAACGCCCGCCTTCGCCTTTCATTATCATTCTCATCCCA AAAGAACTGTGCATGTTATTTGCAATACTTCATATACGCTCTGTATTATTAATAGTATCATTAATTACGTCAATT GAAATTCAAAATATCATCTTTGACAGTAACATCTATCCTCTTAGACAACTAGGGCCATTGCAGTGTCTCGAAACC ATTAATATCACTGAAAAGATGAAAAGAAAGGCAAATATATATTGATCACTAATTTTCTAAGCTAAAGAATCTATT CCCCCTCTGTTAAATGGAATTGTGTGAAATAAAATATTATAAAATCAGAACTTTGGGGGGGAAACATAAAAAAAT GAGAAAAAGAAAACGAACTAACTAATGTTTAAGTAAAAGAACAAAAAGGTAGACCAATGTAGCGCTCTTACTTTA TTAGACTAATCTTCTACACAAGGTAACACCATCACCGATGGAAACTTGGGAGATTTCAATTCTTGGATCGGAAGC CAATCTTTTGTTCAATTCCATCAAAGCCTTACGGTTAACTCTTAAGTGAACTGGGACAGTCTCTTCCTCTTCAGC AACGAAACCGAACCATAAGGTGTTATCGAAAGCAATGATACCACCAACTTTGACCAACTTCATCAATCTTTCCAA AGCGTGGACGTAATTTGGCTTATCAGCGTCAACGAAAGCGAAGTCAAATTCTGGCTTTGGGTTTTCAGATAACAA CTTGTCTAAGGCTTGCAAACCGTCGGATTGGATAAAGTTAATTTTGTGATCGATACCGGCGTTCTTGATGAATTC CAAACCCATTTCGTAAGCTTCTTTATCGATATCAATAGCAGTAATTCTACCGTCTTCAGGCAAAGCCAAGGCGGT GGTTAACAAAGAGTAACCAGTGAAAACACCCAATTCCAAGGTGTTCTTAGCGTTCATCATCTTCAACAACATGGA CAAGAAATGACCTTCGTCAACAGGGACTTCCATCTCGGACAAGTTACCGTACTTATGAACGGTAGCTTCTCTTAA CTTCTTCAATTCTTCGTGTTCTCTTGGGTAAGCGGAAGTTTCAAAGATGTACTTTTTCAATTCTTCGTTCTTCAA GATACCCTTAGATGGTATAAGATTTTCCATGTCTGGTTCCATTGTAAAGTTAGTTGGTTGCGCGACTTCGGGTGG GGTATGTTAATCTTGTGTTTACTTAACTATTGCTATTCTTGATGATAATTGAATAAGGTGCATAATGAAGAGCAA TTCACAACACCAAATTTTCAATCCAATTACTGATTGTTTATATATGTCTACAAAACTAATCCTATCTCCACATTT TAGCCTGCGAAATGTTTGTTTTTTAAACAATAGCTCTCCAGAACATTGTATAATTTAAGAATATGTGCACAGTTA ACTTTCTAGCAGGAGTATAATGCCATTTGCTCCCCATCTTGAGATGGGAAGGGCTTAACTAATCTCGGTTCGGAG TGATCCGCCCCGATACTGCCTTCTGCCTTAATATCGTCCAAGGCACATGGACCCCTGAACGGCGCAGATATCTCC GCACGGACGAAAGACCGCCGGTGCCTTCCTGAGGCAACCGCCCCTTTCGAATATAGATCACGTGACCCATTTTTTA GCTACTAATAGAAAAAGAAATTGCAACCTACTTAAGCCATTCCGGAAGGAAGCTTTCCGATCACATGTAGGGACC GAATTGTTTACAAGTTCTCTGTACCACCATGGAGACATCAAAGATTGAAAATCTATGGAAAGATATGGACGGTAG CAACAAGAATATAGCACGAGCCGCGAAGTTCATTTCGTTACTTTTGATATCGCTCACAACTATTGCGAAGCGCTT CAGTGAAAAAATCATAAGGAAAAGTTGTAAATATTATTGGTAGTATTCGTTTGGTAAAGTAGAGGGGGTAATTTT TCCCCTTTATTTTGTTCATACATTCTTAAATTGCTTTGCCTCTCCTTTTGGAAAGCTATACTTCGGAGCACTGTT GAGCGAAGGCTCATTAGATATATTTTCTGTCATTTTCCTTAACCCAAAAATAAGGGAAAGGGTCCAAAAAGCGCT CGGACAACTGTTGACCGTGATCCGAAGGACTGGCTATACAGTGTTCACAAAATAGCCAAGCTGAAAATAATGTGT AGCTATGTTCAGTTAGTTTGGCTAGCAAAGATATAAAAGCAGGTCGGAAATATTTATGGGCATTATTATGCAGAG CATCAACATGATAAAAAAAAACAGTTGAATATTCCCTCAAAAATGGCTATAAACAACGAAGGCCAACAACAAAAC CAAAACCAACAATTGATCGGTCACAAAGATTTGGCTCATAAGACCTTGTTACAATCTGACGCCTTATACCAATAC ATTTTGGATACCTCTGTTCACCCAAGAGAACACCCATGTTTGAAGGAATTGCGTGAAATGACTGAAAAGCACCCA AGAAACTTGATGGCCACCCCTGCTGATGAAGGTCAATTGTTGTCTATGTTAATCAAATTGATCAATGCTAAGAAC ACCTTAGAAATTGGTGTTTTTACCGGTTACTCTTTGTTGTCTACTGCTTTAGCTTTGCCATCTGACGGTAAGATT TTGGCTTTGGACGTTTCTCGTGAATACTACGAATTGGGTTTACCAATTATCGAAAAGGCTGGTGTCGCTCACAAG ATCGACTTTCGTGAAGGTCCTGCTTTGCCATTATTGGACCAATTATTGCAAGATGTCACCAAGGAAAACAACAAG GGTATTTTTGATTTTGTTTTCGTCGATGCCGATAAGGACAACTATTTAAACTACCACAAGAGAGTTATCGATTTG GTCAAGATTGGTGGTTTGATCGGTTACGACAACACCTTATGGTCCGGTTCCGTTGTCGCTCCACCAGACGCTCCA TTAATGGATTATGTTAAGCATTACAGACCACATGTTATTGCCTTGAACAAGTACTTGGCTCAAGACTCCCGTATT GAAATTTGTCAATTGCCAGTCGGTGATGGTATCACCTTGTGTAGAAGAACCACTTAAGAGTATGCTTCTCTTTTT TTTTGTAGGCCAGTGATAGGAAAGAACAATAGAATATAAATACGTCAGAATATAATAGATATGTTTTTATATTTA GACCTCGTACATAGGAATAATTGACGTTTTTTTTGGCCAACATTTGAAATTTTTTTTTGTTACCTCGCGCTGAGC CCAAACGGGCTCCACTACCCGAACGCGATCGCCGACGCCGCCGATGCTGATTATCAGGGTAAAAATGTCGTCATT ATCGGCCTGGGCCTCACCGGGCTTTCCTGCGTGGACTTTTTCCTCGCTCGCGGTGTGACGCCGCGCGTTATGGAT ACGCGTATGACACCGCCTGGCCTGGATAAATTACCCGAAGCCGTAGAACGCCACACGGGCAGTCTGAATGATGAA TGGCTGATGGCGGCAGATCTGATTGTCGCCAGTCCCGGTATTGCACTGGCGCATCCATCCTTAAGCGCTGCCGCT GATGCCGGAATCGAAATCGTTGGCGATATCGAGCTGTTCTGTCGCGAAGCACAAGCACCGATTGTGGCGATTACC GGTTCTAACGGCAAAAGCACGGTCACCACGCTAGTGGGTGAAATGGCGAAAGCGGCGGGGGTTAACGTTGGTGTG GGTGGCAATATTGGCCTGCCTGCGTTGATGCTACTGGATGATGAGTGTGAACTGTACGTGCTGGAACTGTCGAGC TTCCAGCTGGAAACCACCTCCAGCTTACAGGCGGTAGCAGCGACCATTCTGAACGTGACTGAAGATCATATGGAT CGCTATCCGTTTGGTTTACAACAGTATCGTGCAGCAAAACTGCGCATTTACGAAAACGCGAAAGTTTGCGTGGTT AATGCTGATGATGCCTTAACAATGCCGATTCGCGGTGCGGATGAACGCTGCGTCAGCTTTGGCGTCAACAATCGG CGGCGTCGGCGATCGCGTTCGGGTAGTGGAGCCCGTTTGGGCTCAGCGCGAGGTAACAAAAAAAAATTTCAAATG TTGGCCAAAAAAAACGTCAATTATTCCTATGTACGAGGTCTAAATATAAAAACATATCTATTATATTCTGACGTA TTTATATTCTATTGTTCTTTCCTATCACTGGCCTACAAAAAAAAAGAGAAGCATACTCTTAAGTGGTTCTTCTAC ACAAGGTGATACCATCACCGACTGGCAATTGACAAATTTCAATACGGGAGTCTTGAGCCAAGTACTTGTTCAAGG CAATAACATGTGGTCTGTAATGCTTAACATAATCCATTAATGGAGCGTCTGGTGGAGCGACAACGGAACCGGACC ATAAGGTGTTGTCGTAACCGATCAAACCACCAATCTTGACCAAATCGATAACTCTCTTGTGGTAGTTTAAATAGT TGTCCTTATCGGCATCGACGAAAACAAAATCAAAAATACCCTTGTTGTTTTCCTTGGTGACATCTTGCAATAATT GGTCCAATAATGGCAAAGCAGGACCTTCACGAAAGTCGATCTTGTGAGCGACACCAGCCTTTTCGATAATTGGTA AACCCAATTCGTAGTATTCACGAGAAACGTCCAAAGCCAAAATCTTACCGTCAGATGGCAAAGCTAAAGCAGTAG ACAACAAAGAGTAACCGGTAAAAACACCAATTTCTAAGGTGTTCTTAGCATTGATCAATTTGATTAACATAGACA ACAATTGACCTTCATCAGCAGGGGTGGCCATCAAGTTTCTTGGGTGCTTTTCAGTCATTTCACGCAATTCCTTCA AACATGGGTGTTCTCTTGGGTGAACAGAGGTATCCAAAATGTATTGGTATAAGGCGTCAGATTGTAACAAGGTCT TATGAGCCAAATCTTTGTGACCGATCAATTGTTGGTTTTGGTTTTGTTGTTGGCCTTCGTTGTTTATAGCCATTT TTGAGGGAATATTCAACTGTTTTTTTTTATCATGTTGATGCTCTGCATAATAATGCCCATAAATATTTCCGACCT GCTTTTATATCTTTGCTAGCCAAACTAACTGAACATAGCTACACATTATTTTCAGCTTGGCTATTTTGTGAACAC TGTATAGCCAGTCCTTCGGATCACGGTCAACAGTTGTCCGAGCGCTTTTTGGACCCTTTCCCTTATTTTTGGGTT AAGGAAAATGACAGAAAATATATCTAATGAGCCTTCGCTCAACAGTGCTCCGAAGTATAGCTTTCCAAAAGGAGA GGCAAAGCAATTTAAGAATGTATGAACAAAATAAAGGGGAAAAATTACCCCCTCTACTTTACCAAACGAATACTA CCAATAATATTTACAACTTTTCCTTATGATTTTTTCACTGAAGCGCTTCGCAATAGTTGTGAGCGATATCAAAAG TAACGAAATGAACTTCGCGGCTCGTGCTATATTCTTGTTGCTACCGTCCATATCTTTCCATAGATTTTCAATCTT TGATGTCTCCATGGTGGTACAGAGAACTTGTAAACAATTCGGTCCCTACATGTGATCGGAAAGCTTCCTTCCGGA ATGGCTTAAGTAGGTTGCAATTTCTTTTTCTATTAGTAGCTAAAAATGGGTCACGTGATCTATATTCGAAAGGGG CGGTTGCCTCAGGAAGGCACCGGCGGTCTTTCGTCCGTGCGGAGATATCTGCGCCGTTCAGGGGTCCATGTGCCT TGGACGATATTAAGGCAGAAGGCAGTATCGGGGCGGATCACTCCGAACCGAGATTAGTTAAGCCCTTCCCATCTC AAGATGGGGAGCAAATGGCATTATACTCCTGCTAGAAAGTTAACTGTGCACATATTCTTAAATTATACAATGTTC TGGAGAGCTATTGTTTAAAAAACAAACATTTCGCAGGCTAAAATGTGGAGATAGGATTAGTTTTGTAGACATATA TAAACAATCAGTAATTGGATTGAAAATTTGGTGTTGTGAATTGCTCTTCATTATGCACCTTATTCAATTATCATC AAGAATAGCAATAGTTAAGTAAACACAAGATTAACATACCCCACCCGAAGTCGCGCAACCAACTAACTTTACAAT GGAACCAGACATGGAAAATCTTATACCATCTAAGGGTATCTTGAAGAACGAAGAATTGAAAAAGTACATCTTTGA AACTTCCGCTTACCCAAGAGAACACGAAGAATTGAAGAAGTTAAGAGAAGCTACCGTTCATAAGTACGGTAACTT GTCCGAGATGGAAGTCCCTGTTGACGAAGGTCATTTCTTGTCCATGTTGTTGAAGATGATGAACGCTAAGAACAC CTTGGAATTGGGTGTTTTCACTGGTTACTCTTTGTTAACCACCGCCTTGGCTTTGCCTGAAGACGGTAGAATTAC TGCTATTGATATCGATAAAGAAGCTTACGAAATGGGTTTGGAATTCATCAAGAACGCCGGTATCGATCACAAAAT TAACTTTATCCAATCCGACGGTTTGCAAGCCTTAGACAAGTTGTTATCTGAAAACCCAAAGCCAGAATTTGACTT CGCTTTCGTTGACGCTGATAAGCCAAATTACGTCCACGCTTTGGAAAGATTGATGAAGTTGGTCAAAGTTGGTGG TATCATTGCTTTCGATAACACCTTATGGTTCGGTTTCGTTGCTGAAGAGGAAGAGACTGTCCCAGTTCACTTAAG AGTTAACCGTAAGGCTTTGATGGAATTGAACAAAAGATTGGCTTCCGATCCAAGAATTGAAATCTCCCAAGTTTC CATCGGTGATGGTGTTACCTTGTGTAGAAGATTAGTCTAATAAAGTAAGAGCGCTACATTGGTCTACCTTTTTGT TCTTTTACTTAAACATTAGTTAGTTCGTTTTCTTTTTCTCATTTTTTTATGTTTCCCCCCCAAAGTTCTGATTTT ATAATATTTTATTTCACACAATTCCATTTAACAGAGGGGGAATAGATTCTTTAGCTTAGAAAATTAGTGATCAAT ATATATTTGCCTTTCTTTTCATCTTTTCAGTGATATTAATGGTTTCGAGACACTGCAATGGCCCTAGTTGTCTAA GAGGATAGATGTTACTGTCAAAGATGATATTTTGAATTTCAATTGACGTAATTAATGATACTATTAATAATACAG AGCGTATATGAAGTATTGCAAATAACATGCACAGTTCTTTTGGGATGAGAATGATAATGAAAGGCGAAGGCGGGC GTTCAGAAAAGCGTTGCGGAGTAACAAGTGATTAAATAGCACCCAAATAATCTTCTTTGATACTACCGATTGCGT GAATAGAACTCACTACCCAGAATGCTCGGTAATCTCCGAACATATTGATGTTTTTCGTGGGTAACCATAGTTCTT GGAATGTCAACTGAGGGTATTTGCACTTCAAAAAAAAAAATTTATTAAATGAGACTATATACAGTGAGCACAACC TGTCTAATACAACGGCAAAAATTATATACATTGGTAGATTTTCAAAATTGAACTCTTTGTGCTAAAGAATTGTCA CAACAGTTTAAAAAATAGTTTGAATTCTTCAAATTGACCCCATATTAATAAGACCTGATGCGATTCCGGTCTCAC CCAGATTAGAGAGGGAATTTAATTTTCTTAGGACCGTAGCTACCAAAAATCTTTGTGTGGTATTGATTATATGAT CGTGCTTGCGAAAAAAATAGAAGACTAAAAGTAGCATTAGTTTACTAACTTTCTCCTCGTATCTTTCAAATTTGT ATTCCCCTCAAAAGTTACTCAGGTTAGGGAAAATTCCAAGTAGCTTATCAAGATCAATTGCCATTAGTTGATTCA AGGCTTCATTGTCGGCGGTTTAAACGCGTGGCCGTGCCGTC SEQ ID NO: 22 Length: 2855 Type Organism: artificial sequence Other information: MS188586 sequence

(251) TABLE-US-00046 GACGGCACGGCCACGCGTTTAAACCGCCTTATGGCAGCTGCTGTTGACTGCGGTGGCGTCCCGTTTCCACACCGT ACGTGAGCACATGTCTGGATTGCTAGCTGCGTACATAGTGACAGGCCTTGTCTACGCTCGCGACGCAGCCGCGCT ACGTCCAGTATGACTCAGGAAAAGTTGGCGATAGACCACGAGCGACTGAAAAAATAACAGCGACTTTTCTCCCGG TAGCGGGCCGTCGTTTAGTCATTCTATCCCTCGGATTATAGACTGTGAATATTGCATATGCAACTTTGACTCAAA TTTTTCCAAAATTTGATATATATATATATATATATATGTTTGTATGTATATATATATATACGTATATATATCATA TATACGAAAAGTAGAAAAAAAAAGGTGATATTTCGCTCGTGGAAAAGCTAATGCCACAGCTTGTGTTTCGTGTAG TTTGCCTTGCTCCCCTTGATTGAAATAGTCTCCCTAAACTAAAGTTATCAGCAAACAGAACCACCACAGTTACTA CTACAACCACATCGCAATATGAAGATCACAGAAAAATTAGAGCAACATAGACAGACCTCTGGCAAGCCCACTTAC TCATTCGAGTACTTCGTCCCGAAGACTACACAAGGTGTACAGAACCTGTATGACCGGATGGACCGGATGTACGAG GCTTCTTTGCCCCAATTTATTGACATCACCTGGAATGCAGGCGGTGGACGGTTGTCACATCTGTCCACGGACTTG GTTGCGACAGCGCAGTCTGTGCTTGGTTTGGAAACGTGCATGCACCTTACCTGCACCAATATGCCCATTTCGATG ATTGACGACGCTTTAGAAAACGCTTATCACTCCGGTTGCCAGAACATCCTAGCGCTGAGAGGAGATCCTCCTAGG GACGCAGAAAACTGGACTCCCGTTGAAGGTGGCTTCCAGTATGCCAAGGACTTGATTAAGTATATCAAGTCCAAG TACGGTGACCATTTCGCTATCGGCGTTGCCGGCTACCCGGAGTGCCATCCGGAGTTGCCTAACAAAGACGTGAAG CTTGATCTCGAGTATTTGAAGCAGAAGATCGACGCCGGCGGCGACTTCATCATCACTCAGATGTTTTACGATGTT GATAATTTCATCAACTGGTGTTCCCAAGTTAGAGCTGCGGGCATGGACGTGCCCATTATTCCCGGGATCATGCCG ATCACTACCTACGCGGCCTTCTTGAGAAGGGCCCAATGGGGCCAAATCTCCATCCCTCAACATTTCTCGTCCCGA TTGGATCCTATCAAGGACGATGACGAGTTGGTCCGTGATATCGGAACTAACTTGATCGTGGAAATGTGTCAAAAA TTGCTCGACAGTGGTTACGTTTCTCACTTGCACATCTACACCATGAACTTGGAAAAAGCGCCTCTCATGATTCTG GAAAGATTGAACATTCTACCTACGGAATCAGAGTTCAATGCACATCCATTGGCCGTGTTGCCATGGAGAAAATCT TTGAATCCAAAGCGTAAAAACGAGGAAGTCAGACCTATCTTCTGGGCGAATAGACCCAAATCTTATATTTCACGT ACTAAGGGTTGGAATGACTTTCCACACGGTAGATGGGGTGATTCTCACTCCGCCGCTTACTCTACTTTATCCGAC TACCAATTCGCTCGTCCAAAGGGTAGAGACAAGAAGTTGCAACAAGAATGGGTCGTTCCTTTGAAATCTATCGAA GACGTCCAAGAAAAGTTCAAGGAATTGTGTATTGGTAACTTAAAGTCTTCTCCATGGTCTGAATTGGATGGTTTG CAACCAGAAACCAAGATTATCAACGAGCAATTGGGTAAGATTAACTCTAACGGTTTCTTGACCATTAACTCTCAA CCATCTGTTAACGCTGCTAAGTCCGATTCTCCAGCTATTGGTTGGGGTGGTCCAGGTGGTTACGTTTACCAAAAA GCTTACTTGGAATTCTTCTGTTCCAAGGATAAGTTGGACACCTTGGTCGAAAAGTCCAAGGCCTTCCCTTCTATC ACTTACATGGCTGTTAACAAGTCTGAAAACTGGGTTTCTAACACTGGTGAATCTGATGTTAACGCCGTTACTTGG GGTGTCTTCCCAGCTAAGGAAGTCATCCAACCAACCATTGTCGACCCAGCTTCCTTCAAAGTTTGGAAGGATGAA GCTTTCGAAATCTGGTCTAGATCTTGGGCTAACTTGTATCCAGAAGATGACCCATCTCGTAAGTTGTTAGAAGAG GTTAAGAACTCTTACTACTTGGTTTCTTTAGTCGATAACAACTACATTAACGGTGATATCTTCTCTGTTTTTGCC TAATAACACAGACAACGATAACAGTTCTTTAACAGAATTGTCAACCCCCCCTCTTTGCATTACATTCAACATTAC ATTGCATTTTTTTTTTTTTATTCACTATTATTATGGTTCTTCTTTTTTACCAGATTTTGCTCCTTCCTTTTCCAT TGTTTTACCATTCTTTTTTAACTAGCATTTCAACATGTGTTTGGTTAACACCCCTTCTTTTTTTTCAGGAAAATC CTTTCATTTCTTCTCATACTTTCAACAAAGTTTTTTAAAGGTACTTTAAAATAGTTCAACACCCTCTTCCTTCAT TTATTTATTCTCTTCATATTCAACATACTCGAAAAGGAAGAACACTAAAAGTACTTACATTTTCACATGTATGTA TACCTATATATATATATATATATACTCTTATAGATATATTTACAAATTAAAGGAAAAAATAATAAAATAACCTCC CTGTCACAAGTTAAAACACGGCCCCATCACTTATAAATAGTCTCGACTCGTGCGGTGTTTAAACCCCAGCGCCTG GCGGG SEQ ID NO: 23 Length: 11309 Type; Organism: artificial sequence Other information: MS173680 sequence

(252) TABLE-US-00047 GACGGCACGGCCACGCGTTTAAACCGCCGAAATCACCTCCAAAGTTATGTTGCCGATTAGGCAAATACTCTAAAA GTATAGTACTAAAGAACTACGTAAAGGTAAAATAAAACACCTGAATTTCATTTCTGAAATGAAGTACCATCATGA AATATGATGAAAGTCAAGACTCGTTGGGTCAATATACACCACAAAAAAAGGTACACACGAATGGTTTAACCCTTT CGGTTCCTTCTGTAAATCGAAAAATGCCCTTTATACAGCGGGTTGGTCTCCCATCAAAGTTGAGAAGCGATTAGA AATTAGGTTACCTAATGAATCCATAAATAAATGGAAAACGCTATTTTGTTCGAACGATGGAATAAAAATATGAAC GGGTGTCATTGAAATTCGGTGTATTTTTTGATCGGGCCTGATCTGGCTCGGGTTTGGCACAATTTGGCTTGGTTA GTTCGGCAAAGCTTATTTAAAGAACCTTTTTGGATAGCCAATTGAGAGACTTGAAATAGAAAGATCGTAAGTATT TTTACGCTCGTCCAACGCCGGCGGACCTATGAAGATCACAGAAAAATTAGAGCAACATAGACAGACCTCTGGCAA GCCCACTTACTCATTCGAGTACTTCGTCCCGAAGACTACACAAGGTGTACAGAACCTGTATGACCGGATGGACCG GATGTACGAGGCTTCTTTGCCCCAATTTATTGACATCACCTGGAATGCAGGCGGTGGACGGTTGTCACATCTGTC CACGGACTTGGTTGCGACAGCGCAGTCTGTGCTTGGTTTGGAAACGTGCATGCACCTTACCTGCACCAATATGCC CATTTCGATGATTGACGACGCTTTAGAAAACGCTTATCACTCCGGTTGCCAGAACATCCTAGCGCTGAGAGGAGA TCCTCCTAGGGACGCAGAAAACTGGACTCCCGTTGAAGGTGGCTTCCAGTATGCCAAGGACTTGATTAAGTATAT CAAGTCCAAGTACGGTGACCATTTCGCTATCGGCGTTGCCGGCTACCCGGAGTGCCATCCGGAGTTGCCTAACAA AGACGTGAAGCTTGATCTCGAGTATTTGAAGCAGAAGATCGACGCCGGCGGCGACTTCATCATCACTCAGATGTT TTACGATGTTGATAATTTCATCAACTGGTGTTCCCAAGTTAGAGCTGCGGGCATGGACGTGCCCATTATTCCCGG GATCATGCCGATCACTACCTACGCGGCCTTCTTGAGAAGGGCCCAATGGGGCCAAATCTCCATCCCTCAACATTT CTCGTCCCGATTGGATCCTATCAAGGACGATGACGAGTTGGTCCGTGATATCGGAACTAACTTGATCGTGGAAAT GTGTCAAAAATTGCTCGACAGTGGTTACGTTTCTCACTTGCACATCTACACCATGAACTTGGAAAAAGCGCCTCT CATGATTCTGGAAAGATTGAACATTCTACCTACGGAATCAGAGTTCAATGCACATCCATTGGCCGTGTTGCCATG GAGAAAATCTTTGAATCCAAAGCGTAAAAACGAGGAAGTCAGACCTATCTTCTGGGCGAATAGACCCAAATCTTA TATTTCACGTACTAAGGGTTGGAATGACTTTCCACACGGTAGATGGGGTGATTCTCACTCCGCCGCTTACTCTAC TTTATCCGACTACCAATTCGCTCGTCCAAAGGGTAGAGACAAGAAGTTGCAACAAGAATGGGTCGTTCCTTTGAA ATCTATCGAAGACGTCCAAGAAAAGTTCAAGGAATTGTGTATTGGTAACTTAAAGTCTTCTCCATGGTCTGAATT GGATGGTTTGCAACCAGAAACCAAGATTATCAACGAGCAATTGGGTAAGATTAACTCTAACGGTTTCTTGACCAT TAACTCTCAACCATCTGTTAACGCTGCTAAGTCCGATTCTCCAGCTATTGGTTGGGGTGGTCCAGGTGGTTACGT TTACCAAAAAGCTTACTTGGAATTCTTCTGTTCCAAGGATAAGTTGGACACCTTGGTCGAAAAGTCCAAGGCCTT CCCTTCTATCACTTACATGGCTGTTAACAAGTCTGAAAACTGGGTTTCTAACACTGGTGAATCTGATGTTAACGC CGTTACTTGGGGTGTCTTCCCAGCTAAGGAAGTCATCCAACCAACCATTGTCGACCCAGCTTCCTTCAAAGTTTG GAAGGATGAAGCTTTCGAAATCTGGTCTAGATCTTGGGCTAACTTGTATCCAGAAGATGACCCATCTCGTAAGTT GTTAGAAGAGGTTAAGAACTCTTACTACTTGGTTTCTTTAGTCGATAACAACTACATTAACGGTGATATCTTCTC TGTTTTTGCCTAATGTAAAGTTAGTTGGTTGCGCGACTTCGGGTGGGGTTACTTTTTTTTTGGATGGACGCAAAG AAGTTTAATAATCATATTACATGGCAATACCACCATATACATATCCATATCTAATCTTACTTATATGTTGTGGAA ATGTAAAGAGCCCCATTATCTTAGCCTAAAAAAACCTTCTCTTTGGAACTTTCAGTAATACGCTTAACTGCTCAT TGCTATATTGAAGTACGGATTAGAAGCCGCCGAGCGGGCGACAGCCCTCCGACGGAAGACTCTCCTCCGTGCGTC CTGGTCTTCACCGGTCGCGTTCCTGAAACGCAGATGTGCCTCGCGCCGCACTGCTCCGAACAATAAAGATTCTAC AATACTAGCTTTTATGGTTATGAAGAGGAAAAATTGGCAGTAACCTGGCCCCACAAACCTTCAAATCAACGAATC AAATTAACAACCATAGGATAATAATGCGATTAGTTTTTTAGCCTTATTTCTGGGGTAATTAATCAGCGAAGCGAT GATTTTTGATCTATTAACAGATATATAAATGCAAAAGCTGCATAACCACTTTAACTAATACTTTCAACATTTTCG GTTTGTATTACTTCTTATTCAAATGTCATAAAAGTATCAACAAAAAATTGTTAATATACCTCTATACTTACCTCC CGCGACCTCCAAAATCGAACTACCTTCACAATGGTTCAATCTGCTGTCTTAGGGTTCCCAAGAATCGGTCCAAAC AGAGAATTAAAGAAGGCCACTGAAGGTTACTGGAACGGTAAAATCACTGTCGATGAATTATTCAAAGTCGGTAAG GATTTGAGAACTCAAAACTGGAAGTTGCAAAAGGAGGCTGGTGTTGATATCATCCCATCCAATGACTTCTCCTTT TACGACCAAGTTTTGGATTTGTCTTTGTTGTTCAATGTCATTCCAGACCGTTACACTAAGTACGATCTATCTCCA ATCGACACTTTGTTTGCTATGGGTAGAGGTTTACAAAGAAAGGCCACTGAAACTGAAAAGGCTGTCGACGTCACT GCTTTGGAAATGGTTAAATGGTTCGACTCTAACTACCATTACGTTAGACCAACTTTCTCCAAGACCACTCAATTT AAGTTGAACGGCCAAAAGCCAGTTGACGAATTTTTGGAAGCCAAGGAGTTAGGTATTCACACTAGACCTGTCTTG TTAGGTCCAGTTTCTTACTTATTCTTGGGTAAGGCTGACAAGGATTCTCTAGATTTGGAACCATTGTCCCTATTG GAACAATTGTTGCCTCTATACACTGAAATCCTATCTAAATTGGCTTCTGCTGGTGCCACTGAAGTTCAAATTGAC GAACCTGTCTTAGTTTTGGACTTGCCTGCCAACGCCCAAGCCGCCATTAAGAAGGCTTACACTTACTTCGGTGAA CAAAGCAATCTACCAAAGATTACTTTGGCTACTTACTTCGGTACCGTTGTCCCTAACTTAGACGCCATCAAGGGC TTGCCAGTTGCTGCCTTACACGTTGACTTTGTTAGAGCTCCAGAACAATTTGATGAAGTCGTTGCCGCCATTGGT AACAAACAAACCTTGTCCGTTGGTATTGTTGATGGTAGAAACATTTGGAAGAATGATTTCAAGAAGTCTTCCGCT ATCGTTAACAAGGCTATTGAAAAGTTGGGTGCTGACAGAGTCGTTGTTGCCACTTCTTCTTCTCTATTGCACACA CCAGTTGACTTGAACAACGAAACCAAGTTGGACGCTGAAATCAAGGGCTTTTTCTCTTTCGCCACTCAAAAATTG GATGAAGTTGTTGTGATCACCAAGAACGTTTCCGGTCAAGACGTTGCTGCTGCCCTAGAAGCTAACGCTAAATCT GTTGAATCCAGAGGTAAATCCAAGTTTATCCACGATGCTGCCGTTAAGGCCAGAGTTGCCTCTATCGACGAAAAA ATGTCTACTAGAGCAGCTCCATTTGAACAAAGATTGCCTGAACAACAAAAAGTCTTCAACTTGCCATTGTTCCCA ACAACAACTATTGGTTCCTTCCCTCAAACCAAGGACATCAGAATTAACAGAAACAAATTCAACAAGGGTACCATC TCTGCTGAAGAATATGAAAAATTCATCAATTCTGAAATTGAAAAGGTCATCAGATTCCAAGAAGAAATTGGTTTG GATGTCTTAGTCCACGGTGAACCAGAAAGAAACGATATGGTTCAATACTTCGGTGAACAAATCAACGGTTATGCT TTCACTGTTAACGGTTGGGTTCAATCTTACGGTTCCAGATATGTCAGACCACCAATTATTGTTGGTGACTTGTCC AGACCAAAGGCTATGTCCGTCAAGGAATCTGTTTACGCTCAATCCATCACTTCTAAGCCAGTAAAGGGTATGTTG ACTGGTCCAATTACCTGTTTGAGATGGTCTTTCCCAAGAGACGATGTCGACCAAAAAACTCAAGCTATGCAATTA GCTTTGGCTTTGAGAGATGAAGTCAATGATTTGGAAGCTGCCGGTATCAAGGTTATCCAAGTTGATGAACCAGCT TTAAGAGAAGGTTTACCATTGAGAGAAGGTGCTGAGAGATCTGCTTACTACACCTGGGCTGCCGAAGCTTTCAGA GTTGCTACTTCTGGTGTTGCTAACAAGACTCAAATACACTCTCATTTCTGTTACTCTGACTTGGATCCAAACCAT ATCAAGGCTTTGGATGCTGATGTTGTTTCCATCGAATTCTCTAAGAAGGACGATGCTAACTACATTGCTGAATTC AAAAACTATCCAAACCACATTGGTCTGGGTTTATTCGATATTCATTCTCCAAGAATTCCATCAAAGGATGAATTT ATCGCCAAGATTTCAACCATCTTGAAGAGCTACCCAGCTGAAAAGTTCTGGGTTAACCCAGACTGTGGTTTGAAG ACTAGAGGCTGGGAAGAAACTAGATTGTCTTTGACTCATATGGTCGAAGCCGCCAAGTACTTCCGTGAACAATAC AAGAATTAAGGTTTTAAAAAGGAAGCAAAGTAATGATATTTTCTGAACTTTTTGTTTTTTATTCTGGGATTCAAC ATCGGTGATTTAATTTTTGTGTTCACATTTAAAAGTTTATTTGGGTAATTTTTTGATATCAATTTTATTACAAAG CCATAACTCTTGCATTTTTTTTATTATATTTTTATATACACGTACATTCTGTATTATTTATAACGCATTCAAACG CGATCGCCGACGCCGCCGATgatcatctacccatgccgaaattcgggccgttggccggattgcgcgttgtcttct ccggtatcgaaatcgccggaccgtttgccgggcaaatgttcgcagaatggggcgcggaagttatctggatcgaga acgtcgcctgggccgacaccattcgcgttcaaccgaactacccgcaactctcccgccgcaatttgcacgcgctgt cgttaaatattttcaaagatgaaggccgcgaagcgtttctgaaattaatggaaaccaccgatatcttcatcgaag ccagtaaaggtccggcctttgcccgtcgtggcattaccgatgaagtactgtggcagcacaacccgaaactggtta tcgctcacctgtccggttttggtcagtacggcaccgaggagtacaccaatcttccggcctataacactatcgccc aggcctttagtggttacctgattcagaacggtgatgttgaccagccaatgcctgccttcccgtataccgccgatt acttttctggcctgaccgccaccacggcggcgctggcagcactgcataaagtgcgtgaaaccggtaaaggcgaaa gtatcgacatcgccatgtatgaagtgatgctgcgtatgggccagtacttcatgatggattacttcaacggcggcg aaatgtgcccgcgcatgagcaaaggtaaagatccctactacgccgATCGGCGGCGTCGGCGATCGCGTTGAATGA AAATAGAGATCAGAAATTTTGTGATTATTTGGAATCTAAATTACAACGTGACAAACAACTTGTAAATGGCGGCTC CAAGAAAAGGAAAGCCAATGATTAGCATATGCCTCTTCTTCTTAGAAGGGCGTTCTGCCCGTTATGTATACGTTA AATATTACATTATTTTCGCATTTTTGTATTTATATTCAGTGAAATATTAGGCTTGGTCGAGTAACATTTCCCATA GCTCGTCGGTTTCTTTGAAGTCGTGATGAACAATTGAGACAAGACAGTAGTCTTTATGCACTAGTCTTAGAAGAA TATTGGCTGGGGTGTTCCTTGGAAATAACTTGGCCCACTCGGACCAGATACTAAACGCTTCATCTCTCCATGCCT TGAATGACTCTTCTTCAATGATTGTAGTCTGTTTGACCGGACTGTTGGGAAAAACACCCCATGTTACAACGCTAG AGCTGTGCGGGTCTAGGTTCGTTTCAAATGAACCAGATGAATCGCCCGCGTAATAACTGAATTTCCGACGCCCGT AATGGTCTAGCTTGGGTTTCAAAGTTGTTTCCCATTGCTGTCTATGAATAAACATTTCTACGAATGCCTTCTGAT ACAACCTCCCTTTCGCGGGCCCCCAGCCGAATATTTTATCACTACTCAATGTAGCATTTGTGGCAGGTTGCGATG CCAAAGTCAAATATCCGCGATAGTTTAGTTGGATTAGTTCTTCTTGTATTAACGCCGTTTCAGCTGATAAACCCA GGTCAGACCAGGGAATCGCATCCGTTGAACCTTCCAAATATTTTATAAAAATATCTTTTAAATCGCCAATTGTCT TTGGTATACCCCATAGTTCAAGCGCTTTGCTTTTGCTTACCTTGATGGATGGCCCATAACCGTCTATTTCACCAT ATGCGGGAGACCTGGAGTCACCAAATCTACCATTGGGGAACTCATCCCAAGTGGCATCACGACCCAAAGTTCCGT GACCTTTAGAAATAGATATTAAAGCCTTTTTAGATGGCATGGAACCATTCTCATTATTATAGCGTAAGCCTTTTT CAGTGACGATAGCCCTATTGAAAATCAACTTGGCCGAATCAAGACTTGAATGCCTTCTCCTTTTCCGGTTTGCTA CAGTTTCTTCATTCGAATCATCCAACACAATATCCCCGTCAGCATCTTCTATTGGCACATTTTCTATGCTTCCTA TTTCGCCACTGGTTTCATCTTCTCCCTCTTCTTCGCTAGATTCATTTACGATATGGGATAAGACGGGAGATTGCG AGACAATTTGAGCAATAGCCTTTTCCAAATTTAATGTATAGAAATGAAACCCTTTAATTCTACCAGATGTTCTTT GATATATTTCCTGAATCAATTCGATAAGAATGTCCACACCAATGGACTTCACGGCATTATCATCCGATTGGATTT CTGGGGGGAACCTACTCAGTATTGCAGGTGGAATAGATGCATGTGATAACTTTGCTGCTCTGTGGAAAAGCAGAT AGGAGTTAATAGGCATCAACCCAGGGAAAAGGGGCAAATCTTGCGAAATCCGTTCCCGAAATAGCATTTCAAAAG TTAAGAATTTTTCAACGTCGTAAAACAGTTGTGTTATCACAAAATCGGCCCCAGCTTCAACTTTTTCTTTTAAAT ATACCAAATCCTTCAATGGGTCTTGCTCGTGACCTTCTGCTTCACCTTCACAATGACCTTCTGGATATGCTGCAA CACCGACGCAGAACTTGTCTCCGTAGCTTTGCTTGATATAACGAACTAAATCAACCGCATATTTAAAAGGTGATT CGTTCGATTGAGAATCTAGCCAATCTTCCCCAATAGGTGGGTCACCTCGAAGAGCCAAAATATTCCTGATTCCTG CATTATAACATCTATCCAGCGCATCATCAATGATGGCTTTTTCTGTGTTTGTACAGGTCAAATGCATACAAACTG GTATATTTAGTGTCTGCTGTGCCAAGGAAGCTAATGTCAGAGTCTTTTCCGCAGTAGTACCACCTGCTCCCCAAG TAACCGTGATAAACAGTGGATCTAAAGCAGTCATACGATGCATACGTTCCATCAAATTTCTCGTCCCTAATTCAG TCTTTGGAGGGAAGAATTCTAACGATATAAAAGGGGAAGCCCTCGCATGATATAAATCTCTGATGGACATTGTGA AGGTAGTTCGATTTTGGAGGTCGCGGGAGGTAAGTATAGAGGTATATTAACAATTTTTTGTTGATACTTTTATGA CATTTGAATAAGAAGTAATACAAACCGAAAATGTTGAAAGTATTAGTTAAAGTGGTTATGCAGCTTTTGCATTTA TATATCTGTTAATAGATCAAAAATCATCGCTTCGCTGATTAATTACCCCAGAAATAAGGCTAAAAAACTAATCGC ATTATTATCCTATGGTTGTTAATTTGATTCGTTGATTTGAAGGTTTGTGGGGCCAGGTTACTGCCAATTTTTCCT CTTCATAACCATAAAAGCTAGTATTGTAGAATCTTTATTGTTCGGAGCAGTGCGGCGCGAGGCACATCTGCGTTT CAGGAACGCGACCGGTGAAGACCAGGACGCACGGAGGAGAGTCTTCCGTCGGAGGGCTGTCGCCCGCTCGGCGGC TTCTAATCCGTACTTCAATATAGCAATGAGCAGTTAAGCGTATTACTGAAAGTTCCAAAGAGAAGGTTTTTTTAG GCTAAGATAATGGGGCTCTTTACATTTCCACAACATATAAGTAAGATTAGATATGGATATGTATATGGTGGTATT GCCATGTAATATGATTATTAAACTTCTTTGCGTCCATCCAAAAAAAAAGTAACCCCACCCGAAGTCGCGCAACCA ACTAACTTTACAATGCCTTACACTCTATCCGACGCTCATCATAAGTTGATCACCTCTCATTTGGTGGACACCGAC CCTGAAGTGGACTCCATTATCAAGGATGAAATTGAAAGACAAAAGCACTCCATCGATTTGATTGCTTCTGAAAAT TTCACCTCAACCTCCGTTTTCGATGCCCTTGGAACTCCATTGTCCAACAAATATTCTGAAGGTTATCCAGGTGCT CGTTACTACGGTGGTAATGAACACATTGACAGAATGGAAATTCTATGTCAACAAAGAGCTTTAAAAGCTTTCCAT GTTACTCCAGACAAATGGGGTGTTAACGTCCAAACTTTATCTGGTTCTCCTGCTAACTTGCAAGTTTATCAAGCT ATTATGAAGCCTCATGAAAGATTGATGGGTCTATACCTACCAGATGGTGGTCATTTGTCTCACGGTTACGCTACT GAAAACAGAAAAATTTCTGCTGTTTCCACATACTTCGAATCTTTCCCATACAGAGTTAACCCAGAAACCGGTATT ATCGACTACGATACTTTAGAAAAGAACGCCATCCTATATAGACCAAAGGTTCTTGTTGCTGGTACTTCAGCATAC TGTCGTTTAATTGACTACAAGAGAATGAGAGAAATCGCCGACAAATGTGGTGCTTACTTGATGGTAGACATGGCC CACATTTCAGGTTTGATCGCCGCAGGTGTCATCCCATCTCCTTTCGAATACGCTGATATCGTTACCACCACCACT CACAAGTCTTTGAGAGGTCCACGTGGTGCTATGATTTTCTTCAGAAGAGGTGTGAGATCTATCAACCCTAAGACC GGTAAGGAAGTCCTATACGACTTGGAAAACCCAATTAACTTCTCTGTTTTCCCAGGTCACCAAGGTGGTCCACAC AACCATACCATTGCTGCTTTGGCCACTGCTTTGAAGCAAGCTGCCACTCCAGAATTCAAGGAATACCAAACTCAA GTCTTGAAGAATGCTAAGGCTTTGGAAAGTGAATTTAAGAACTTGGGCTACAGATTAGTTTCCAACGGTACCGAT TCTCACATGGTTCTGGTATCCTTGAGAGAAAAGGGTGTTGATGGTGCTCGTGTTGAATACATTTGTGAAAAGATT AACATTGCTTTGAACAAAAACTCTATTCCAGGTGACAAATCTGCTTTGGTTCCAGGTGGTGTCCGTATTGGGGCT CCAGCCATGACCACTAGAGGAATGGGTGAAGAAGATTTCCACAGAATTGTTCAATACATTAACAAGGCTGTAGAA TTCGCTCAACAAGTTCAACAAAGCTTGCCAAAGGATGCTTGTAGATTAAAGGACTTCAAAGCCAAGGTCGACGAA GGCTCTGATGTTTTGAACACCTGGAAAAAGGAAATTTACGACTGGGCTGGCGAATACCCATTGGCTGTGTAAAGA AATCACCACAACGACACTTAATCCCAAAAAAATAAACATTACTGTATAAGTATTCATTTTCTCCTCTTCTCATTA TGTATATATGTACCTATATGTATGTATGTATGTGCGTACGATTTTTCTAACGTTAACTTCATTTCTTTTTGATTA TGTGCCCTCCTTGAGTTAAGATGTGCTTGTCCAGGTCCGCCGGCGTTGGACGAGCGAATTAAGCTTTCGAGAAAA ACTTTCTTTTAACCCCTCTAATCTAAATATAAACATATAGCTTATAGAAATGAATGAATATTTTAAATAGTTACG GATACAAAGAGTTCATTATAGTGCGGGCAGTTAGTACGGTATCGATTTATCATTGGAGATCTGCAGTGTTACAGA AGCACTGCTCACCAGTTGTCTACGGAAGGACGTTGAGATAGTTTTACCACGTTTGAGCTAAAAGTTTCTACCACA AGAGCCTTTATTTGCACATGGCAGTGAATGCATGATTAAGGATATGAAGAAGAAAGGAATAACTAGGAATAAATT TTATTTAGAGAGGGTATGATGAAAGGAGAGCCTCGTTATTTATGACCTGCATTTTTATCAGCATCTTCTTTCCAG CTCCCGCTAAACATGTGCTTTACAAAAGCCATTTTGTCGTCACTAGACTGGGCGCCCATCTGCCCCACATCTGGT GAAAAACTTGTTATTGGTAGAACCATCACATGGCGGTTTAAACGCGTGGCCGTGCCGTC SEQ ID NO: 24 Length: 2128 Type: Organism: artificial sequence Other information: MS 116593 sequence

(253) TABLE-US-00048 GACGGCACGGCCACGCGTTTAAACCGCCCTAATACCCAGCCAAGGTAGTCTAAAAGCTAATTTCTCTAAAAGGGA GAAAGTTGGTGATTTTTTATCTCGCATTATTATATATGCAAGAATAGTTAAGGTATAGTTATAAAGTTTTATCTT AATTGCCACATACGTACATTGACACGTAGAAGGACTCCATTATTTTTTTCATTCTAGCATACTATTATTCCTTGT AACGTCCCAGAGTATTCCATTTAATTGTCCTCCATTTCTTAACGGTGACGAAGGATCACCATACAACAACTACTA AAGATTATAGTACACTCTCACCTTGCAACTATTTATCTGACATTTGCCTTACTTTTATCTCCAGCTTCCCCTCGA TTTTATTTTTCAATTTGATTTCTAAAGCTTTTTGCTTAGGCATACCAAACCATCCACTCATTTAACACCTTATTT TTTTTTTCGAAGACAGCATCCAACTTTATACGTTCACTACCTTTTTTTTTACAACAATTTCATTCTTCATCCTAT GAACGCTCGTCCAACGCCGGCGGACCTTGGAACTTTCAGTAATACGCTTAACTGCTCATTGCTATATTGAAGTAC GGATTAGAAGCCGCCGAGCGGGCGACAGCCCTCCGACGGAAGACTCTCCTCCGTGCGTCCTGGTCTTCACCGGTC GCGTTCCTGAAACGCAGATGTGCCTCGCGCCGCACTGCTCCGAACAATAAAGATTCTACAATACTAGCTTTTATG GTTATGAAGAGGAAAAATTGGCAGTAACCTGGCCCCACAAACCTTCAAATCAACGAATCAAATTAACAACCATAG GATAATAATGCGATTAGTTTTTTAGCCTTATTTCTGGGGTAATTAATCAGCGAAGCGATGATTTTTGATCTATTA ACAGATATATAAATGCAAAAGCTGCATAACCACTTTAACTAATACTTTCAACATTTTCGGTTTGTATTACTTCTT ATTCAAATGTCATAAAAGTATCAACAAAAAATTGTTAATATACCTCTATACTTTAACGTCAAGGAGAAAAAACTA TAGATGCACGAGCGCAACGCTCACAAACAGGCCCCTTTTCCTTTGTCGATATCATGTAATTAGTTATGTCACGCT TACATTCACGCCCTCCCCCCACATCCGCTCTAACCGAAAAGGAAGGAGTTAGACAACCTGAAGTCTAGGTCCCTA TTTATTTTTTTATAGTTATGTTAGTATTAAGAACGTTATTTATATTTCAAATTTTTCTTTTTTTTCTGTACAAAC GCGTGTACGCATGTAACATTATACTGAAAACCTTGCTTGAGAAGGTTTTGGGACGCTCGAAGGCTTTAATTTGCA AGCTTCGCAGTTTACACTCTCATCGTCGCTCTCATCATCGCTTCCGTTGTTGTTTTCCTTAGTAGCGTCTGCTTC CAGAGAGTATTTATCTCTTATTACCTCTAAAGGTTCTGCTTGATTTCTGACTTTGTTCGCCTCATGTGCATATTT TTCTTGGTTCTTTTGGGACAAAATATGCGTAAAGGACTTTTGTTGTTCCCTCACATTCCAGTTTAGTTGTCGACT GATCCCCGCGTGCTTGGCCGGCCGTCTCCATGCTGGACTTACTCGTCGAAGATTTCCTGCTACTCTCTATATAAT TAGACACCCATGTTATAGATTTCAGAAAACAATGTAATAATATATGGTAGCCTCCTGAAACTACCAAGGGAAAAA TCTCAACACCAAGAGCTCATATTCGTTGGAATAGCGATAATATCTCTTTACCTCAATCTTATATGCATGTTATTT GCTCTTATAATTGGTCTCTATTTAGGGAAAAAAGTCGGTTTGAGAGCTTCTCGCGATGTGAAATCTCAATTTGAA CTGCACGCCAAAGCTAGCCCATTTCACGAACACCAGAAAGAAGAAATCCCCAAGGATCGCATGACAGAGTATGCT CTCTCATATCGTTGAGTATGAATGCCAATACACTGATCAGCTTTACAAGAAACGTAAAATCTGGCACGATGGTAG ACTGAAATACTTTCAGTTAAACAACAGATTCATGCTTTATACGGAAAAGGATAACGTTTTGTTAGCTAGTGAATT CGGTGTTTAAACCCCAGCGCCTGGCGGG

Modified host cells for high efficiency production of vanillin

Assignee

Inventors

Cpc classification

Classification Explorer

C12Y205/01054

CHEMISTRY; METALLURGY

Classification Explorer

C12N1/185

CHEMISTRY; METALLURGY

Classification Explorer

C12Y205/01006

CHEMISTRY; METALLURGY

Classification Explorer

C12Y402/01118

CHEMISTRY; METALLURGY

Classification Explorer

C12P19/46

CHEMISTRY; METALLURGY

Classification Explorer

C12Y201/01014

CHEMISTRY; METALLURGY

Classification Explorer

C12Y402/0101

CHEMISTRY; METALLURGY

Classification Explorer

C12Y204/01126

CHEMISTRY; METALLURGY

Classification Explorer

C12Y105/0102

CHEMISTRY; METALLURGY

Classification Explorer

C12R2001/865

CHEMISTRY; METALLURGY

Classification Explorer

C12Y201/02001

CHEMISTRY; METALLURGY

Classification Explorer

C12P7/26

CHEMISTRY; METALLURGY

Classification Explorer

C12N15/52

CHEMISTRY; METALLURGY

Classification Explorer

C12Y303/01001

CHEMISTRY; METALLURGY

Classification Explorer

C12Y207/08007

CHEMISTRY; METALLURGY

Classification Explorer

C12Y402/03004

CHEMISTRY; METALLURGY

International classification

Classification Explorer

C12P7/26

CHEMISTRY; METALLURGY

Classification Explorer

C12N1/18

CHEMISTRY; METALLURGY

Classification Explorer

C12N15/52

CHEMISTRY; METALLURGY

Classification Explorer

C12P19/46

CHEMISTRY; METALLURGY

Classification Explorer

C12R1/865

CHEMISTRY; METALLURGY

Abstract

Claims

Description